Формат FASTQ
-
Основы формата FASTQ
- FASTQ — это формат для представления данных секвенирования, разработанный Illumina.
- Он включает последовательности, оценки качества и метаданные.
- Формат был разработан для улучшения передачи данных и уменьшения размера файлов.
-
Структура файла FASTQ
- Файл FASTQ состоит из заголовка, последовательности и оценки качества.
- Заголовок содержит информацию о файле, такую как имя файла, длина последовательности и количество оценок качества.
- Последовательность представляет собой последовательность нуклеотидов, а оценки качества указывают на качество чтения.
-
Эволюция формата FASTQ
- Формат FASTQ был разработан для улучшения передачи данных и уменьшения размера файлов.
- В ранних версиях использовались оценки качества Sanger, но в более поздних версиях были введены оценки качества Phred.
- В формате FASTQ 1.8 оценки качества вернулись к формату Sanger.
-
Цветовое пространство CSFASTQ
- Для секвенирования SOLiD используется цветовое пространство CSFASTQ, где основания объединены с номерами для определения изменений.
- Инструменты выравнивания различаются по предпочтительному формату значений качества.
-
Эволюция форматов FAST4 и HDF5
- FAST4 был разработан как производная от FASTQ, где для каждого основания сохранены отдельные вероятности.
- FAST5 — это расширение формата FAST4, которое представляет собой иерархический формат данных 5 (HDF5).
-
Моделирование и сжатие
- Для моделирования и сжатия FASTQ используются различные инструменты.
- Компрессоры общего назначения, такие как Gzip и bzip2, не обеспечивают оптимальной степени сжатия.
- Существуют компрессоры, основанные на выравнивании и переупорядочивании операций чтения, которые обеспечивают лучшее сжатие.
-
Ценности качества и расширение файла
- Значения качества занимают значительную часть дискового пространства, поэтому сжатие может значительно уменьшить требования к хранилищу.
- Для файлов FASTQ не существует стандартного расширения, но обычно используются .fq и .fastq.