FASTQ格式

FASTQ格式是一种保存生物序列（通常为核酸序列）及其测序质量得分资讯的文本格式。序列与质量得分皆由单个ASCII字符表示。

该格式最初由维尔康姆基金会桑格研究所开发，旨在将FASTA格式序列及其质量数据集成在一起。而目前，FASTQ格式已经成为了保存高通量测序结果的事实标准。^[1]

格式

FASTQ文件中，一个序列通常由四行组成：

第一行以@开头，之后为序列的标识符以及描述资讯（与FASTA格式的描述行类似）
第二行为序列资讯
第三行以+开头，之后可以再次加上序列的标识及描述资讯（可选）
第四行为质量得分资讯，与第二行的序列相对应，长度必须与第二行相同

以下为一个包含单个序列的FASTQ文件示例：

@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

其中!为最低质量、~则为最高质量。以下字符从左到右代表从低到高的质量得分的：

 !"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~

字符与对应的ASCII码如下：

十进制	图形
33	!
34	"
35	#
36	$
37	%
38	&
39	'
40	(
41	)
42	*
43	+
44	,
45	-
46	.
47	/
48	0

十进制	图形
49	1
50	2
51	3
52	4
53	5
54	6
55	7
56	8
57	9
58	:
59	;
60	<
61	=
62	>
63	?
64	@

十进制	图形
65	A
66	B
67	C
68	D
69	E
70	F
71	G
72	H
73	I
74	J
75	K
76	L
77	M
78	N
79	O
80	P

十进制	图形
81	Q
82	R
83	S
84	T
85	U
86	V
87	W
88	X
89	Y
90	Z
91	[
92	\
93	]
94	^
95	_
96	`

十进制	图形
97	a
98	b
99	c
100	d
101	e
102	f
103	g
104	h
105	i
106	j
107	k
108	l
109	m
110	n
111	o
112	p

十进制	图形
113	q
114	r
115	s
116	t
117	u
118	v
119	w
120	x
121	y
122	z
123	{
124	\|
125	}
126	~

最初桑格研究所的FASTQ格式允许序列与质量资讯分成多行保存。但一般不推荐采用这种方式，因为第一、第三行开头的@与+符号同样也可能出现在质量资讯中，可能会造成资讯提取的困难。

参见

FASTA格式

参考文献

^ Cock, P. J. A.; Fields, C. J.; Goto, N.; Heuer, M. L.; Rice, P. M. The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants. Nucleic Acids Research. 2009, 38 (6): 1767–1771. PMC 2847217 . PMID 20015970. doi:10.1093/nar/gkp1137.

[Cock2009-1] Cock, P. J. A.; Fields, C. J.; Goto, N.; Heuer, M. L.; Rice, P. M. The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants. Nucleic Acids Research. 2009, 38 (6): 1767–1771. PMC 2847217 . PMID 20015970. doi:10.1093/nar/gkp1137.

[1]

查论编生物资讯学
数据库	测序数据库：GenBank、European Nucleotide Archive（英语：European Nucleotide Archive）、日本DNA数据库(DDBJ) 辅助数据库：UniProt, database of protein sequences grouping together Swiss-Prot, TrEMBL 和蛋白质资讯资源（英语：Protein Information Resource）其它数据库：蛋白质数据库, Ensembl, 和InterPro（英语：InterPro）专项基因组数据库：酵母基因组数据库（英语：Saccharomyces Genome Database）、FlyBase（英语：FlyBase）、VectorBase（英语：VectorBase）、PomBase、WormBase（英语：WormBase）、PHI-base（英语：PHI-base）、拟南芥资讯资源（英语：The Arabidopsis Information Resource）与斑马鱼资讯网（英语：Zebrafish Information Network）
软件	BLAST Bowtie Clustal EMBOSS（英语：EMBOSS） HMMER（英语：HMMER） MUSCLE SAMtools（英语：SAMtools） TopHat（英语：TopHat (bioinformatics)）
其它	伺服器：ExPASy（英语：ExPASy）本体论：基因本体
机构	欧洲生物资讯研究所(EMBL-EBI) 欧洲分子生物学实验室(EMBL) 美国国家生物技术资讯中心（NCBI）瑞士生物资讯学研究所（英语：Swiss Institute of Bioinformatics）日本国立遗传学研究所博德研究所（英语：Broad Institute）维康桑格研究所斯克里普斯研究所(TSRI)
文件格式	FASTA格式 FASTQ格式斯德哥尔摩格式（英语：Stockholm format）
有关议题	计算生物学分子系统发生学测序序列比对
分类维基共享