第一节
人全基因组、全外显子组和全转录组的基本结构

一、人全基因组
(一)染色体
人类细胞核内有两套染色体,是“二倍体”(haploid),分别来自父母。人全基因组(human whole genome)由23对染色体组成,包括22对体染色体,1条X染色体和1条Y染色体。人全基因组约含30亿DNA碱基对,即60亿个DNA碱基。DNA碱基包括胞嘧啶(C)、鸟嘌呤(G)、胸腺嘧啶(T)、腺嘌呤(A)四种,它们通过氢键配对,G与C通过三个氢键配对连接,A与T通过两个氢键配对连接。人基因组中编码蛋白质的基因序列约占全基因组序列的1.5%,有20 000~25 000个蛋白质编码基因,剩余的部分包括RNA编码基因,调控序列与伪基因(pseudogene)等,以及各种重复序列。重复序列占人全基因组的60%左右,无转录活性,包括成簇存在于染色体特定区域的串联重复序列(tandem repeat),如卫星DNA序列、微卫星等;分散于染色体各处的分散重复序列(interspersed repeat),如DNA转座子(transposons)、长末端重复序列(long terminal repeat,LTR)、短分散重复序列(short interspersed nuclear elements,SINEs),以及长分散重复序列(long interspersed nuclear elements,LINEs)。
(二)基因(gene)
基因是具有遗传信息的DNA片段。通过转录形成功能RNA分子。人的所有基因在23对染色体上呈线性排列,每一个染色体含有数百个基因,大多数基因包含多个外显子(exon),相邻外显子的中间是内含子(intron)。在基因与基因之间,通常是调控序列和非编码的基因间片段(图2-5-1)。
(三)外显子(exome)

图2-5-1 人类基因的结构及其转录和翻译示意
人基因组中的外显子在转录并剪接(splicing)后,通过蛋白质翻译过程表达为蛋白质。外显子分为编码外显子(coding exon)和非编码外显子(noncoding exon)两类。编码外显子是基因中的编码序列,经过转录并剪接后,出现成熟的RNA分子即信使RNA(messengerRNA,mRNA),最后mRNA翻译表达为蛋白质。而非编码外显子在转录并剪接后,不能翻译成蛋白质分子。非编码外显子主要包括5'端的非翻译区(5'-UTR),3'端的非翻译区(3'-UTR)。非编码外显子的主要功能是保持mRNA的稳定性,延长其半衰期,并保证mRNA翻译过程正确进行。
(四)内含子(intron)
基因中的非编码区可被转录,但是在mRNA加工过程中被剪接,因此在成熟mRNA中并无内含子的编码序列。
二、全外显子组
全外显子组(whole exome)是人全基因组中所有外显子区域DNA序列的集合。虽然人类全外显子组只占人类基因组长度的1%~2%,但是85%以上因DNA变异引起的疾病,是由于外显子组的变异。
三、全转录组
人全转录组(whole transcriptome)是在某一生理条件下,人全基因组经过转录后,细胞内所有的转录产物,包括mRNA、核糖体RNA(ribosome RNA,rRNA)、转运 RNA(transferRNA,t RNA)及非编码RNA(non-coding RNA)。狭义是指所有mRNA。转录组是基因组遗传信息与生物体功能之间的桥梁。
四、基因突变
基因突变(gene mutation)是指细胞中的基因序列发生碱基对组成、排列顺序以及拷贝数量的改变。基因突变可能导致编码的氨基酸的变化,进而改变蛋白质的功能,引起生物体表型变化。基因突变包括种系突变(germline mutation)和体细胞突变(somatic mutation)。种系突变发生在生殖系细胞(精子和卵子)中,这类突变可传递给后代;体细胞突变发生在体细胞中,体细胞突变不会遗传给后代。基因突变有以下类型:
(一)单碱基变异(single nucleotide variation,SNV)
DNA分子中一个核苷酸被另外一个核苷酸替换而产生的变异,又称点突变(point mutation)。按照碱基类型的变化,单碱基变异可以分为转换(transition),即嘌呤和嘌呤之间,或嘧啶和嘧啶之间的替换;置换(transversion),即嘌呤和嘧啶之间的替换。按照核苷酸突变是否引起蛋白质功能的相应变化,单碱基突变可分为以下类型:
1.无义突变(nonsense mutation)
即一个核苷酸突变后,产生了一个终止密码(stop condon),截断了转录和翻译,从而形成新的蛋白质分子。新的蛋白质分子很可能丧失原来蛋白质分子的功能。
2.错义突变(missense mutation)
即一个核苷酸突变后,产生了一个不同的密码子,从而编码出不同的氨基酸。根据该氨基酸对蛋白质空间结构的影响,新的蛋白质功能可能保持或改变,因此错义突变又分为保守突变和非保守突变。
3.沉默突变(silent mutation)
一个核苷酸突变后,并没有密码子的改变,编码出相同的氨基酸,并不影响蛋白质的功能。
如果在特定群体(population)中,某个单碱基变异的出现频率超过1%,该单碱基变异就称为单核苷酸多态性(single nucleotide polymorphism,SNP)。SNP是人类可遗传的变异中最常见的一种。SNP在人类基因组中广泛存在,根据国际人类基因组单体型图谱(International Hap-Map Project),任何两人之间SNP平均差别有350万之多,约占整个双倍体基因组30亿DNA碱基对的0.1%,平均1000个碱基对中有1个。单倍型(hyploid genotype,haplotype),即单倍体基因型,同一条染色体中一组相互关联的SNP或其他基因型通常一起遗传。通过确定单倍型,并对单倍型进行关联统计学分析,可以探索疾病的基因基础。比如将患者与健康人(对照)的单倍型进行比较,如果某一种单倍型在患者组与对照组的出现频率有显著差异,那么影响该疾病的基因可能就与这个单倍型密切相关。国际Hap Map计划的目的之一就是通过单倍型图谱Hap Map,更多地了解常见疾病与基因的关系(图2-5-2)。

图2-5-2 人单核苷酸多态性和单倍体基因型示意
(二)插入与缺失突变(insertion and deletion,In Del)
1.插入突变(insertion)
一个基因的DNA中插入其他DNA片段,使基因序列发生变化,改变其编码的蛋白质的结构,进而影响蛋白质分子的功能。
2.缺失突变(deletion)
在基因中缺失DNA片段,改变基因编码的蛋白质分子的功能。
(三)结构性变异(structural variation,SV)
通常包括长度在50bp以上的DNA序列的插入、缺失、倒位、重复,移动元件,染色体内部或染色体之间的序列易位,以及更为复杂的组合变异。基因中出现这种变异,会影响转录、翻译以及蛋白质分子结构和性质,乃至生物体的表型。
(四)拷贝数变异(copy number variation,CNV)
由于基因序列重排,导致1kb以上的大片段DNA的拷贝数增加或减少。CNV的发生频率远远高于SNP,而且稳定并可遗传到下一代,是导致人类疾病的重要分子机制之一。CNV通常是由非等位基因同源重组(non-allelic homologous recombination,NAHR)所致。在同源重复序列之间,基因发生大片段的结构变异和染色体重排,从而导致基因组的稳定性下降,并诱发疾病。非同源重组也可以造成CNV,是较小片段的CNV形成的主要机制(图2-5-3)。

图2-5-3 人类基因结构性变异示意