正在阅读:

完整基因组的问世,破解了关于生命的“天书”

扫一扫下载界面新闻APP

完整基因组的问世,破解了关于生命的“天书”

人类基因组完整序列的发布带来的颠覆,不比工业革命或互联网的诞生来得更小。

文|陈根

人类的基因组常被比作是一本书写生命的“天书”——人类凭借A、T、C、G四种碱基,却配对出了高达60亿的可能,碱基的无穷组合也蕴含着人类进化、生老病死的奥秘,而DNA则分布在23对染色体中。2001年,人类启动了解码人类基因组的计划,成为医学和遗传学的里程碑。

不过,在当时,第一个参考基因组并不完整——大约8%的DNA序列无法测序。主要包括染色体末端和着丝粒(染色体的中心节点)中的遗传物质部分。这些部分中的DNA序列由许多几乎相同的副本和重复组成。

终于,20年后,科学家们补齐了人类基因组图谱上缺失的部分,2022年4月1日,人类基因组的完整序列首次在Science上重磅发布,完成了整个人类基因组的测序解码,由此发现了多种顽症和生命规律的根源——基因。现在,立足于人类基因组的完整序列,关于人类进化、生老病死的研究也走向了新的序幕。

长链DNA测序技术是关键

人类基因组就是一个人所有的DNA,含有约31.6亿个DNA碱基对,包括大约2-3万个基因。这些基因中除了编码蛋白质的两万多个基因之外,还包含了数千个RNA基因。如果从单个细胞中取出并拉伸成链,长度能够达到2米。

这些基因分片段组合,通常被分成23对,称为染色体,其中包括22对常染色体,1对性染色体。基因不仅可以通过复制把遗传信息传递给下一代,还可以使遗传信息得到表达。不同人种之间头发、肤色、眼睛、鼻子等不同,都是基因之间的差异导致的。

每个物种都有自己的基因组,负责指示细胞什么时候、通过什么方式构建这个物种的个体生命蓝图。对于人类来说,完整的基因组图谱将有助于更好理解人作为一个有机体是如何形成的,一个有机体和其他人、其他物种之间又有哪些不同,为什么会有这些不同。

2003年,人类基因组计划基本完成,不过,受到当时技术的限制,最后得出的图谱并不算完美——“人类基因组计划”的科学家们从染色体DNA中获得了大量的短序列,这些短序列与相邻区域重叠,构成更大的连续序列——重叠群。

理想情况下,每条染色体将呈现单个重叠群,但首次草图却包含了1246个这样的片段。重复的片段包括着丝粒和核糖体DNA等,无法按照正确的顺序组装一些被切碎的片段。这就像拥有相同的拼图碎片一样,科学家们不知道哪块碎片在哪里,因此基因组图中留下了很大的空白。对于此,科学家们只能持续地完善组装,手动检查,并使用测序分析来识别有错误和信息缺口的片段。

人类基因组图谱的最新版本于2013年发布,被称为GRCh38。从那时起,它就被反复修补。然而,一直以来,它仍然缺少5%-10%的基因组,包括所有的着丝粒和其他困难区域,如编码核糖体RNA序列的大量基因。这些缺失的基因组藏于大量重复基因拷贝的长序列中。

以着丝粒为例,携带基因的两条染色体臂通过着丝粒相连。着丝粒由数千个几乎一样的α卫星序列组成——171bp的α卫星重复单位需要被正确排布以确保染色体稳定和细胞分裂。然而,在人类基因组草图发布20年后,着丝粒和其他有难度的DNA序列仍然是染色体图谱中难以填补的缺口。

这些难题持续阻碍着基因组的组装——如果测序技术没有发生颠覆性改变,人类基因组测序将在很长时间内停滞不前。

好在不间断读取长链DNA的测序技术终于问世。其中,一种技术是加州生物技术公司太平洋生物科学使用的成像系统来直接读取数十万甚至数百万条平行DNA链,每条链包含数千个碱基。另一种技术则是英国公司的牛津纳米孔技术,它将DNA链穿过微小的蛋白孔或纳米孔,测量核苷酸穿过孔道时电流的细微变化,进而读取数万至数十万个碱基。

在长链DNA的测序技术下,跨越20年的人类基因组谜题终于大白。

从填补缺口到完整发布

2022年4月1日,第一个完整的、无间隙的人类基因组序列发布,彻底填补了多年前的测序空白。人类基因组完整测序离不开T2T联盟的努力。T2T联盟成立于2019年初,旨在为每个人类染色体提供高质量的从端粒到端粒的组装。

该研究针对剩余8%的基因组,提供了人类基因组的完整30.55亿碱基对序列T2T-CHM13,包括了除Y之外的所有染色体的无间隙装配,纠正了之前的参考序列,并介绍了近2亿个碱基对序列,包含1956个基因预测,其中,99个预测为蛋白质编码。完成的区域包括所有着丝粒卫星阵列、最近的节段重复和所有五个近端着丝粒染色体的短臂。

与过去20年的任何基因组参考版本相比,T2T-CHM13组装增加了五个完整的染色体臂和更多的额外序列,覆盖了基因组中一些最复杂的区域。比如染色体末端的端粒和在细胞分裂过程中协调同源染色体或姐妹染色单体分离的着丝粒。新序列还揭示了以前未检测到的片段重复(在基因组中重复的长段DNA),这些重复片段可在进化和疾病中发挥重要作用。

具体来看,CHM13是一种肿瘤衍生细胞系,其基因组包含两套相同的染色体。这就避免了二倍体基因组的复杂性,因为二倍体基因组具有来自父母双方的不同染色体拷贝。在2020年底,T2T联盟的研究人员公布了两个染色体的完整组装,即X染色体和8号染色体。

研究人员使用牛津纳米孔技术,对两条染色体的片段进行测序,这两条染色体的长度通常超过7万个碱基,其中一条读长甚至超过100万个碱基。虽然很成功,但是对X染色体和8号染色体的测序过程却费力且艰苦。

除了长链DNA的测序技术外,完成和检查基因组组装还需要专用的软件,这套工具由Phillippy和加州大学圣地亚哥分校计算生物学家PavelPevzner等研究人员共同开发。研究人员表示,这是一个非常谨慎的过程,只有两个长度超过7000个碱基的序列,基本上100%相同,他们才会把它们粘合在一起,因为一旦你、在组装中引入一个错误,就很难修复它。

在这个过程中,PacBio仪器支持环形一致测序(CCS),在此过程中单个DNA链被转换成可以反复读取的闭环。通过比较这些重复序列,研究员可以消除随机错误,获取高度准确的结果。早期版本的CCS最多容纳几千个碱基,在基因组组装中用途有限。但2019年,PacBio改进了这一过程,后续的高保真技术如今产生超过2万个碱基的一致序列,准确率超过99%。

其次,研究人员还利用了作图技术,比如加州生物科技公司BionanoGenomics开发的一种技术,使得测量一条染色体上不同DNA序列之间的距离成为可能。当然,对X染色体的初步研究也离不开之前对该染色体着丝粒的了解,此着丝粒的结构已经被充分研究。

T2T的方法也使得庞大复杂的基因测序工作相对缩短,而T2T-CHM13的问世则为科学家提供了一种有效的方式,来访问和可视化与基因组和基因组其他元素相关的大量信息。如今,有了完整的基因组,科学家就能进一步研究该片段在人类种群中的多样性以及导致疾病的精细遗传点。

这也是本次测序工作最大的意义所在——通过长读测序技术解决复杂区域的序列结构,为后续的精准医疗和分子诊断提供更为精细的索引。

基因组学新时代

完整基因组序列的公布对于揭示人类进化、生老病死的意义是巨大的。实际上,4月1日,与完整的的人类基因组序列的论文同时发布的,还有5篇相关论文。其他5篇论文就分别从5个方面探讨了完整基因组在人类遗传学上的重要性。

5篇论文中的第一篇主要研究segmental duplication等复杂区域;第二篇论文重点介绍了中心粒的结构和其表观图谱;第三篇论文讨论的是该完整基因组如何提高对人类遗传变异多样性的分析;第四篇论文说明了人类基因组重复序列中的基因表达和其表观图谱;第五篇论文则介绍了该完整基因组的表观图谱。

要知道,过去未被揭示的8%的基因组代表了医学和基因组知识的巨大差距。差距就在人类染色体的两个关键区域:端粒和着丝粒。

端粒是位于染色体末端的小帽。这个部分随着人年龄的增长而缩短。已经有研究表明,端粒比正常水平短的人更容易患老年疾病,而且比端粒长的人更早死亡,通过延长端粒来减缓衰老速度是一种可能的方法。

着丝粒位于染色体中间部分。这个区域在细胞分裂过程中扮演了很重要的角色,因为蛋白质就是在这个狭窄部位附着并分裂 DNA,两个新细胞由此共享携带同样遗传密码的DNA——部分癌症、衰老和不孕症患者的基因中可以发现着丝粒出现问题或者错误。

并且,对于癌症来说,追溯基因突变是了解癌细胞诞生的重要途径。毕竟,每种癌症都有数千个突变。如果能够在人体的乳腺、肺部、神经系统等十几个组织器官中鉴定不同的突变特征,就能寻找倒不同癌症类型的患者具有的共性和差异,将常见的突变过程与人群中发生频率较低的罕见突变过程区分开来。

而基因组测序能够让科学家们更近距离地观察到某些癌症的发展可能性,使得探索大多数癌症的突变特征成为可能。尤其是凭借全基因组测序(WGS)方法,可全面探索所有类型的癌症基因改变。

可以说 ,完整的基因测序开创了基因组学的新时代,随着人类基因组逐渐被破译,一张生命之图将被绘就,人们的生活也将发巨大变化。人类对人类本身的了解还将迈上新的台阶,很多疾病的病因将被揭开,治疗方案就能“对因下药”,生活起居、饮食习惯也有可能根据基因情况进行调整。

利用基因,人们可以改良果蔬品种,提高农作物的品质,更多的转基因植物和动物、食品将问世,人类可能在新世纪里培育出超级物作。通过控制人体的生化特性,人类将能够恢复或修复人体细胞和器官的功能,甚至改变人类的进化过程。而这种改变带来的颠覆,不比工业革命或互联网的诞生来得更小。

对于此,BBC《科技聚焦》杂志说,在大部分人还没有意识到的时候,人类已经“处于一场深刻的医学和技术革命的山脚下,这场革命不仅带来了新疗法和治疗方法的前景,还带来了关于伦理、平等和健康正义的巨大问题”。

鉴于我们在当前环境中对某些基因的功能所知甚少,有专家指出,在进行有可能影响千年的基因改造时,必须格外谨慎。毕竟,当前,人类暂时无法知道一个基因变异会对人类细胞造成的所有变化,也很难预见未来千百年后的环境下基因编辑对人类所起的作用。要判断一个基因编辑是否合乎伦理,我们首先需要了解这个编辑的基因会带领人类进入一个什么样的未来世界。

本文为转载内容,授权事宜请联系原著作权人。

评论

暂无评论哦,快来评价一下吧!

下载界面新闻

微信公众号

微博

完整基因组的问世,破解了关于生命的“天书”

人类基因组完整序列的发布带来的颠覆,不比工业革命或互联网的诞生来得更小。

文|陈根

人类的基因组常被比作是一本书写生命的“天书”——人类凭借A、T、C、G四种碱基,却配对出了高达60亿的可能,碱基的无穷组合也蕴含着人类进化、生老病死的奥秘,而DNA则分布在23对染色体中。2001年,人类启动了解码人类基因组的计划,成为医学和遗传学的里程碑。

不过,在当时,第一个参考基因组并不完整——大约8%的DNA序列无法测序。主要包括染色体末端和着丝粒(染色体的中心节点)中的遗传物质部分。这些部分中的DNA序列由许多几乎相同的副本和重复组成。

终于,20年后,科学家们补齐了人类基因组图谱上缺失的部分,2022年4月1日,人类基因组的完整序列首次在Science上重磅发布,完成了整个人类基因组的测序解码,由此发现了多种顽症和生命规律的根源——基因。现在,立足于人类基因组的完整序列,关于人类进化、生老病死的研究也走向了新的序幕。

长链DNA测序技术是关键

人类基因组就是一个人所有的DNA,含有约31.6亿个DNA碱基对,包括大约2-3万个基因。这些基因中除了编码蛋白质的两万多个基因之外,还包含了数千个RNA基因。如果从单个细胞中取出并拉伸成链,长度能够达到2米。

这些基因分片段组合,通常被分成23对,称为染色体,其中包括22对常染色体,1对性染色体。基因不仅可以通过复制把遗传信息传递给下一代,还可以使遗传信息得到表达。不同人种之间头发、肤色、眼睛、鼻子等不同,都是基因之间的差异导致的。

每个物种都有自己的基因组,负责指示细胞什么时候、通过什么方式构建这个物种的个体生命蓝图。对于人类来说,完整的基因组图谱将有助于更好理解人作为一个有机体是如何形成的,一个有机体和其他人、其他物种之间又有哪些不同,为什么会有这些不同。

2003年,人类基因组计划基本完成,不过,受到当时技术的限制,最后得出的图谱并不算完美——“人类基因组计划”的科学家们从染色体DNA中获得了大量的短序列,这些短序列与相邻区域重叠,构成更大的连续序列——重叠群。

理想情况下,每条染色体将呈现单个重叠群,但首次草图却包含了1246个这样的片段。重复的片段包括着丝粒和核糖体DNA等,无法按照正确的顺序组装一些被切碎的片段。这就像拥有相同的拼图碎片一样,科学家们不知道哪块碎片在哪里,因此基因组图中留下了很大的空白。对于此,科学家们只能持续地完善组装,手动检查,并使用测序分析来识别有错误和信息缺口的片段。

人类基因组图谱的最新版本于2013年发布,被称为GRCh38。从那时起,它就被反复修补。然而,一直以来,它仍然缺少5%-10%的基因组,包括所有的着丝粒和其他困难区域,如编码核糖体RNA序列的大量基因。这些缺失的基因组藏于大量重复基因拷贝的长序列中。

以着丝粒为例,携带基因的两条染色体臂通过着丝粒相连。着丝粒由数千个几乎一样的α卫星序列组成——171bp的α卫星重复单位需要被正确排布以确保染色体稳定和细胞分裂。然而,在人类基因组草图发布20年后,着丝粒和其他有难度的DNA序列仍然是染色体图谱中难以填补的缺口。

这些难题持续阻碍着基因组的组装——如果测序技术没有发生颠覆性改变,人类基因组测序将在很长时间内停滞不前。

好在不间断读取长链DNA的测序技术终于问世。其中,一种技术是加州生物技术公司太平洋生物科学使用的成像系统来直接读取数十万甚至数百万条平行DNA链,每条链包含数千个碱基。另一种技术则是英国公司的牛津纳米孔技术,它将DNA链穿过微小的蛋白孔或纳米孔,测量核苷酸穿过孔道时电流的细微变化,进而读取数万至数十万个碱基。

在长链DNA的测序技术下,跨越20年的人类基因组谜题终于大白。

从填补缺口到完整发布

2022年4月1日,第一个完整的、无间隙的人类基因组序列发布,彻底填补了多年前的测序空白。人类基因组完整测序离不开T2T联盟的努力。T2T联盟成立于2019年初,旨在为每个人类染色体提供高质量的从端粒到端粒的组装。

该研究针对剩余8%的基因组,提供了人类基因组的完整30.55亿碱基对序列T2T-CHM13,包括了除Y之外的所有染色体的无间隙装配,纠正了之前的参考序列,并介绍了近2亿个碱基对序列,包含1956个基因预测,其中,99个预测为蛋白质编码。完成的区域包括所有着丝粒卫星阵列、最近的节段重复和所有五个近端着丝粒染色体的短臂。

与过去20年的任何基因组参考版本相比,T2T-CHM13组装增加了五个完整的染色体臂和更多的额外序列,覆盖了基因组中一些最复杂的区域。比如染色体末端的端粒和在细胞分裂过程中协调同源染色体或姐妹染色单体分离的着丝粒。新序列还揭示了以前未检测到的片段重复(在基因组中重复的长段DNA),这些重复片段可在进化和疾病中发挥重要作用。

具体来看,CHM13是一种肿瘤衍生细胞系,其基因组包含两套相同的染色体。这就避免了二倍体基因组的复杂性,因为二倍体基因组具有来自父母双方的不同染色体拷贝。在2020年底,T2T联盟的研究人员公布了两个染色体的完整组装,即X染色体和8号染色体。

研究人员使用牛津纳米孔技术,对两条染色体的片段进行测序,这两条染色体的长度通常超过7万个碱基,其中一条读长甚至超过100万个碱基。虽然很成功,但是对X染色体和8号染色体的测序过程却费力且艰苦。

除了长链DNA的测序技术外,完成和检查基因组组装还需要专用的软件,这套工具由Phillippy和加州大学圣地亚哥分校计算生物学家PavelPevzner等研究人员共同开发。研究人员表示,这是一个非常谨慎的过程,只有两个长度超过7000个碱基的序列,基本上100%相同,他们才会把它们粘合在一起,因为一旦你、在组装中引入一个错误,就很难修复它。

在这个过程中,PacBio仪器支持环形一致测序(CCS),在此过程中单个DNA链被转换成可以反复读取的闭环。通过比较这些重复序列,研究员可以消除随机错误,获取高度准确的结果。早期版本的CCS最多容纳几千个碱基,在基因组组装中用途有限。但2019年,PacBio改进了这一过程,后续的高保真技术如今产生超过2万个碱基的一致序列,准确率超过99%。

其次,研究人员还利用了作图技术,比如加州生物科技公司BionanoGenomics开发的一种技术,使得测量一条染色体上不同DNA序列之间的距离成为可能。当然,对X染色体的初步研究也离不开之前对该染色体着丝粒的了解,此着丝粒的结构已经被充分研究。

T2T的方法也使得庞大复杂的基因测序工作相对缩短,而T2T-CHM13的问世则为科学家提供了一种有效的方式,来访问和可视化与基因组和基因组其他元素相关的大量信息。如今,有了完整的基因组,科学家就能进一步研究该片段在人类种群中的多样性以及导致疾病的精细遗传点。

这也是本次测序工作最大的意义所在——通过长读测序技术解决复杂区域的序列结构,为后续的精准医疗和分子诊断提供更为精细的索引。

基因组学新时代

完整基因组序列的公布对于揭示人类进化、生老病死的意义是巨大的。实际上,4月1日,与完整的的人类基因组序列的论文同时发布的,还有5篇相关论文。其他5篇论文就分别从5个方面探讨了完整基因组在人类遗传学上的重要性。

5篇论文中的第一篇主要研究segmental duplication等复杂区域;第二篇论文重点介绍了中心粒的结构和其表观图谱;第三篇论文讨论的是该完整基因组如何提高对人类遗传变异多样性的分析;第四篇论文说明了人类基因组重复序列中的基因表达和其表观图谱;第五篇论文则介绍了该完整基因组的表观图谱。

要知道,过去未被揭示的8%的基因组代表了医学和基因组知识的巨大差距。差距就在人类染色体的两个关键区域:端粒和着丝粒。

端粒是位于染色体末端的小帽。这个部分随着人年龄的增长而缩短。已经有研究表明,端粒比正常水平短的人更容易患老年疾病,而且比端粒长的人更早死亡,通过延长端粒来减缓衰老速度是一种可能的方法。

着丝粒位于染色体中间部分。这个区域在细胞分裂过程中扮演了很重要的角色,因为蛋白质就是在这个狭窄部位附着并分裂 DNA,两个新细胞由此共享携带同样遗传密码的DNA——部分癌症、衰老和不孕症患者的基因中可以发现着丝粒出现问题或者错误。

并且,对于癌症来说,追溯基因突变是了解癌细胞诞生的重要途径。毕竟,每种癌症都有数千个突变。如果能够在人体的乳腺、肺部、神经系统等十几个组织器官中鉴定不同的突变特征,就能寻找倒不同癌症类型的患者具有的共性和差异,将常见的突变过程与人群中发生频率较低的罕见突变过程区分开来。

而基因组测序能够让科学家们更近距离地观察到某些癌症的发展可能性,使得探索大多数癌症的突变特征成为可能。尤其是凭借全基因组测序(WGS)方法,可全面探索所有类型的癌症基因改变。

可以说 ,完整的基因测序开创了基因组学的新时代,随着人类基因组逐渐被破译,一张生命之图将被绘就,人们的生活也将发巨大变化。人类对人类本身的了解还将迈上新的台阶,很多疾病的病因将被揭开,治疗方案就能“对因下药”,生活起居、饮食习惯也有可能根据基因情况进行调整。

利用基因,人们可以改良果蔬品种,提高农作物的品质,更多的转基因植物和动物、食品将问世,人类可能在新世纪里培育出超级物作。通过控制人体的生化特性,人类将能够恢复或修复人体细胞和器官的功能,甚至改变人类的进化过程。而这种改变带来的颠覆,不比工业革命或互联网的诞生来得更小。

对于此,BBC《科技聚焦》杂志说,在大部分人还没有意识到的时候,人类已经“处于一场深刻的医学和技术革命的山脚下,这场革命不仅带来了新疗法和治疗方法的前景,还带来了关于伦理、平等和健康正义的巨大问题”。

鉴于我们在当前环境中对某些基因的功能所知甚少,有专家指出,在进行有可能影响千年的基因改造时,必须格外谨慎。毕竟,当前,人类暂时无法知道一个基因变异会对人类细胞造成的所有变化,也很难预见未来千百年后的环境下基因编辑对人类所起的作用。要判断一个基因编辑是否合乎伦理,我们首先需要了解这个编辑的基因会带领人类进入一个什么样的未来世界。

本文为转载内容,授权事宜请联系原著作权人。