最新的鸟类家谱发表在《自然》杂志上,描绘了363种鸟类之间9300万年的进化关系。来源:uux.cn《自然》杂志
(神秘的地球uux.cn)据加州大学圣地亚哥分校:一个国际科学家团队建立了迄今为止最大、最详细的鸟类家谱,这是一张复杂的图表,描绘了363种鸟类之间9300万年的进化关系,占所有鸟类家族的92%。
这一进步之所以成为可能,很大程度上要归功于加州大学圣地亚哥分校工程师开发的尖端计算方法,以及该校圣地亚哥超级计算机中心最先进的超级计算资源。这些技术使研究人员能够高精度、快速地分析大量的基因组数据,为构建有史以来最全面的鸟类家谱奠定了基础。
4月1日发表在《自然》杂志和《美国国家科学院院刊》上的两篇补充论文详细介绍了这一进展。《自然》杂志报道了最新的家谱,揭示了6600万年前恐龙灭绝的灾难性大灭绝事件后鸟类进化史上的模式。
研究人员观察到,早期鸟类的有效种群规模、替代率和相对大脑大小急剧增加,这为这一关键事件后推动鸟类多样化的适应机制提供了新的线索。在发表在《美国国家科学院院刊》上的配套论文中,研究人员仔细检查了新家谱的一个分支,发现火烈鸟和鸽子的亲缘关系比之前的全基因组分析显示的要远。
这项工作是鸟类10000基因组(B10K)项目的一部分,该项目由哥本哈根大学、浙江大学和加州大学圣地亚哥分校领导,旨在为约10500种现存鸟类生成基因组序列草案。
“我们的目标是重建所有鸟类的整个进化史,”加州大学圣地亚哥雅各布工程学院电气和计算机工程教授Siavash Mirarab说,他是《自然》论文的共同高级作者,也是《美国国家科学院院刊》论文的第一作者和共同通讯作者。
拼凑过去
这些研究的核心是一套被称为ASTRAL的算法,Mirarab的实验室开发了该算法,以前所未有的可扩展性、准确性和速度推断进化关系。通过利用这些算法的力量,该团队整合了来自60000多个基因组区域的基因组数据,为他们的分析提供了坚实的统计基础。
研究人员随后检查了整个基因组中单个片段的进化史。从那里,他们拼凑出一个基因树的马赛克,然后将其汇编成一个综合物种树。这种细致的方法使研究人员能够构建一个新的、改进的鸟类家谱,即使在历史不确定的情况下,也能以惊人的精度和细节描绘复杂的分支事件。
米拉拉布说:“我们发现,为了解决鸟类之间的进化关系,我们在分析中添加数万个基因的方法实际上是必要的。”。“你真的需要所有的基因组数据来高度自信地恢复6500万至6700万年前这段时间发生的事情。”
该团队之所以能够在大规模数据集上进行这些分析,是因为Mirarab的实验室设计了在强大的GPU机器上运行的计算方法。他们在加州大学圣地亚哥分校圣地亚哥超级计算机的“Expanse”超级计算机上进行计算。
米拉拉布说:“我们很幸运能够使用这样一台高端超级计算机。”。“如果没有Expanse,我们将无法在合理的时间内在如此大的数据集上运行和重新运行我们的分析。”
研究人员还研究了不同基因组采样方法对该树准确性的影响。他们表明,两种策略――对每个物种的许多基因进行测序,以及对许多物种进行测序――结合在一起对重建这一进化史很重要。
哥本哈根大学生物学教授、《自然》论文的主要作者Josefin Stiller说:“因为我们混合使用了这两种策略,我们可以测试哪种方法对系统发育重建有更强的影响。”。
“我们发现,从每个生物体中提取许多基因序列比从更广泛的物种中提取更重要,尽管后一种方法有助于我们确定不同群体的进化时间。”
纠正过去
在他们先进的计算方法的帮助下,研究人员还能够揭示他们在之前的一项研究中发现的一些不寻常的东西:鸟类基因组中一条染色体的特定部分数百万年来一直保持不变,没有预期的基因重组模式。
这种异常现象最初导致研究人员错误地将火烈鸟和鸽子归类为进化上的近亲,因为基于这一不变的DNA片段,它们看起来关系密切。这是因为他们之前的分析是基于48种鸟类的基因组。
但通过使用363个物种的基因组重复他们的分析,出现了一个更准确的家谱,使鸽子与火烈鸟的距离更远。此外,Mirarab及其同事利用由洛克菲勒大学神经生物学教授、合著者Erich Jarvis领导的脊椎动物基因组计划(VGP)提供的六个高质量基因组,能够检测到并推定解释这种令人惊讶的模式。
“令人惊讶的是,这段被抑制的重组期可能会误导分析,”佛罗里达大学生物学教授、美国国家科学院院刊论文的共同通讯作者爱德华・布劳恩说。“因为它可能会误导分析,所以在未来6000多万年内,它实际上是可以检测到的。这是最酷的部分。”
接下来的步骤
这项工作的影响远远超出了研究鸟类进化史的范围。Mirarab实验室开创的计算方法已成为重建各种其他动物进化树的标准工具之一。
接下来,该团队将继续努力构建一幅完整的鸟类进化图。生物学家正在对其他鸟类的基因组进行测序,希望将家谱扩大到包括数千个鸟类属。
与此同时,Mirarab领导的计算科学家正在完善他们的算法,以适应更大的数据集,以确保未来研究中的分析能够高速准确地进行。
暂无评论...