中国基因网您的位置:首页 >行业资讯 >

国际竞争基准测试宏基因组学软件

细菌的社区遍布各处:我们的身体内部,我们的身体和我们周围的一切。人体肠道内含有数百种细菌,有助于消化食物和提供营养,但也可能使我们生病。为了更多地了解这些细菌群以及它们如何影响我们的生活,科学家需要研究它们。但是这项任务带来了挑战,因为将细菌带入实验室要么不可能,要么会破坏科学家希望研究的生物过程。

国际竞争基准测试宏基因组学软件

为了克服这些困难,科学家们转向了宏基因组学领域。在宏基因组学中,研究人员使用算法将来自环境样本的DNA拼接在一起,以确定存在的细菌的类型和作用。与化学等已建立的领域不同,研究人员根据一系列已知标准评估其结果,而宏基因组学是一个相对年轻的领域,缺乏这样的基准。

马里兰大学计算机科学教授米海波普在马里兰大学高等计算机研究所联合任命,他最近帮助评判了一项名为“宏基因组解释的关键评估”(CAMI)的国际挑战,该评估是对宏基因组学软件进行基准测试的。结果发表在2017年10月2日的“ 自然方法 ”杂志上。

“我们可以说没有一种算法可以说是最好的,”Pop说,他也是UMD卫生相关信息学和生物成像中心的联合主任。“我们发现,一个工具在一个环境中表现更好,而另一个工具在另一个环境中表现更好。研究人员必须知道他们需要根据他们试图回答的具体问题选择软件。”

该研究的结果对于Pop来说并不令人惊讶,因为宏基因组学软件开发人员面临着许多挑战。首先,DNA分析在宏基因组学中具有挑战性,因为回收的DNA通常来自田间,而不是严格控制的实验室环境。此外,来自许多生物的DNA(其中一些可能没有已知的基因组)在样本中混合在一起,使得难以正确地组装或拼凑个体基因组。此外,DNA在恶劣环境中会降解。

“我喜欢将宏基因组学视为一种新型显微镜,”波普说。“在过去,你会用显微镜研究细菌。现在我们有一个更强大的显微镜,它是DNA测序和先进的算法。宏基因组学有望帮助我们了解细菌在世界上的作用。但首先我们需要调整显微镜。“

由于他在基因组和宏基因组装配方面的专业知识,CAMI的领导者邀请Pop帮助评估挑战参与者提交的文件。2009年,Pop帮助发布了Bowtie,这是用于组装基因组的最常用的软件包之一。最近,他与马里兰大学医学院合作,分析了数十万个基因序列,作为有史以来在发展中国家进行的最大,最全面的儿童腹泻病研究的一部分。

“我们发现了引起腹泻病的新的未知细菌,我们还发现细菌之间的相互作用可能会恶化或改善疾病,”波普说。“我觉得这是我用宏基因组学做过的最有影响力的项目之一。”

在竞赛中,CAMI研究人员将大约700个微生物基因组和600个病毒基因组与其他DNA来源结合起来,并模拟了这样一个DNA集合如何在该领域出现。参与者的任务是重建和分析模拟DNA库的基因组。

CAMI的研究人员在三个方面对参与者的提交进行了评分:他们如何很好地组装碎片基因组; 他们将DNA片段“分类”或组织成相关组的程度,以确定混合物中有机体的家族; 以及它们如何“分析”或重建混合物中存在的生物的特性和相对丰度。Pop提供了用于评估提交的组装基因组的指标和软件。

19个团队使用6个基因组装配器,9个装配器和10个分析器提交了215个条目来应对这一挑战。

结果表明,对于组装,使用不同长度的较小DNA片段拼接基因组的算法优于使用固定长度的DNA片段的算法。然而,没有任何组装者在挑选不同但相似的基因组方面做得很好。

对于分箱任务,研究人员发现了软件程序识别特定DNA片段所属组的准确程度与软件分配给任何组的DNA片段的数量之间的权衡。这一结果表明,研究人员需要根据准确度或覆盖范围是否更重要来选择分档软件。此外,当样本包括多个相关基因组时,所有分箱算法的性能降低。

在分析中,软件可以更好地恢复样品中相对丰富的细菌,或者更好地检测生物体,即使数量非常少。然而,后一种算法更经常地识别错误的生物体。

展望未来,Pop表示,CAMI小组将继续面临新的挑战,包括针对软件性能更具体方面的不同数据集和新评估。Pop很高兴看到科学家们使用这些基准来解决实验室和诊所的研究问题。

“宏基因组学领域需要标准来确保结果是正确的,经过充分验证并遵循最佳实践,”Pop说。“例如,如果医生打算根据宏基因组软件的结果进行干预,那么这些结果必须正确。我们的工作为选择合适的软件提供了路线图。”

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。

推荐内容