中国基因网您的位置:首页 >遗传基因 >

环境数据集可帮助研究人员将已知被病毒感染的微生物门数量增加一倍

地球上,地上和周围的微生物数量 - 大约为非数十亿或10 30 - 估计数量超过银河系中的恒星。众所周知,微生物在调节碳固定方面发挥着至关重要的作用,同时也保持了涉及氮,硫,磷和其他营养素的全球循环,但其中大多数仍未被培养和未知。美国能源部(DOE)正在瞄准这种“微生物暗物质”,以便更好地了解地球的微生物多样性,并从可用于能源和环境挑战的自然课程中收集。

环境数据集可帮助研究人员将已知被病毒感染的微生物门数量增加一倍

然而,管理地球的微生物多样性需要更多地了解微生物与感染微生物的病毒之间的关系,这些病毒会影响微生物调节全球循环的能力。尽管估计病毒的数量比地球上的微生物细胞多至少两个数量级,但是在序列数据库中,与大约50,000个细菌基因组相比,目前有少于2,200个测序的DNA病毒基因组。在2016年8月17日在线发表于“ 自然”杂志的一项研究中美国能源部联合基因组研究所(DOE JGI),美国能源部科学用户设施办公室的研究人员,利用世界各地最大的组装宏基因组数据集,发现超过125,000个部分和完整的病毒基因组,其中大多数感染微生物。这种单一努力将已知病毒基因的数量增加了16倍,并为研究人员提供了独特的病毒序列信息资源。

研究资深作者和DOE JGI原核生物超级项目负责人Nikos Kyrpides说:“这是第一次有人系统地查看所有栖息地以及如此庞大的数据汇编。” “发现所有这些新病毒的关键是我们在这项工作中开发的敏感计算方法。”

“发现新病毒的关键”

第一作者和博士后研究员David Paez-Espino解释说,这种方法涉及使用非靶向宏基因组方法,参考分离病毒和手动策划的病毒蛋白模型,以及他所描述的“迄今为止最大和最多样化的数据集”。该团队分析了DOE JGI的微生物基因组中可用的超过5万亿个碱基(Terabases或Tb)序列,其中微生物组样本(IMG / M)系统从全球10个不同栖息地类型的3,042个样本中收集。他们努力筛选真正的干草堆数据集,产生了超过125,000个含有279万个蛋白质的病毒序列。

该团队将病毒序列与多个栖息地的多个样本进行匹配。例如,他们发现的一个病毒组在海洋暮光区的95%的样本中被发现 - 这个区域位于海洋表面200至1000米之间,阳光不足以穿透微生物进行光合作用。

通过分析CRISPR-Cas系统 - 细菌中的免疫机制,通过整合来自感染病毒和噬菌体的短序列来赋予对外来遗传元件的抗性 - 该团队能够在IMG中生成350万个间隔序列的数据库。这些间隔区,即宿主保留的噬菌体遗传序列的片段,然后可以用于探索片段可能最初来自的病毒和噬菌体宏基因组。此外,该团队主要使用这种方法,通过计算机确定了近10,000种病毒的主机。他们报告说:“这些连接中的大部分以前是未知的,包括从16个原核门中鉴定出作为病毒宿主的生物体,之前没有发现病毒。”

CRISPR-Cas蛋白的信标

美国能源部JGI功能基因组学组负责人Jan-Fang Cheng表示,Kyrpides小组在确定新的病毒序列方面所做的工作将有助于合成生物学小组开发出可在多种细菌宿主中发挥作用的新型启动子。“我们一直在寻找可以在许多不同门中发挥作用的调控DNA部分,这将使我们能够建立可以在许多不同宿主中表达的基因和途径。”

Cheng还预计,Kyrpides团队产生的扩展的病毒序列空间将允许研究人员寻找称为原型间隔子邻近基序(PAM)的其他基因序列。这些序列位于噬菌体中的间隔序列发生器旁边,并被CRISPR-Cas蛋白用作信标,触发诸如编辑或调节基因的作用。“人们正在寻找新的PAM序列和新的Cas9s,并且有了这些新的信息,如果你可以将间隔序列映射回相同的噬菌体并对齐它们并查看相邻序列中的共同点,那么你可以识别新的PAM序列。 “

“我们相信包括迄今为止报道的最长噬菌体基因组在内的许多大型噬菌体的发现都指出了常规病毒体富集和测序策略的局限性,这可能使研究偏向具有不寻常特性的高度新型病毒 ”,Natalia Ivanova先生说。在超级计划和本研究的共同作者。

“这项研究最重要的一个方面是我们没有关注单一的栖息地类型。相反,我们探索了全球病毒体并检查了所有生态系统中病毒的流动,”Kyrpides说。“我们将病毒序列的数量增加了50倍,并且99%的病毒家族与之前测序的病毒没有密切关系。这提供了大量新数据,将在未来几年内更详细地研究我们将作为病毒宿主的微生物门数量增加了一倍以上,创造了第一个全球病毒分布图。我们预计将遵循这一数据集的分析和发现数量不容小觑。“

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。

推荐内容