整个植物园的基因组

今天发表在Open-Access期刊GigaScience上的一篇文章通过可用的基因组数据提供有效三倍的植物物种数量的数据。这项庞大的工作是在科学界不断努力对更多的植物基因组进行测序以帮助理解其复杂的进化并提供提高农业产量的实用信息的背后。迄今为止，已对约350种陆地植物基因组进行了测序。最近，10KP项目的宣布突出了对更多植物基因组序列的渴望，该项目旨在最终对10,000个植物基因组进行测序，以解决植物生命树的所有主要分支的进化。这里的工作提供图像，原始测序数据，组装叶绿体基因组和初步核基因组组装 - 所有这些都是免费提供的。

来自中国国家基因库，华大基因和中国瑞丽林业局的研究人员对761个样本进行了抽样和测序，代表了来自137科和49目的689种维管植物。这些植物样本全部来自瑞丽的500公顷植物园内，瑞丽是中国与缅甸接壤的亚热带地区。该花园位于中国生物丰富的地区，致力于保护濒临灭绝的中国特有植物，包括保存和存档这些种质资源，以协助其长期保护。该项目是世界上第一个基于基因组和凭证标本信息数字化整个植物园的科学和系统尝试。

关于该资源的科学潜力，BGI的首席执行官兼作者Xun Xu强调：“由于系统发育不同的物种缺乏基因组规模信息，目前对植物进化及其在系统发育基因组中的多样性的理解是有限的。这个创新项目整合了一种思考所有植物物种数字化的新方法，以加强植物园的进化和生态研究。“

研究人员总共产生了54TB的测序数据，每个物种的平均测序深度为60X。除了对这一物种进行DNA测序的基本挑战之外，另一个主要任务是扩大物种鉴定，数字化标本图像，并在新的中国国家基因库(CNGB)建立新的植物标本馆进行储存。深圳的植物标本馆。到目前为止，在761个标本中，序列和叶绿体数据使得能够鉴定物种水平的257 株植物和家族水平的504 株植物。深度学习也成功应用于181种物种，使其能够在物种水平上被识别。

作者Ting Yang表示，这是“我处理过的最大数据量。在数据分析过程中，我认为最大的挑战是序列检查和结果检查。” 这要求研究人员分别检查761个样本的每个测序数据，并将叶绿体基因序列与植物标本进行比较，以进行物种鉴定。

与简单地达到能够进行测序工作有关的另一个困难是收集所有样品。作者金普伟表示：“我们与瑞丽林业局的专家合作，收集了瑞丽地区分布的植物材料，建立了数字植物园。经过45天的累计努力，我们收集了1,093种植物材料。对我们来说，正确地运输材料是一项挑战，我们最终设法确保这些植物材料的高质量，以供将来研究。“

通讯作者Xin Liu补充说，该项目“是一个基线项目，用于微调和标准化10KP(万株植物基因组计划)等大规模基因组计划的采样，方法，数据积累和分析技术。在这个项目中，我们为后续的样品采集，测序和装配获得了大量有用的经验。与此同时，本研究产生的数据可以有效地用于后续的基因组计划。“

尽管已经为每个物种构建了仅一个测序文库，但作者能够组装其中17个的初步基因组，反映了DNA的质量和再利用潜力。香港中文大学的研究人员已经独立地组装了他们特别感兴趣的物种的基因组。更广泛的研究团体研究其感兴趣的物种，改进其他基因组，开发工具和方法以及为新一代科学家提供教育机会的潜力巨大。

主要作者Huan Liu补充说：“基因组表征将为植物基因组装配提供大量基础数据，这将是10KP项目的良好开端。同时，它为今后的相关研究奠定了良好的基础。从宏观生态学和生物多样性到微观分子水平的机制。“

为了促进更广泛的数据共享，而不仅仅是提供序列数据，研究人员还提供数字化图像，并提供对植物标本馆的访问。植物标本馆(HCNGB)作为活植物数据库，记录瑞丽植物园种植的物种的位置，并监测每个物种的状况。

这里生成的所有数字数据(图像，原始测序数据，组装叶绿体基因组和初步核基因组组装)均可通过NCBI SRA，GigaScience GigaDB数据库和中国国家GeneBank CNSA获得。此外，还可以搜索数据以及基因组和物种要更新的标识，元数据通过Datacite和GigaDB编制索引并链接。并且所有资源都在不受限制的情况下根据CC0豁免发布。作者Sunil Kumar Sahu博士强调，这是该项目最重要的遗产“这个数据集对植物研究人员具有重要价值，更重要的是，它可以作为未来行星规模基因组测序项目的参考，包括Earth BioGenome项目(EBP)和1万株植物基因组计划(10KP)。“

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如有侵权行为，请第一时间联系我们修改或删除，多谢。