中国基因网您的位置:首页 >基因科普 >

基因组分析工具包4(GATK4)作为开源资源发布以加速研究

麻省理工学院和哈佛大学Broad研究所将在开源软件许可下发布业界领先的Genome Analysis Toolkit第4版。该软件包名为GATK4,包含新工具和重建架构。它目前在Broad Institute的GATK网站上作为alpha预览版提供,预计将在6月中旬发布测试版。广泛的工程师今天在Bio-IT World上宣布升级,以及决定将该工具作为开源产品发布。

基因组分析工具包4(GATK4)作为开源资源发布以加速研究

新版本基于新架构,允许大量简化单个工具,并支持Apache SparkTM等性能增强技术。这个新框架改进了并行化,利用了云部署,并使分析大量基因组数据的过程更容易,更快速,更高效。

“我们希望消除传统的规模障碍,同时提供我们用户期望的高水平数据质量,”Broad的数据科学和数据工程高级总监,最初的GATK软件包的创建者Eric Banks表示。“由于云计算的迅速普及,研究人员终于可以解决许多阻碍进步的基础设施相关并发症,特别是在较小的机构和创业公司。”

如今,全球有超过45,000名学术和商业用户依赖GATK,进行数百万次分析。GATK是用于鉴定种系DNA和RNAseq数据中的SNP和插入缺失的行业标准。除了改善这些已建立的工具的性能外,GATK4还扩展了这一分析范围,包括种系数和结构变异,用于种系和体细胞研究应用。

完全开源的软件

GATK4将作为一个完全开源的产品发布,部分归功于Broad Institute和英特尔公司之间的合作,以推进高性能分析,以便研究人员可以研究来自世界各地不同来源的大量基因组数据。

在英特尔 - 基因组数据工程中心,软件工程师和研究人员花了几个月的时间来构建,优化和广泛共享新的工具和基础设施,以帮助科学家整合和处理基因组数据。GATK4从这一合作中受益,该合作帮助工程师优化了用于基因组分析的硬件和软件的最佳实践,从而可以组合和使用驻留在私有云,公共云和混合云上的研究数据集。

“将GATK4作为开源发布是我们团队明显的下一步,”Broad研究所数据科学与数据工程小组外展与传播副主任Geraldine Van der Auwera说。“我们相信这是支持社区的最有效方式,我们希望它能够继续发展,创新并帮助研究人员获得对未来人类健康突破至关重要的见解。”“生物医学取得进展至关重要,我们用于分析数百万人基因组的软件是健全且易于理解的,”EMBL-EBI主任,全球基因组学和健康联盟(GA4GH)主席Ewan Birney说。 。“使用开源许可证发布GATK软件直接支持全球生物医学界的开放式创新,数据重用和数据重新分析。“

“GATK工具对种系和癌症分析至关重要,”芝加哥大学医学系的Robert L. Grossman和生物医学信息学专家说。“将GATK4作为一个开源软件包发布将提高采用率,并使社区受益。”

“开源基因组学和开放式科学一般来说,开源GATK是一件大事,”Chan Zuckerberg Initiative(CZI)计算生物学经理Jeremy Freeman说。“它不仅使这个关键工具能够尽可能广泛地供受众使用,重用,检查和贡献 - 它为社区提供了一个强大的示例,说明现有项目如何能够接受开源。”

“开源代码是高效生物医学研究的基础,”哈佛大学陈氏公共卫生学院研究科学家布拉德查普曼说。“它通过消除共享和分发分析的障碍,实现了重复性,重用和重新混合.Broad Institute的GATK团队领导开发可扩展,敏感和特定的变体调用算法,开源GATK4将允许Blue Collar Bioinformatics等框架制作这些算法科学研究界广泛使用的方法。“

Cloudera的数据科学家,Apache Hadoop PMC的成员汤姆怀特说:“Cloudera一直是开源代码的支持者和信徒。”“我们很高兴为GATK代码库做出贡献,使其在Apache Spark和Cloudera上顺利运行.GATK的下一阶段,由Spark和开源软件提供支持,将扩大访问范围并改善基因组数据科学家之间的协作。 “

“GATK4的开源是基因组学的重要一步,可以为研究,生物技术和制药界公开提供可扩展性和性能提升,”英特尔数据中心解决方案公司副总裁兼总经理Jason Waxman说。“GATK4在英特尔的新参考架构上运行时,与早期版本的软件相比,可以实现5倍的加速。”

“我们谷歌很高兴看到这个新版本,”Google云端医疗保健工程负责人Ilia Tulchinsky说。“过去三年来,我们一直在与Broad研究所合作,以加强Google Cloud Platform上的基因组处理。作为开源技术的坚定支持者,我们相信以这种方式提供GATK将有助于各地的基因组科学家使用它。作为英特尔的合作伙伴,我们特别期待让研究人员使用即将推出的英特尔至强处理器可扩展系列在谷歌云上运行GATK4。

“GATK是生命科学中使用最广泛的软件包之一,我们的团队与Broad合作非常有效地加速了它在Azure上的使用,”微软人工智能与研究总监Geralyn Miller说。“这个新模型将极大地推动这项工作的进展,我们很高兴继续并在Azure上围绕GATK扩展我们的工作。”

“随着GATK4的开源推出,有机会创建一个可以协同工作并提升生物信息学艺术水平的全球社区,”阿里巴巴集团云计算部门阿里云的首席架构师洪唐表示。“我们期待与Broad Institute密切合作,将基于云的GATK服务引入中国的基因组学客户,以及正在进行的GATK研发。”

除了提供GATK4作为开源工具包之外,Broad Institute还将继续在其广受欢迎的用户支持论坛上提供用户支持,培训和外展服务。与许多Broad Institute的基因组分析工具一样,GATK4将通过Broad Institute的基于云的分析平台FireCloud提供。

undefined

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。