中国基因网您的位置:首页 >遗传基因 >

研究人员在大规模DNA数据存储中实现随机访问

华盛顿大学和微软研究人员今天透露,他们在开发基于DNA的数字数据存储系统方面迈出了重要一步。在Nature Biotechnology上发表的一篇论文中,分子信息系统实验室(MISL)的成员描述了他们在合成DNA中存储的200兆字节的世界记录设定成就背后的科学。他们还展示了他们的随机访问系统 - 即选择性检索编码超过1300万个DNA寡核苷酸的个体数据文件。虽然这不是研究人员第一次在DNA中实现随机访问,但是UW和Microsoft团队已经大规模地进行了随机访问的首次演示。

研究人员在大规模DNA数据存储中实现随机访问

DNA作为数字存储介质的一大优势是它能够存储大量信息,原始限制为1 EB,相当于每立方毫米10亿千兆字节。数据必须从数字0和1转换为DNA分子:腺嘌呤,胸腺嘧啶,胞嘧啶和鸟嘌呤。为了将数据恢复为数字形式,对DNA进行排序,并将文件解码回0和1。随着数据量的增加,这个过程变得更加艰巨 - 如果没有执行随机访问的能力,整个数据集必须按顺序排序和解码才能查找和检索特定文件。此外,DNA合成和测序过程容易出错,这可能导致数据丢失。

MISL研究人员通过设计和验证广泛的引物库来解决这些问题,这些引物库与聚合酶链反应(PCR)结合使用以实现随机访问。在合成含有来自文件的数据的DNA之前,研究人员在每个DNA序列的两端附加来自引物文库的PCR引物靶标。然后,他们使用这些引物通过随机访问选择所需的链,并使用一种新算法,旨在更有效地解码数据并将数据恢复到其原始的数字状态。

“我们的工作减少了在测序能力和处理方面的努力,以完全恢复存储在DNA中的信息,”微软高级研究员Sergey Yekhanin解释说,他在创建用于实现团队结果的编解码器和算法方面发挥了重要作用。“对于后者,我们设计了新的算法,这些算法更能容忍写入和读取DNA序列中的错误,从而最大限度地减少恢复此信息的工作量。”

使用由Twist Bioscience提供的合成DNA,MISL团队编码并成功检索了35个不同的文件,大小从29千字节到超过44兆字节 - 相当于创纪录的200兆字节的高清视频,音频,图像和文本。这比哈佛医学院和德国Technicolor研究与创新研究人员设定的22兆字节记录显着增加。

“生物技术和计算机体系结构的交叉非常有前景,我们很高兴能够向社区详细介绍我们的结果,”艾伦学院教授Luis Ceze说道,他是MISL的共同领导者。“自从这篇论文提交出版以来,我们已经达到400多兆字节,而且我们仍在不断发展并且更多地了解大规模DNA数据存储。”

有了这个新的里程碑,MISL的研究人员成功地证明了基于DNA的数据存储 - 已知比现有的数字存储技术更加密集和耐用 - 也是如此。威斯康星大学和微软团队估计,它的方法将扩展到物理上分离的DNA池,每个池包含几TB。当脱水用于存储时,这些数据池将比磁带密集几个数量级。随着与DNA测序和合成相关的成本持续下降,该团队预计未来将开展大量用于开发基于DNA的数据存储的活动。

“DNA数据存储是一个令人难以置信的令人兴奋的领域,很高兴看到我们的进展被像Nature Biotechnology这样的着名出版物所认可,”微软高级研究员Karin Strauss说,他是MISL的联合负责人,也是Allen School的附属教授。 。“我们热衷于继续在生物技术和IT的交叉点上工作。”

这个交叉点最初对Allen School Ph.D.感兴趣。学生Lee Organick,他执行了许多用于验证其方法的湿实验室实验。从分子生物学的本科学习到计算机科学的飞跃,她对MISL方法的潜在影响充满热情。

“我们正处于在田间交叉点进行大量开创性研究的时候,”奥尼克说。“当我听说这个项目时,它看起来有些古怪,但它吸引了我的想象力。”

在Organick看来,实验室的构成 - 将来自多个学科和组织的研究人员联合起来 - 是另一个好处。

“与这样一个富有创造力和多样化的人员团队合作已有好几年了,他们向我展示了像这样的项目是可以实现的,”她说。“它和第一天一样令人兴奋。”

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。

推荐内容