中国基因网您的位置:首页 >基因科普 >

基于DNA的数据存储留在这里

研究人员再次完成了这项工作 - 编码了520万比特的DNA串数字数据,并展示了将DNA用作长期数据密集存储介质以获取大量信息的可行性。在今天(1月23日)在“自然”杂志上发表的一项新研究中,研究人员编写了一张彩色照片,26小时的马丁·路德·金的“我有一个梦想”演讲,以及所有154部莎士比亚已知的十四行诗进入DNA。

基于DNA的数据存储留在这里

虽然这不是第一个将数字数据存储在DNA中的例子,“重要的是要庆祝一个领域的出现,” 哈佛大学合成生物学家乔治·丘奇说,他自己的团队去年发表了类似的基于DNA数据存储的演示。科学。他说,这项新研究“正在推动事态发展。”

科学家们早已认识到DNA作为长期储存介质的潜力。“DNA是一种非常非常密集的信息存储,” 欧洲分子生物学实验室 - 欧洲生物信息学研究所(EMBL-EBI)的研究作者Ewan Birney解释说。“它非常轻,非常小。”在正确的储存条件下 - 干燥,黑暗和寒冷的DNA很容易抵抗降解,他说。

合成定义的DNA串并对其进行测序以提取信息的进展最终使基于DNA的信息存储成为可能。去年夏天,Church的小组发布了DNA的存储能力的第一次演示,将Church的书Regenesis(包括11张JPEG图像)的数字版本编码到DNA中,使用Gs和Cs表示二进制代码的1,而As和Ts代表0。

现在,Birney和他的同事正在寻求减少与DNA存储相关的错误。当DNA链具有一系列相同的碱基时,下一代测序技术难以正确读取序列。例如,教会的工作在520万比特中产生了10个错误。为了防止这些类型的错误,Birney和他的EMBL-EBI合作者Nick Goldman首先将每个字节 - 一个由8个0和1组成的字符串 - 转换为由0或6位0,1s和2组成的单个“trit”。然后,当将这些特征转换为DNA的A,G,T和C碱基时,研究人员通过使用在确定哪个碱基代表下一个数字时考虑前一个碱基的代码来避免重复碱基。

合成过程也会引入错误,为每500个正确的错误提供错误的基础。为了减少这种类型的误差,研究人员合成了117个核苷酸(nt)的重叠区段,每个区段与前后链重叠,这样所有数据点都被编码了四次。Birney解释说,这有效地消除了读数错误,因为所有四个串具有相同的合成误差的可能性可以忽略不计。

位于加利福尼亚州的安捷伦科技公司合成了每个117-nt DNA片段的100多万份拷贝,将其作为干粉储存,并在室温下通过英国从美国运往德国。在那里,研究人员取出样品的等分试样,使用新一代测序技术对其进行测序,并重建文件。

Birney和Goldman设想DNA取代其他长期存档方法,例如磁带驱动器。与其他易受技术过时影响的数据存储系统不同,“编写和阅读DNA的方法将长期存在,” 哥本哈根大学的分子生物学家Thomas Bentin说。没有参与这项研究的Bentin将DNA信息存储与软盘的短暂鼎盛时期进行了比较 - 仅在几十年前引入并且已经接近不可读。尽管合成和解码DNA目前仍然很昂贵,但存储起来很便宜。因此,对于打算存储数百年甚至数千年的数据,Goldman和Birney认为DNA实际上可能比磁带更便宜。

此外,从当前研究中编码的739千字节扩展还有很大的潜力。研究人员计算出1克DNA可以容纳超过200万兆字节的信息,尽管这种规模的编码信息将进一步降低合成错误率,加利福尼亚大学河滨分校的生物工程师Mihri Ozkan说,他没有参与在研究中。

然而,尽管面临挑战,但目前的进展“绝对值得关注” ,斯坦福大学的合成生物学家Drew Endy没有参与这项研究,他在给The Scientist的一封电子邮件中写道。“它应该发展成为档案数据存储的新选择,其中DNA不被认为是一种生物分子,而是一种简单的非生命数据存储磁带。”

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。

推荐内容