中国基因网您的位置:首页 >基因科普 >

DNA序列中的每个碱基可用于表示四种可能性中的一种

来自英国Hinxton的欧洲生物信息学研究所的研究人员Nick Goldman博士和Ewan Birney博士在几瓶啤酒之后徘徊。他们决定尝试相反的问题而不是通常的解码基因组信息的任务:在DNA中编码信息。伯尼博士说:

DNA序列中的每个碱基可用于表示四种可能性中的一种

“这是科学界最好的时刻之一 - 它首先是对啤酒的想法,最后是给大自然的一封信。”

直观地,因为有四个碱基(或“字母”)构成DNA的字母表,DNA序列中的每个碱基可用于表示四种可能性中的一种。例如,为了表示二进制代码,A(腺嘌呤)可以代表00,C(胞嘧啶)可以代表01,G(鸟嘌呤)可以是10或T(胸腺嘧啶)可以代表11.然而,这种策略不会得到你Drs的错误率为0%。高盛和伯尼希望实现。

那是因为一些DNA序列比其他序列更难排序。当DNA序列含有均聚物 - 或者相同碱基的长链时,如TTTTT - 可能很难确切知道该段中含有多少碱基。因此,研究人员设计了一种聪明的编码方案,以防止任何重复相同的基础。

此外,由于长消息比短消息更容易包含错误,因此它们将每条消息分解为片段,其中包含有关片段信息的代码,例如片段在整个消息中占据的位置,片段中编码信息的时间长度是和其他一些错误检查代码。这有助于研究人员过滤掉包含合成错误信息的片段(将信息写入DNA)或测序(从DNA读取信息)。

上面的漫画中描述了对其战略的更完整描述。

使用这种方法,Drs。Goldman和Birney合成了所有154首莎士比亚十四行诗的DNA版本,Watson和Crick关于DNA结构的论文PDF,欧洲生物信息学研究所的照片,Martin Luther King的“我有一个梦想”演讲的关键词和关键对于霍夫曼代码。然后以100%的准确度解码DNA样品。然而,研究人员确实需要采取特殊方法来修复PDF文档,其中DNA代码包含折叠在其自身上的长而重复的序列,使得难以测序。然而,研究人员已经有了解决这个问题的想法。

虽然这项研究是编码DNA中信息的最成功方法,但此问题以前已经针对各种有趣的应用进行了解决。例如,1999年纽约西奈山医学院的研究人员表明,DNA可以用作间谍工具。他们通过在人体基因组DNA中隐藏一条短信“6月6日入侵:诺曼底”,并在一封书面信函的句子末尾将DNA放置在一段时间来证明这一点。

同样在1999年,由Ars Electronica委托作为艺术,Eduardo Kac编写了圣经创世记的一句话。质粒中的一种小DNA分子,可以独立于细菌DNA复制并在细菌之间交换。它还含有荧光蛋白的序列。将该质粒插入细菌大肠杆菌中,荧光用于追踪信息,因为它从一个细菌复制或传递到另一个细菌。

就在去年八月,哈佛医学院遗传学教授乔治·丘奇博士使用DNA微芯片编写了他的新书“ 再生:合成生物学如何重塑自然和我们自己”。据“ 科学日报”报道,Church博士曾考虑在每份印刷版中加入该书的DNA副本,但由于未经探索的安全问题而决定反对。例如,虽然短DNA片段本身不太可能有害,但它们可被环境中的微生物吸收,这些结果可能是不可预测的。此外,看似无害的计算机代码可能代表人类病毒,或者看似无害的DNA代码可能代表计算机病毒。事实上,研究人员能够用DNA编码间谍软件程序来证明这种可能性。

回到我们的基因组月度进展,Drs。Goldman和Birney计算出,使用这种方法,美国国家档案馆的整个集合(100TB数据)可以用0.05克DNA编码,这不到一分钱质量的1/50。然而,这并不意味着书店将在试管中销售整个库。虽然DNA是稳定的并且需要很少的维护(毕竟,我们能够对羊毛猛犸象基因组进行测序),向DNA写入信息和从DNA读取信息仍然比写入,读取和维护磁带要昂贵得多。所以,Drs。Goldman和Birney估计,只有当数据在600到5000年内无法访问时,才能将数据存储在DNA中更具成本效益。然而,

博士。Goldman和Birney设想他们的研究是有用的,主要用于档案目的。虽然合成DNA的成本仍然很高,但两者已经在密谋将世界放在一个“字符串”上(计算机编程中使用的术语是指同一字母表中的一系列符号,在这种情况下将是DNA创建的通过创建一个用于存档世界数据的DNA时间胶囊,通过由四个碱基A,C,G和T组成的字母表。

他们现在所需要的只是为项目提供资金的无私的亿万富翁。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。

推荐内容