中国基因网您的位置:首页 >企业新闻 >

基于深度学习的模型DeepSpCas9预测SpCas9的活动

在一份关于科学进步的新报告中,大韩民国药理学,电气与计算机工程,医学,纳米医学和生物信息学系的许权权和跨学科研究人员评估了SpCas9的活性;化脓性链球菌的一种细菌RNA引导的Cas9 核酸内切酶变体(一种可切割DNA进行基因组编辑的细菌酶)。他们基于人类细胞文库,使用了具有12,832个目标序列的高通量方法来构建深度学习模型并预测SpCas9的活性。

基于深度学习的模型DeepSpCas9预测SpCas9的活动

数据包含寡核苷酸(核苷酸或构件),该寡核苷酸包含靶序列对和相应的指导序列以编码单指导RNA(sgRNA),该单指导RNA可以指导Cas9蛋白结合并切割特定的DNA序列以进行基因组编辑。他们在SpCas9诱导的indel (插入或缺失)频率的大型数据集上实施了基于深度学习的训练,以开发名为DeepSpCas9的SpCas9活动预测模型,该模型现已在线提供。当团队针对独立生成的数据集测试该软件时,结果显示出较高的泛化性能,即该模型可以适当地适应以前看不见的新数据。

所述CRISPR-CAS原核适应性免疫系统用作基因组编辑用工具的转化研究在多种物种和潜在的细胞类型,包括人细胞,其中所述容量准确地预测SpCas9酶的活性是很重要的。研究人员先前已经开发了几种计算模型,这些模型可以根据基因编辑细胞的表型变化数据集或基于中等大小的质粒数据库(在细菌和其他细胞之间转移基因的载体)的库对库方法来预测SpCas9的活性。。但是,由于数据集的质量和大小都不理想,因此这些模型的泛化性能受到限制。例如,模型预测的基因插入和缺失(indels)以创建功能性敲除模型(一种在实验室中的实验动物模型中使基因失活的方法)会导致假阴性。此外,这些SpCas9诱导的插入缺失频率数据集也只是中等大小。

Kim等。此前曾报道,一个名为深学习型计算模型DeepCpf1预测不同的核酸内切酶(从AsCpf1的活性氨基酸球菌种)具有较高的推广性能。为此,他们使用了指导RNA编码的慢病毒文库,目标序列对来生成称为DeepCpf1的大型训练数据集。尽管使用类似的基于库的方法来开发可预测 Cas9酶产生的插入缺失频率的计算模型,但仍有大量Cas9诱导的频率数据集尚待形成。

因此,科学家必须开发具有高泛化性能的Cas9活动预测计算模型。在这项工作中,金等人。通过修改之前开发的DeepCpf1方法以形成DeepSpCas9,生成了一个高通量模型来测试SpCas9诱导的成千上万个靶序列的插入缺失频率。DeepSpCas9 Web工具是基于深度学习的模型,可以以较高的泛化性能准确预测SpCas9的活动。

Kim等。首先准备了一个慢病毒(一个复杂的逆转录病毒亚家族,可以整合外源DNA)文库,包含15656个指导RNA(gRNA)编码和目标序列对,用于SpCas9活性的高通量评估。该研究小组使用聚合酶链反应(PCR)扩增了包含指导序列和靶序列对的寡核苷酸库,并使用Gibson DNA组装技术将它们克隆到慢病毒质粒(用于在细胞之间转移遗传物质的转基因传递系统)中。

研究人员采用两步法切割质粒,并在切割位点插入sgRNA支架序列以生成质粒文库。为了随后形成细胞文库,科学家用从质粒文库产生的慢病毒处理了人类胚胎肾细胞(HEK 293T)。现在,每个细胞在其基因组中都包含一个合成靶序列,并表达了相应的sgRNA。然后,科学家用编码SpCas9的慢病毒处理细胞文库,从而在靶序列上引起sgRNA定向的切割和插入缺失形成,其频率取决于sgRNA的活性。为了测量插入缺失的频率,科学家对目标序列进行了PCR扩增,并对其进行了深度测序。基于高通量实验,Kim等人。生成了两个数据集,用于训练和测试DeepSpCas9模型。

科学家在具有不同染色质可及性(染色质结构修饰对基因转录的影响)的124个内源靶位点上选择了SpCas9活性,以测试整合的合成靶序列的插入缺失频率是否与相应内源位点的插入缺失频率相关。他们观察到根深蒂固的靶位点和HEK细胞内源性位点的插入缺失频率之间存在很强的相关性。

研究团队接下来开发了一个精确的计算模型,以使用端到端深度学习框架形成DeepSpCas9并预测SpCas9的活动来预测大型数据集上的SpCas9的活动。对于基本模型架构,他们使用了卷积神经网络(CNN,类似于普通神经网络),对于输入序列,他们使用了30个核苷酸的序列,并使用一键编码将其转换为二维二进制矩阵(将包含数字分类数据的列拆分为许多列)。为了了解模型选择和训练的通用性能,该团队使用Spearman相关性进行了10倍交叉验证 实验测量值与预测的Cas9活性水平之间的系数。

当他们增加用于交叉验证的训练数据集的大小时,实验indel频率和DeepSpCas9模型的预测分数之间的平均Spearman相关系数稳步增加到0.77。与以前用于SpCas9活动预测的传统机器学习算法(如支持向量机(SVM),AdaBoost(自适应提升),随机森林和梯度增强回归树)相比,DeepSpCas9模型的Spearman相关性明显更高。总体而言,DeepSpCas9在所有型号中均表现出最佳性能。

在以前的工作中,Kim等人。考虑了染色质可及性信息,以改善对内源性靶位点AsCpf1酶活性的预测。他们试图确定这些考虑因素是否还会改善SpCas9的活动预测。结果表明,与他们以前使用AsCpf1所做的努力相比,利用染色质可访问性信息进行的微调仅能提高DeepSpCas9预测内源位点插入缺失频率的准确性。因此,与先前开发的DeepCpf1算法形成鲜明对比的是,染色质可访问性仅对SpCas9活性产生了轻微影响。

为了了解DeepSpCas9的泛化性能,研究小组使用了足够大的,已发布的,来自各种研究的数据集作为测试数据,对该模型进行了测试。他们将结果与其他SpCas9活动预测程序(例如DeepCRISPR)的结果进行了比较。结果表明,在用于预测SpCas9活性的9个已发布模型中,DeepSpCas9保持最高的泛化功能。这样,Hui Kwon Kim和研究团队使用DeepSpCas9网络工具(现已在线提供,连同补充代码)广泛验证了准确预测SpCas9活动的潜力。提供给研究科学家将DeepSpCas9整合到现有模型中。基于DeepSpCas9的高泛化性能,研究团队希望能够提高基于SpCas9的基因组编辑的准确性。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。

推荐内容