您的位置: 首页 > 院士专题 > 专题 > 详情页

中国农业大学汪海团队实现转录调控序列的人工智能设计

关键词:
来源:
PNAS
来源地址:
https://doi.org/10.1073/pnas.2319811121
类型:
学术文献
语种:
英语
原文发布日期:
2024-06-18
摘要:
2024年6月18日,中国农业大学农学院汪海团队联合美国康奈尔大学、丹麦奥胡斯大学、北京大学现代农业研究院、坦桑尼亚农业科学院等单位,在PNAS在线发表了题为“Modeling 0.6 million genes for the rational design of functional cis-regulatory variants and de novo design of cis-regulatory sequences”的研究论文。该研究利用17个植物物种(拟南芥、毛果杨、大豆、甜菜、蒺藜苜蓿、黄瓜、葡萄、番茄、土豆、谷子、狗尾草、玉米、高粱、二穗短柄草、水稻、小立碗藓、莱茵衣藻)的60万个基因以及6256套转录组数据,开发了一个名为PhytoExpr的深度学习模型。该模型以近端转录调控区DNA序列(5kb启动子和5kb终止子)为输入,预测基因的中位数表达量以及该序列来自哪个物种。为了无偏倚地评估模型的预测准确度,以基因家族为单位划分训练集和测试集,确保模型只在它从未见过的基因家族上进行测试。研究者构建了两种模型结构:CNN+stacking和transformer,并训练随机森林模型对上述两种深度学习模型结构的超参数进行了优化,然后比较它们在四种不同任务中的预测精度。结果显示,采用transformer和多任务学习(multi-task learning)架构时,模型在mRNA丰度预测(图1d)和序列物种来源预测上都有着更高的准确度。为了评估PhytoExpr模型对新物种的泛化能力,研究者使用17个物种中的16个物种训练模型,在模型没有见过的新物种的新基因家族上测试其准确度。结果显示,除莱茵衣藻外,模型可以对从未见过的物种中的从未见过的基因家族作出可靠的预测。这表明PhytoExpr可以有效地拓展到与模型训练集包含的物种有相近进化关系的新物种中。而莱茵衣藻与其他植物分化了约10亿年,其转录调控的语法可能已经大相径庭,因此没有见过莱茵衣藻的深度学习模型无法对该物种触类旁通。作者进一步使用PhytoExpr评估了玉米每个基因的转录调控区每个碱基对基因表达的影响,并将碱基重要性得分与碱基保守性、转录因子结合位点进行了比较。结果显示,高保守碱基、与转录因子结合的碱基都显著富集在PhytoExpr预测的高重要性核苷酸中。这表明虽然PhytoExpr没有使用功能注释数据(例如Conserved Non-coding Sequence、ChIP-Seq等)进行训练,PhytoExpr仍能够识别出调控区序列中的功能元件。接下来作者使用PhytoExpr解决前文中提到的三个应用问题。首先,利用PhytoExpr模型系统评估了1730万个来自玉米HAPMAP3的SNP对基因表达的影响,发现模型预测的大效应SNP中显著富集罕见变异(MAF < 0.01),说明这些变异更可能受到负选择,同时SNP效应评分与SNP到TSS或TTS的距离有很强的相关性。因此研究者猜测PhytoExpr预测的大效应SNP可能与自然群体中基因表达水平的变异存在很强的相关性。利用以前报道的基于282个玉米自交系的7个不同组织转录组eQTL数据,依据cis-eQTL曼哈顿图中的关联强度对SNP进行排序,发现cis-eQTL中排序靠前的SNP在模型预测的大效应SNP中显著富集,证明PhytoExpr在转录调控区功能变异发掘中的有效性。第二,作者开发了两种算法利用PhytoExpr改进自然启动子。第一种策略称为基于重要性分数的半暴力算法,利用该方法对四个玉米调控区序列进行设计,并得到了预期的表达量。第二种策略称为虚拟进化,即在遗传算法中使用PhytoExpr作为选择算子。以植物启动子作为初始序列,通过对特定区域的多轮虚拟进化,该策略成功提高了目标启动子的转录强度。第三,作者利用虚拟进化技术实现了转录调控区DNA序列的从头设计。随机序列在计算机中经过多代虚拟进化,产生了适用于拟南芥的增强子和适用于玉米的增强子,这些增强子虽然和自然序列没有相似性,但是可以分别在拟南芥和玉米中启动报告基因的表达。因此,将PhytoExpr模型嵌入遗传算法,可以实现DNA序列在计算机中的进化,高效地探索DNA序列的无限变异空间,为植物合成生物学提供无限的元件。
相关推荐

意 见 箱

匿名:登录

个人用户登录

找回密码

第三方账号登录

忘记密码

个人用户注册

必须为有效邮箱
6~16位数字与字母组合
6~16位数字与字母组合
请输入正确的手机号码

信息补充