您的位置:
首页
>
院士专题
>
专题
> 详情页
北京理工大学基于迁移学习生成物种特异性启动子方面取得进展
- 关键词:
- 来源:
- 科微学术
- 全文链接:
- //agri.nais.net.cn/topic/downloadFile/dc564666-a52b-4c24-8321-00d9714d3c28
- 来源地址:
- https://mp.weixin.qq.com/s/OgSl9TDuRNIdWlWgKuUsBA
- 资源所属:
- 农业生物技术专题
- 类型:
- 前沿资讯
- 语种:
- 英语
- 原文发布日期:
- 2024-06-05
- 摘要:
- 近日,北京理工大学霍毅欣教授与郭淑元教授团队在Nucleic Acids Research发表论文,题为“Species-specific design of artificial promoters by transfer-learning based generative deep-learning model”。该工作在物种数据集较少的条件下,训练了较高质量的生成模型PromoGen,用于从头生成物种特异性启动子。启动子是在转录水平上调节基因表达的关键元件,能够启动基因转录、调节基因表达,并影响代谢途径中的代谢流分布。尽管天然启动子已被用于基因调控,但其缺乏连续的调控强度和广泛的调控范围。目前,深度学习在蛋白质设计、调控元件生成等领域已经取得了一定的进展,但是在数据集缺乏的条件下还不能生成质量较高的调控元件。为了解决原核生物启动子数据量不足的问题,团队基于迁移学习的策略,开发了一系列核苷酸语言模型 PromoGen,用于在数据缺乏的条件下从头生成物种特异性的启动子。通过位置权重矩阵、6聚体频率相关性和 -10 区域分布分别对枯草芽胞杆菌(Bacillus subtilis)的PromoGen-bsu模型生成启动子的能力进行分析。并对PromoGen-bsu生成的启动子进行湿实验验证,结果表明72.7%的生成启动子的启动活性高于天然启动子PlepA的3倍,18%的启动子与天然强启动子活性水平相当。为了证明迁移学习策略的有效性,分别使用27个物种的启动子的数据,在PromoGen-pre上对其进行微调,得到了27个物种的生成模型。并对所有的模型进行预训练和微调性能评估,微调后32%的模型相关性超过0.8。此外,团队开发了一个在线平台(https://promogen1.cloudmol.org/),该平台针对27种原核生物提供了微调后模型来从头生成启动子。
- 所属专题:
- 64