您的位置: 首页 > 院士专题 > 专题 > 详情页

北京理工大学基于迁移学习生成物种特异性启动子方面取得进展

关键词:
来源:
科微学术
来源地址:
https://mp.weixin.qq.com/s/OgSl9TDuRNIdWlWgKuUsBA
类型:
前沿资讯
语种:
英语
原文发布日期:
2024-06-05
摘要:
近日,北京理工大学霍毅欣教授与郭淑元教授团队在Nucleic Acids Research发表论文,题为“Species-specific design of artificial promoters by transfer-learning based generative deep-learning model”。该工作在物种数据集较少的条件下,训练了较高质量的生成模型PromoGen,用于从头生成物种特异性启动子。启动子是在转录水平上调节基因表达的关键元件,能够启动基因转录、调节基因表达,并影响代谢途径中的代谢流分布。尽管天然启动子已被用于基因调控,但其缺乏连续的调控强度和广泛的调控范围。目前,深度学习在蛋白质设计、调控元件生成等领域已经取得了一定的进展,但是在数据集缺乏的条件下还不能生成质量较高的调控元件。为了解决原核生物启动子数据量不足的问题,团队基于迁移学习的策略,开发了一系列核苷酸语言模型 PromoGen,用于在数据缺乏的条件下从头生成物种特异性的启动子。通过位置权重矩阵、6聚体频率相关性和 -10 区域分布分别对枯草芽胞杆菌(Bacillus  subtilis)的PromoGen-bsu模型生成启动子的能力进行分析。并对PromoGen-bsu生成的启动子进行湿实验验证,结果表明72.7%的生成启动子的启动活性高于天然启动子PlepA的3倍,18%的启动子与天然强启动子活性水平相当。为了证明迁移学习策略的有效性,分别使用27个物种的启动子的数据,在PromoGen-pre上对其进行微调,得到了27个物种的生成模型。并对所有的模型进行预训练和微调性能评估,微调后32%的模型相关性超过0.8。此外,团队开发了一个在线平台(https://promogen1.cloudmol.org/),该平台针对27种原核生物提供了微调后模型来从头生成启动子。
相关推荐

意 见 箱

匿名:登录

个人用户登录

找回密码

第三方账号登录

忘记密码

个人用户注册

必须为有效邮箱
6~16位数字与字母组合
6~16位数字与字母组合
请输入正确的手机号码

信息补充