您的位置: 首页 > 院士专题 > 专题 > 详情页

扬州大学开发基于植物基因组的基础DNA大语言模型

关键词:
来源:
Molecular Plant
来源地址:
https://doi.org/10.1016/j.molp.2024.12.006
类型:
学术文献
语种:
英语
原文发布日期:
2024-12-09
摘要:
2024年12月9日,扬州大学农学院张韬教授课题组在Molecular Plant在线发表了题为PDLLMs: A group of tailored DNA large language models for analyzing plant genomes的研究论文,开发了一系列基于植物基因组的基础DNA大语言模型,该研究构建的130M大小的plant DNAMamba模型仅以十分之一的参数量就打败了由InstaDeep、Google DeepMind顶尖机构联合开发的同类模型AgroNT。模型的开发填补了植物基因组研究中缺乏适宜本地化运行的基础DNA大语言模型的空白。在该研究中,作者首先基于14个代表性的植物参考基因组,结合5种先进的基础架构设计,包括BERT, NT, GPT, Gemma和Mamba,构建了一系列大小在100M左右且适用于植物的基础DNA大语言模型。之后作者构建了一套植物基因组预测数据集,包含核心启动子、序列保守性、多种组蛋白修饰、lncRNAs、开放染色质和启动子活性的预测任务。将先前构建的不同DNA大语言模型应用到这些预测任务中,并与3个代表性DNA大语言模型(DNABERT-2、NTv2和AgroNT)进行比较,结果表明该研究构建的大语言模型整体上优于其他非植物的DNA大语言模型。除此之外,基于Mamba的植物DNA大语言模型几乎在所有预测任务中均强于比其参数量多10倍的植物基础模型AgroNT。说明基于新架构的DNA模型在效率和性能上都更有优势,并且能够更好地被个人用户使用。考虑到不同分词方式(tokenizer)对模型性能的影响,作者也比较了不同分词方式的plant DNAMamba模型在预测不同基因组任务时的效果。结果发现基于K-mer的分词方法和基于BPE分词方法的模型在不同任务上的表现存在差异,这些差异很有可能来自于预测序列的长度,序列组成以及任务类型等。作者总结了单碱基分词,1-mer至6-mer分词以及BPE分词下模型在不同任务上的预测效果,供用户参考以选择最合适的分词方法。该研究进一步比较了DNA大语言模型和非大语言模型在植物基因组预测任务中的性能。结果发现不论是在lncRNAs任务,启动子强度任务还是开放染色质预测任务上,plant DNAMamba模型表现都优于基于CNN或者LSTM架构的专用深度学习模型。该结果反映出了DNA大语言模型的高效和普适性,仅需要单个基础模型就可以实现多种基因组任务的预测和分析。最后,作者基于所有构建的模型,开发了一个用户友好的在线预测平台,支持多种核心基因组任务的预测,同时提供了最优模型的推荐,方便湿试验人员快速进行序列分析。预测平台的访问地址为:https://finetune.plantllm.org或https://bioinfor.yzu.edu.cn/llms/finetune。综上,该研究构建了一系列植物基础DNA大语言模型,能够在单块消费级显卡上进行训练和推理,为个人或缺乏计算资源的实验室提供了选择。此外研究展现了植物基础DNA大语言模型在基因组预测中的强大能力,构建的DNA大语言模型和植物基因组预测数据,为后续更高性能的DNA大语言模型的开发提供了参考。可以预见DNA大语言模型的完善将为解析复杂的生命现象、推动作物改良事业作出不可替代的贡献。
相关推荐

意 见 箱

匿名:登录

个人用户登录

找回密码

第三方账号登录

忘记密码

个人用户注册

必须为有效邮箱
6~16位数字与字母组合
6~16位数字与字母组合
请输入正确的手机号码

信息补充