扬州大学开发基于植物基因组的基础DNA大语言模型

关键词：

来源：

Molecular Plant

全文链接：

//agri.nais.net.cn/topic/downloadFile/9c6e3195-f22a-4723-9619-8ea8db244aba

来源地址：

https://doi.org/10.1016/j.molp.2024.12.006

资源所属：

农业生物技术专题

类型：

学术文献

语种：

英语

原文发布日期：

2024-12-09

摘要：

2024年12月9日，扬州大学农学院张韬教授课题组在Molecular Plant在线发表了题为PDLLMs: A group of tailored DNA large language models for analyzing plant genomes的研究论文，开发了一系列基于植物基因组的基础DNA大语言模型，该研究构建的130M大小的plant DNAMamba模型仅以十分之一的参数量就打败了由InstaDeep、Google DeepMind顶尖机构联合开发的同类模型AgroNT。模型的开发填补了植物基因组研究中缺乏适宜本地化运行的基础DNA大语言模型的空白。在该研究中，作者首先基于14个代表性的植物参考基因组，结合5种先进的基础架构设计，包括BERT, NT, GPT, Gemma和Mamba，构建了一系列大小在100M左右且适用于植物的基础DNA大语言模型。之后作者构建了一套植物基因组预测数据集，包含核心启动子、序列保守性、多种组蛋白修饰、lncRNAs、开放染色质和启动子活性的预测任务。将先前构建的不同DNA大语言模型应用到这些预测任务中，并与3个代表性DNA大语言模型（DNABERT-2、NTv2和AgroNT）进行比较，结果表明该研究构建的大语言模型整体上优于其他非植物的DNA大语言模型。除此之外，基于Mamba的植物DNA大语言模型几乎在所有预测任务中均强于比其参数量多10倍的植物基础模型AgroNT。说明基于新架构的DNA模型在效率和性能上都更有优势，并且能够更好地被个人用户使用。考虑到不同分词方式（tokenizer）对模型性能的影响，作者也比较了不同分词方式的plant DNAMamba模型在预测不同基因组任务时的效果。结果发现基于K-mer的分词方法和基于BPE分词方法的模型在不同任务上的表现存在差异，这些差异很有可能来自于预测序列的长度，序列组成以及任务类型等。作者总结了单碱基分词，1-mer至6-mer分词以及BPE分词下模型在不同任务上的预测效果，供用户参考以选择最合适的分词方法。该研究进一步比较了DNA大语言模型和非大语言模型在植物基因组预测任务中的性能。结果发现不论是在lncRNAs任务，启动子强度任务还是开放染色质预测任务上，plant DNAMamba模型表现都优于基于CNN或者LSTM架构的专用深度学习模型。该结果反映出了DNA大语言模型的高效和普适性，仅需要单个基础模型就可以实现多种基因组任务的预测和分析。最后，作者基于所有构建的模型，开发了一个用户友好的在线预测平台，支持多种核心基因组任务的预测，同时提供了最优模型的推荐，方便湿试验人员快速进行序列分析。预测平台的访问地址为：https://finetune.plantllm.org或https://bioinfor.yzu.edu.cn/llms/finetune。综上，该研究构建了一系列植物基础DNA大语言模型，能够在单块消费级显卡上进行训练和推理，为个人或缺乏计算资源的实验室提供了选择。此外研究展现了植物基础DNA大语言模型在基因组预测中的强大能力，构建的DNA大语言模型和植物基因组预测数据，为后续更高性能的DNA大语言模型的开发提供了参考。可以预见DNA大语言模型的完善将为解析复杂的生命现象、推动作物改良事业作出不可替代的贡献。

扬州大学开发基于植物基因组的基础DNA大语言模型

相关推荐

意见箱

忘记密码

个人用户注册

信息补充

扬州大学开发基于植物基因组的基础DNA大语言模型

相关推荐

意 见 箱

个人用户登录

忘记密码

个人用户注册

信息补充

意见箱