您的位置: 首页 > 院士专题 > 专题 > 详情页

上海人工智能实验室等合作构建全球首个水稻生物育种大语言模型

关键词:
来源:
Molecular Plant
来源地址:
https://www.sciencedirect.com/science/article/abs/pii/S1674205225001728
类型:
学术文献
语种:
英语
原文发布日期:
2025-05-28
摘要:
2025年5月28日,崖州湾国家实验室和上海人工智能实验室联合中国农业大学在Molecular Plant发表题为“SeedLLM·Rice: A Large Language Model Integrated with Rice Biological Knowledge Graph”的研究论文。详细解释了研究团队在2024年4月28日开发的中国首个种业大模型“丰登”(SeedLLM),本文以水稻为例详细介绍了丰登的技术和实现原理,系统展示了该研究团队最新的全球首个专为水稻生物育种打造的大语言模型“丰登·水稻”(SeedLLM·Rice),并正式向全球开放了网站。模型深度融合水稻生物学知识图谱。大模型系统整合了全球超过140万篇中英文文献,覆盖该领域公开发表成果的98%以上。在此基础上,团队以腾讯发布的通义千问模型(Qwen2.5-7B)为基础,通过预训练与精调流程,成功开发了丰登水稻种业大语言模型。为全面评估模型能力,研究团队构建了一个大模型自动生成的水稻知识问答数据集SeedBench,共包含1,975对问答样本,涵盖问答生成、摘要提取、语言理解与多项选择等10类任务。自动化评估结果显示,丰登模型在准确率等指标上均显著优于通义千问等主流通用模型。此外,研究团队还联合水稻领域专家,设计了一个高质量人工评测数据集HumanDesignRiceQA,包含253道专业问题,聚焦基因功能、传统杂交育种、分子设计育种等核心主题。评测由来自326名评审参与完成,其中83人为水稻研究领域的资深专家。结果表明,丰登模型在答题质量上全面超越OpenAI GPT4及人类本科生平均水平,展现出其在农业垂直领域中的领先能力。为进一步提升模型的科研实用性,团队构建了全球首个水稻多组学知识图谱,整合了1879篇关于水稻转录组和蛋白质组的文献数据,系统汇聚基因表达水平、蛋白丰度与基因组功能注释信息。图谱包含超过40万个节点与157万条边,覆盖水稻研究中的关键知识单元与生物关系。丰登模型实现了图文协同推理,能够跨越纯文本的表达局限,调用结构化图谱执行精准查询、整合多维证据。例如,在面对“基因 AGIS_Os06g035130 是否具备环境响应能力”这一复杂问题时,模型可自动调用图谱中关联的3篇文献,并融合表达模式与功能注释信息,生成具备多组学支撑的专业回答。评估结果显示,图谱增强使丰登模型在专家级任务中的平均得分从67分跃升至85分,远超 DeepSeek-R1和OpenAI GPT-4o1等当前最先进的大语言模型,揭示了图谱与大模型融合以解析复杂水稻生物学知识的新路径。
相关推荐

意 见 箱

匿名:登录

个人用户登录

找回密码

第三方账号登录

忘记密码

个人用户注册

必须为有效邮箱
6~16位数字与字母组合
6~16位数字与字母组合
请输入正确的手机号码

信息补充