学院新闻

当前位置: 首页 > 学院新闻 > 正文

​贾玉鑫团队联合中国农科院农业基因组研究所发布马铃薯功能基因组AI知识库

来源: 日期:2026-01-22 阅读:


近日,生命科学学院贾玉鑫团队联合中国农业科学院农业基因组研究所在中科院一区TOP期刊《植物通讯(Plant Communications)》(IF 10.9)发表了题为“An AI-powered Knowledge Hub for Potato Functional Genomics”的研究论文。该研究针对马铃薯功能基因组学研究中面临的文献激增与基因命名混乱等难题,创新性地结合大语言模型(LLM)与智能体技术,构建了首个马铃薯功能基因组AI知识库——Potato Knowledge Hub。平台整合了领域内6000多篇高质量文献与多版本基因组数据,开发了具备自然语言交互能力的AI科研助手,为加速马铃薯功能基因挖掘与育种研究提供了全新的智能化解决方案。

研究背景:

马铃薯是全球最重要的块茎作物,供养着约13亿人口。随着功能基因组学的快速发展,旨在提升马铃薯产量、品质及抗逆性的研究层出不穷。然而,这给领域内的科研工作者带来两大严峻挑战:一是文献数量的激增,过去十年间相关文献增长了近100%,传统的文献挖掘手段已难以应对海量信息的筛选需求;二是参考基因组版本的频繁迭代(如DMv4.03、DMv6.1和DMv8.1等),导致基因命名系统混乱,不同时期的研究中基因号与基因名难以对应,极大地阻碍了数据的整合与利用。

针对上述痛点,研究团队利用大语言模型和AI智能体技术,构建了集知识检索、基因数据校正与分析工具于一体的综合性平台——Potato Knowledge Hub (https://www.potato-ai.top)。该平台旨在将科研人员从繁琐的文献挖掘中解放出来,并解决因基因号版本多样造成的命名混淆与查询难题,从而加速领域内的科学发现。

研究内容:

构建高质量的专业领域语料库

不同于通用大模型存在的“幻觉”风险,该研究首先确立了数据的准确性与专业性。团队从Web of Science和PubMed中检索了自1900年以来的5万余篇文献,并利用LLM对标题和摘要进行深度筛选,剔除了仅在字面上提及“马铃薯”而非作为研究主体的文章。最终,团队精选了6112篇高质量马铃薯研究论文,并获取了全文PDF作为语料基础。通过检索增强生成(RAG)架构,平台能够基于这些确凿的文献证据,为用户提供精准的科学问答,有效规避了通用模型的知识滞后与模型幻觉问题。

解决基因命名混乱的“巴别塔”难题

该平台的核心亮点之一是其AI自动化提取与人工审查相结合的功能基因数据库。研究团队利用LLM从文献全文中提取基因名与基因号,结合基因组共线性和BLAST比对,将来自GenBank、UniProt以及不同参考基因组版本(如SolTub3.0和DMv4.03等)的基因号统一映射至最新的DMv8.1参考基因组上。经过人工校对,平台最终收录了2,853个非冗余的功能基因,并纠正了部分历史遗留的命名错误(如将SP5G误标为SP6A等),实现了数据的标准化与可追溯性。这使得研究人员仅需输入一个基因号,即可获得跨版本的基因信息及发表的相关论文。

超越通用模型的“马铃薯科研助手”

为了实现自然语言与科研工具的无缝衔接,团队开发了“马铃薯科研助手”(Potato Research Assistant)。这是一个基于任务编排架构的AI智能体,能够理解用户的自然语言指令,并自动调用平台内置的文献知识库、基因数据库、BLAST、ID转换器、基因注释器及富集分析等工具,帮助用户便捷地完成信息查询工作。

图1研究团队整合文献知识库、基因数据库和常用工具,开发了智能体“马铃薯科研助手”

在性能评测中,研究团队将该助手与DeepSeek-R1、Gemini 2.5 Pro Preview、Claude Sonnet 4及Qwen3等国内外顶尖通用大模型进行了对比。结果显示,得益于专业的数据库支撑和针对性的架构设计,Potato Research Assistant在马铃薯专业知识问答、基因细节理解及序列提取三个维度上,评分均优于上述通用大模型。这一结果证明了垂直领域的专用AI工具在处理高度专业化科学问题时具有显著优势。

总结与展望

Potato Knowledge Hub不仅是一个数据查询工具,更是一个具备分析能力的科研辅助系统。它展示了AI智能体技术在当前数据密集型研究中的巨大潜力。研究团队将定期更新数据库,以及时收录最新的研究成果,确保持续为全球马铃薯科研社区提供前沿的信息支持。

云南师范大学贾玉鑫研究员和基因组所朱玉娟博士后为该研究的通讯作者,云南师范大学博士生栗锦烨(西南联合研究生院)为论文的第一作者。该研究得到了国家自然科学基金卓越研究群体,中国博士后科学基金,广东省基础与应用基础研究重大项目,云南省基础研究计划等项目的资助。