共检索到2324条,权限内显示50条;
[前沿资讯 ] DeepMind发布用于新型蛋白质设计的AlphaProteo 进入全文
Google DeepMind
2024年9月5日,Google Deepmind团队上线最新论文“De novo design of high-affinity protein binders with AlphaProteo”推出了一种用于设计「与目标分子结合更紧密」的新型蛋白质的 AI 系统 AlphaProteo。在测试的 7 种靶蛋白上,AlphaProteo 的实验成功率更高,在湿实验室中测试中,9% 到 88% 候选分子成功结合,这比其他方法高出 5 到 100 倍。而且,比现有最佳方法的结合亲和力高出 3 到 300 倍。仅需一轮中等通量筛选且无需进一步优化,AlphaProteo 便可生成适用于多种应用的「即用型」结合剂。它可以帮助科学家更好地了解生物系统如何运作,节省研究时间,推进药物设计等等。在论文中,DeepMind 团队介绍了 AlphaProteo 蛋白质设计系统,并表明它可以设计从头蛋白质结合蛋白,该系统具有以下优势:1、高成功率:通过筛选数十种设计候选物可以获得稳定、高表达和特异性的结合物,从而无需使用高通量方法。2、高亲和力:对于除一个目标之外的每个测试目标,最佳结合剂具有亚纳摩尔或低纳摩尔结合亲和力(KD),从而最大限度地减少了下游亲和力优化所需的劳动力。3、整体优势:使用单一设计方法,无需复杂的人工干预,即可成功获得针对一系列具有不同结构和生化特性的靶标的结合剂。能够与靶蛋白紧密结合的蛋白质结合剂很难设计。传统方法耗时巨大,需要多轮大量的实验室工作。在创建结合剂后,它们还需要进行大量额外的实验从而优化结合亲和性。AlphaProteo 经过蛋白质数据库 (PDB) 中的大量蛋白质数据和 AlphaFold 中的 1 亿多条预测结构的训练,已经了解了分子相互结合的无数方式。给定目标分子的结构和该分子上的一组首选结合位置,AlphaProteo 会生成一个候选蛋白质,该蛋白质在这些位置与目标结合。为了测试 AlphaProteo,研究人员设计了针对各种靶蛋白的结合剂,包括两种与感染有关的病毒蛋白 BHRF1 和 SARS-CoV-2 刺突蛋白受体结合域 SC2RBD,以及五种与癌症、炎症和自身免疫性疾病有关的蛋白 IL-7Rɑ、PD-L1、TrkA、IL-17A 和 VEGF-A。AlphaProteo 系统具有极具竞争力的结合成功率和一流的结合强度。对于七个靶点,AlphaProteo 在计算机模拟中生成候选蛋白,这些蛋白在实验测试时与目标蛋白紧密结合。对于一个特定靶标,即病毒蛋白 BHRF1,在 Google DeepMind Wet Lab 中进行测试时,88% 候选分子成功结合。根据测试的靶标,AlphaProteo 结合剂的结合力平均比现有最佳设计方法强 10 倍。对于另一个靶标 TrkA,新结合剂甚至比经过多轮实验优化的针对该靶标的最佳先前设计结合剂更强。与其他设计方法相比,AlphaProteo 针对七种目标蛋白的实验体外成功率。成功率越高,意味着需要测试的设计越少,才能找到成功的结合体。研究人员除了在其湿实验室中进行计算机验证和测试 AlphaProteo 之外,还聘请了 Francis Crick 研究所的 Peter Cherepanov、Katie Bentley 和 David LV Bauer 研究小组来验证其蛋白质结合剂。在不同的实验中,他们深入研究了一些更强的 SC2RBD 和 VEGF-A 结合剂。研究小组证实,这些结合剂的结合相互作用确实与 AlphaProteo 所预测的相似。此外,研究小组还证实了这些结合剂具有有用的生物学功能。例如,一些 SC2RBD 结合剂被证明可以防止 SARS-CoV-2 及其某些变体感染细胞。AlphaProteo 的性能表明,它可以大大减少涉及广泛应用的蛋白质结合剂的初始实验所需的时间。然而,该人工智能系统有局限性,因为它无法针对第 8 个靶点 TNFɑ(一种与类风湿性关节炎等自身免疫性疾病相关的蛋白质)设计成功的结合物。研究人员选择 TNFɑ 来挑战 AlphaProteo,因为计算分析表明设计结合物非常困难。接下来,该团队将继续改进和扩展 AlphaProteo 的功能,最终目标是解决这些具有挑战性的靶点。实现强结合通常只是设计可能对实际应用有用的蛋白质的第一步,在研发过程中还有更多的生物工程障碍需要克服。蛋白质设计是一项快速发展的技术,在各个领域都具有巨大的科学进步潜力,从了解导致疾病的因素,到加速病毒爆发的诊断测试开发,支持更可持续的制造过程,甚至清除环境中的污染物。未来,DeepMind 将与科学界合作,利用 AlphaProteo 解决有影响力的生物学问题并了解其局限性。他们还一直在 Isomorphic Labs 探索其药物设计应用,并对未来的发展感到兴奋。该团队将不断提高 AlphaProteo 算法的成功率和亲和力,扩大它可以解决的设计问题范围,并与机器学习、结构生物学、生物化学和其他学科的研究人员合作,为社区开发负责任、更全面的蛋白质设计产品。相信 AlphaProteo 将为许多生物应用开辟新的解决方案,例如控制细胞信号传导,成像蛋白质、细胞和组织,赋予各种效应系统目标特异性等等。
[学术文献 ] 美国传染病研究中心揭示HIV-1潜伏库大小与宿主基因表达之间的关系 进入全文
Nature Communications
2025年5月29日,美国传染病研究中心Rasmi Thomas研究团队在Nature Communications发表题为“Single-cell analyses identify monocyte gene expression profiles that influence HIV-1 reservoir size in acutely treated cohorts”研究论文,通过单细胞分析深入探究了HIV-1潜伏库大小与宿主基因表达之间的关系,揭示了单核细胞尤其是CD14+单核细胞的基因表达在调节HIV-1潜伏库中的关键作用。研究聚焦于急性感染早期即开始抗逆转录病毒治疗(ART)的患者群体,利用单细胞RNA测序技术对14名病毒抑制效果良好但HIV-1 DNA水平存在显著差异的男性患者的外周血单个核细胞进行分析,发现单核细胞活性特别是IL1B基因表达与HIV-1潜伏库大小呈显著负相关。进一步在包含38名男性患者的独立队列中验证了这一发现,证实了IL1B表达水平与HIV-1潜伏库大小的负相关性在不同祖先背景和HIV-1亚型中具有一致性。功能实验显示,IL1B能够激活NF-κB信号通路,这不仅促进了HIV-1的活跃感染,还诱导了抗病毒基因的表达从而抑制病毒扩散,表明IL1B可能是一种天然的潜伏逆转录激活剂,有助于减少ART治疗个体中的HIV-1潜伏库。此外,研究还发现单核细胞基因表达与中央记忆CD4+ T细胞频率之间存在相互作用,影响HIV-1潜伏库大小。该研究不仅增进了对HIV-1潜伏库形成机制的理解,还为开发新的HIV-1治疗策略提供了潜在靶点,强调了单细胞分析在揭示特定细胞类型在复杂疾病过程中的作用方面的价值。
[学术文献 ] 上海人工智能实验室等合作构建全球首个水稻生物育种大语言模型 进入全文
Molecular Plant
2025年5月28日,崖州湾国家实验室和上海人工智能实验室联合中国农业大学在Molecular Plant发表题为“SeedLLM·Rice: A Large Language Model Integrated with Rice Biological Knowledge Graph”的研究论文。详细解释了研究团队在2024年4月28日开发的中国首个种业大模型“丰登”(SeedLLM),本文以水稻为例详细介绍了丰登的技术和实现原理,系统展示了该研究团队最新的全球首个专为水稻生物育种打造的大语言模型“丰登·水稻”(SeedLLM·Rice),并正式向全球开放了网站。模型深度融合水稻生物学知识图谱。大模型系统整合了全球超过140万篇中英文文献,覆盖该领域公开发表成果的98%以上。在此基础上,团队以腾讯发布的通义千问模型(Qwen2.5-7B)为基础,通过预训练与精调流程,成功开发了丰登水稻种业大语言模型。为全面评估模型能力,研究团队构建了一个大模型自动生成的水稻知识问答数据集SeedBench,共包含1,975对问答样本,涵盖问答生成、摘要提取、语言理解与多项选择等10类任务。自动化评估结果显示,丰登模型在准确率等指标上均显著优于通义千问等主流通用模型。此外,研究团队还联合水稻领域专家,设计了一个高质量人工评测数据集HumanDesignRiceQA,包含253道专业问题,聚焦基因功能、传统杂交育种、分子设计育种等核心主题。评测由来自326名评审参与完成,其中83人为水稻研究领域的资深专家。结果表明,丰登模型在答题质量上全面超越OpenAI GPT4及人类本科生平均水平,展现出其在农业垂直领域中的领先能力。为进一步提升模型的科研实用性,团队构建了全球首个水稻多组学知识图谱,整合了1879篇关于水稻转录组和蛋白质组的文献数据,系统汇聚基因表达水平、蛋白丰度与基因组功能注释信息。图谱包含超过40万个节点与157万条边,覆盖水稻研究中的关键知识单元与生物关系。丰登模型实现了图文协同推理,能够跨越纯文本的表达局限,调用结构化图谱执行精准查询、整合多维证据。例如,在面对“基因 AGIS_Os06g035130 是否具备环境响应能力”这一复杂问题时,模型可自动调用图谱中关联的3篇文献,并融合表达模式与功能注释信息,生成具备多组学支撑的专业回答。评估结果显示,图谱增强使丰登模型在专家级任务中的平均得分从67分跃升至85分,远超 DeepSeek-R1和OpenAI GPT-4o1等当前最先进的大语言模型,揭示了图谱与大模型融合以解析复杂水稻生物学知识的新路径。
[学术文献 ] 美国Salk Institute研究所公布全球首个大麻泛基因组 进入全文
Nature
2025年5月28日,《Nature》在线发表了来自美国Salk Institute研究所的Todd P. Michael为通讯作者题为“Domesticated cannabinoid synthases amid a wild mosaic cannabis pangenome”的研究论文。该研究通过构建包含193个基因组的全球首个大麻泛基因组,揭示了栽培大麻存在显著未开发的遗传多样性、性染色体演化新机制及大麻素合成途径的驯化特征。该研究颠覆了"大麻为单一种"的传统认知,证明其多样性远超预期。大麻(Cannabis sativa)是一种具有8000年栽培历史的多用途作物,兼具纤维、油料和药用价值。然而,20世纪初的全球禁令严重限制了其种质资源开发和育种进程,导致纤维应用潜力未能充分释放。尽管近年部分国家放宽管制,但大麻基因组的高杂合性(SNP >2%)和复杂转座元件(TE占比79%)阻碍了对其多样性本质的理解。此前研究仅基于少数参考基因组,无法全面解析种群结构、性染色体演化及次生代谢物合成的遗传基础。该研究基于144份样本(含78个单倍型解析染色体组)构建泛基因组,发现大麻存在至少五个遗传分化群:北美毒品型(MJ)、高CBD药用型(HC)、欧洲纤维型、亚洲纤维型及西藏野生型。其中西藏野生样本与所有栽培品系显著分化,证实亚洲存在未被描述的野生近缘种。此外,该研究发现近10万年内爆发的转座活性(LTR-RT占比50%)导致种群特异性结构变异(SV),SV区域占基因组20.6%。毒品型(MJ)基因组中,Ty3-LTR在重复区域富集,与纤维型形成显著分化。然而,尽管位于高变TE阵列中,四氢大麻酚酸合成酶(THCAS)和大麻二酚酸合成酶(CBDAS)基因呈现极低多样性,每个单倍型仅保留1个全长功能拷贝。最后,该研究还揭示李稀有丙基大麻素合成机制。研究发现酰基脂硫酯酶基因(ALT3/ALT4)的跨染色体复制与丙基大麻素(THCV/CBDV)合成相关。BKR基因的2-bp缺失导致功能丧失,促使丁酰基-ACP累积转化为丙基大麻素前体。综上所述,该研究首次绘制大麻泛基因组全景图,揭示各种种质的遗传分化表明全球大麻基因库仅部分被表征,为发掘抗逆、纤维品质改良基因提供新资源;破译大麻素合成酶的"高变环境-保守功能"悖论,为合规品种(THC<0.3%)分子设计奠定基础。同时该研究颠覆了"大麻为单一种"的传统认知,证明其多样性远超预期。
[学术文献 ] 哥伦比亚大学揭示细菌逆转录酶防御病毒机制 进入全文
Nature
2025 年 5 月 28日,美国蒙大拿州立大学微生物学与细胞生物学系Blake Wiedenheft与美国纽约州纽约市哥伦比亚大学生物化学与分子生物物理学系Samuel H. Sternberg研究团队在Nature发表题为“Protein-primed homopolymer synthesis by an antiviral reverse transcriptase”研究论文。研究团队发现,防御相关逆转录酶(DRT9)系统在病毒感染时能够合成一种特殊的DNA同聚物——多脱氧腺苷酸(poly-dA),这一过程由一个非编码RNA(ncRNA)模板引导,且合成的poly-dA与逆转录酶(RT)蛋白共价结合。研究通过筛选、突变分析、生化实验、冷冻电镜结构解析等方法,揭示了DRT9系统的功能和机制。实验结果显示,DRT9系统能够有效防御多种噬菌体,尤其是Tequatrovirus和Tequintavirus属的噬菌体,防御机制涉及程序性细胞死亡。DRT9系统在噬菌体感染时合成poly-dA,这一过程由RT蛋白的酪氨酸残基启动,且需要ncRNA中的多尿苷酸(poly-U)区域作为模板。冷冻电镜结构显示,DRT9 RT-ncRNA复合体形成六聚体结构,每个RT亚基与ncRNA的特定区域相互作用。DRT9的活性受到噬菌体编码的触发因子和宿主编码的抑制因子的共同调控,噬菌体T5的gp58蛋白能够激活DRT9系统,导致poly-dA积累和细胞死亡,而宿主核酸酶ExoI通常降解poly-dA,但在噬菌体感染时,gp58可能通过与ExoI竞争结合poly-dA的3′末端来阻止其降解。研究不仅扩展了对细菌免疫系统的理解,还揭示了逆转录酶在核酸合成和抗病毒防御中的新功能。
[学术文献 ] 华中农业大学提出关联分析Fast3VmrMLM算法 进入全文
Plant Communications
2025年5月22日,华中农业大学章元明教授团队在Plant Communications杂志在线发表了题为“Fast3VmrMLM: A fast algorithm that integrates genome-wide scanning with machine learning to accelerate gene mining and breeding by design for polygenic traits in large-scale GWAS datasets”的论文。本研究巧妙地将全基因组扫描与机器学习等一系列算法相结合,提出了一种适用于SNP标记、bin和基因单倍型、lncRNA类型以及结构变异数据的关联分析Fast3VmrMLM算法,为高效、快速和大数据关联分析提供复杂性状大规模基因挖掘和育种改良新技术,为转录组、表型组和代谢组关联分析提供新工具。将常规关联分析运行时间从数小时缩短至几分钟,且以廉价的服务器设备(20 CPUs,1 TB)可实现大样本(50万个品种200万标记)或海量标记(500个品种1亿分子标记)等大数据关联分析。利用18K水稻等数据集鉴定的所有已知和候选基因构建了产量相关性状遗传网络,并确定了21个“枢纽”基因,为复杂性状重要基因挖掘和育种改良提供新策略和基因资源。在过去20多年,关联分析就像遗传迷境中的罗盘,指引着科学家探索生物体复杂性状的遗传基础。尽管基于混合模型的全基因组扫描在关联分析中已广泛应用,然而多基因性状的遗传解析以及人类疾病防治和作物产量等性状的育种改良仍然迫切地需要更新的方法,以更快的速度、更低的成本和更大的群体,发掘更多可信新基因。本研究提出了一套“全基因组扫描+机器学习”框架。在全基因组扫描的混合模型中,考虑了加性效应和显性效应并控制它们的多基因遗传背景,从而鉴定更多的潜在关联标记;在选择标记鉴定显著关联标记时,利用了机器学习算法构建多基因性状的复杂遗传网络。这一新框架全面考虑所有遗传效应和多基因遗传背景,并充分发挥机器学习在复杂网络关系建模方面的优势,有效突破传统方法在遗传位点检测中的“视野盲区”。为应对日益涌现的作物学大规模数据集,并实现高效、快速、大样本和低成本的关联分析,新框架巧妙整合了7项算法技术,有效缓解了大数据处理所带来的计算资源压力,将GWAS软件可支持的品种规模由传统方法的数千大幅提升至百万级水平。显著降低了对高端芯片等计算设备的依赖,化解了“算力壁垒”与“卡脖子”难题。该框架为经典遗传分析方法在大数据与 AI 时代的可持续发展提供了强有力的技术支撑。在Monte Carlo模拟研究和水稻真实数据中,新方法比现有方法在显性效应、小等位基因替代效应和稀有频率等位点检测方面优势明显。在UK-Biobank规模的模拟数据(50万个品种100万标记)中,新方法检测到了遗传率低至3‱的QTN。在水稻18K数据集的14个性状关联分析中,Fast3VmrMLM挖掘了211个有分子生物学实验证据的已知基因和384个有多组学证据的候选基因;在玉米NCII数据集7个产量相关性状关联分析中,新方法鉴定到了26个已知基因和24个候选基因。在20个CPUs和1TB内存的廉价服务器运算中,新方法的运行时间和内存消耗显著优于现有的高效关联分析软件;500个品种1亿标记关联分析只用1.17小时和97.65 GB内存;UK-Biobank规模数据关联分析只用5.43小时和120.29Gb内存;18K水稻数据关联分析每性状平均只用3.30小时;1439个水稻品种100余万标记数据集每性状平均只用5.07分钟。为应对泛基因组数据的出现和分子生物学研究的要求,拓展了Fast3VmrMLM-Hap和Fast3VmrMLM-mQTL模块,用于鉴定bin和基因的单倍型、lncRNA类型和结构变异与目标性状的显著关联。在大豆结构变异数据集中,挖掘了2个大豆油分含量已知基因。利用新算法在18K和1439水稻数据集中鉴定的所有产量相关性状已知基因和候选基因,通过机器学习算法检测基因间互作并构建了其遗传网络,鉴定了21个有充分的证据和育种价值的关键基因,为水稻多基因性状遗传改良提供新的基因资源与策略。这是经典遗传分析基因网络为智慧育种 5.0 提供核心基因资源的典型案例。