您的位置: 首页 > 院士专题 > 专题 > 详情页

哈佛大学开发三代HiFi宏基因组组装软件

关键词:
来源:
宏基因组
来源地址:
https://mp.weixin.qq.com/s/d6YisAcIO-ZBnZoJ6i8aCA
类型:
前沿资讯
语种:
中文
原文发布日期:
2023-10-26
摘要:
宏基因组样本的从头组装是研究微生物群落的常用方法。当前针对短读长或错误率高的长读长开发的宏基因组组装软件尚未对组装准确的长读长序列进行优化。因此,我们开发了hifiasm-meta,一种利用近期出现的高精度的宏基因组数据进行宏基因组组装的软件。通过使用七个经验数据集进行评估,hifiasm-meta在每个数据集重建了数十到数百个完整的闭环细菌基因组,始终优于其他宏基因组组装软件。短读长宏基因组组装通常能产生长度为数十千碱基(kbp)的重叠群,约为细菌基因组大小的1%。截至2019年9月,经过多年的宏基因组测序,只有62个完整的细菌基因组从宏基因组样本中组装而成。尽管当前可以使用分箱算法将短的重叠群聚类到宏基因组组装基因组(MAG)中,但是分箱会产生较高的错误率,导致下游分析复杂化或错误。短读长MAG的局限性,激发了metaFlye的开发,唯一已发表的专门用于长读长宏基因组组装的软件。metaFlye是基于Flye开发的,其适用于错误率约10%的嘈杂长读长数据组装,不适用于PacBio产生的高准确度数据组装,并且对于单物种HiFi组装来说是次优的。为了充分利用长而精确的HiFi读长的全部优势,我们开发了hifiasm-meta,将作者早期开发的hifiasm应用到宏基因组样本组装中。与单个物种的组装相比,宏基因组组装带来了几个独特的挑战,例如PacBio HiFi数据中读长长度差异较大,以及某些单倍型的高倍性与低覆盖率相结合。作者在hifiasm-meta中做了几个重大改变来应对这些挑战。首先,hifiasm-meta具有读长选择步骤,可以减少高丰度菌株的覆盖率,而不会丢失低丰度菌株的数据。其次,在组装图的构建过程中,hifiasm-meta试图保护低覆盖率基因组中的序列,这些序列可能被视为嵌合序列并被原始hifiasm丢弃。第三,hifiasm-meta 只有在推断出与读长完全重叠的其他序列来自同一单倍型时,才会丢弃包含的序列,这减少了由内含序列而引起的重叠群断点。第四,在初始图构建之后,hifiasm-meta使用测序深度信息来修剪unitig,假设来自同一菌株的unitigs往往具有相似的覆盖率。它还尝试连接来自不同单倍型的单元,以修补剩余的组装间隙。这些策略使hifiasm-meta在进行高精度宏基因组装时更加健全。作者首先评估了hifiasm-meta (r58-31876a0),metaFlye (v.2.9) 和 HiCanu (v.2.2) 在两个人工合成菌群,ATCC和zymo(表 1),上的组装性能。ATCC由20个不同的物种组成,其中15个丰度较高,为0.18-18%,5个为稀有物种,丰度为0.02%。hifiasm-meta能够重建13个丰度较高的物种,并且每个物种都能被组装为一个完整的闭环重叠群,可与metaFlye和HiCanu相媲美。三种组装工具都将丰度为18%的牙龈卟啉单胞菌组装成两个重叠群,没有组装工具能够完全重建五个低丰度的物种。作者手动检查了这些低丰度物种的序列对齐文件,发现它们的组装间隙都是由于测序深度不足造成的,目前无法用现有的数据完全组装这些物种。zymo数据集包含17个不同种属的21个菌株,其中包括5个大肠杆菌,每个大肠杆菌的丰度约为8%。该数据集的挑战在于多个近缘物种大肠杆菌的同步出现。hifiasm-meta将菌株B3008组装成一个完整的闭环重叠群,菌株B766组装成两个重叠群,其余为碎片重叠群;HiCanu将B3008和B0组装成完整的闭环重叠群;metaFlye未能将五个菌株组装为闭环重叠群。hifiasm-meta将丰度为0.04%的硫代甲烷短杆菌组装为了更连续的重叠群。总体来说,三种组装软件在两个模拟菌群数据集上都具有相似的准确性。
相关推荐

意 见 箱

匿名:登录

个人用户登录

找回密码

第三方账号登录

忘记密码

个人用户注册

必须为有效邮箱
6~16位数字与字母组合
6~16位数字与字母组合
请输入正确的手机号码

信息补充