未知君科学家顶刊发文 照亮微生物基因功能注释“黑洞”

2024年06月05日


“注释黑洞”

在生物信息学领域,尤其是微生物基因功能注释的研究中,我们时常面临着一项基础性的挑战:如何准确挖掘基因的潜在功能,避免所谓的“注释黑洞”?


日前, 南昌大学徐振江教授、深圳大学陈小军教授与未知君胡双威博士合作的科研成果《Partial order relation–based gene ontology embedding improves protein function prediction(编者译:基于偏序关系的基因本体论嵌入改进蛋白质功能预测)》,在生物计算类顶尖期刊Briefings in Bioinformatics正式发表。本文针对这一挑战,介绍了一种性能优越的蛋白质功能注释新工具——PO2Vec


蛋白质作为生命活动的核心媒介,深入探究其功能对于揭示生命奥秘具有重要价值。但是,通过实验的方式探索和验证未知功能的蛋白,不但周期冗长,而且成本高昂。与此同时,高通量测序技术的发展让生物学研究步入大数据时代,源源不断地产出大量需要进行注释的蛋白质序列,而蛋白序列的功能注释过程,也从基于序列相似性的同源比对,逐渐发展成为依托于深度学习模型的蛋白质结构功能预测。然而,现有的深度学习模型在面对大型数据库中复杂的层级功能分类标签时仍然具有局限性。因此,越复杂的功能分类就需要更复杂的建模来精准捕捉分类标签间的完整关系和语义含义,从而优化蛋白质功能预测的结果。

GO (Gene Ontology,基因本体论),是基因本体联合会(Gene Ontology Consortium)所建立的数据库,旨在建立一个适用于各种物种的,对基因和蛋白功能进行限定和描述的,并能随着研究不断深入而更新的语义词汇标准。GO中最基本的概念是“标签(term)",即GO数据库是给每个基因贴上标签,研究者能够通过标签快速寻找到目标基因。GO提供了三层结构的系统定义方式:生物过程(Biology Process),分子功能(Molecular Function)和细胞组成(Celular component)。GO数据库以一种灵活和动态的方式,为整个系统发育谱系中的同源基因和蛋白质序列提供了可比较的描述。

面对GO这样分类复杂、信息全面的数据库,本文的研究者提出了一种新颖的深度学习方法—— PO2Vec。与通常依赖于祖先共现的方法相比,PO2Vec通过探索基于最短可达路径的偏序关系来学习拓扑信息。同时,PO2Vec也是第一个利用GO中重要的偏序关系来学习的注释模型。经过大量的评估测试实验,研究者发现在一系列学习任务中,PO2Vec可以更全面地捕获GO term的拓扑和生物信息,其表现优于现有的常规方法。


PO2Vec嵌入算法说明

研究者将PO2Vec技术与先进的预训练蛋白质语言模型ESM-1b相结合,开发出了一种新的蛋白质功能注释模型——PO2GO。该模型的主体架构由三个部分组成:蛋白质特征提取器,将蛋白质序列编码为向量; GO term编码器,为每个GO term获取嵌入;联合建模预测器,通过进行GO term嵌入数据库搜索来执行蛋白质功能预测。


PO2GO的网络框架

与图神经网络和基于图正则化技术等更现有方法相比,PO2Vec通过对比学习框架,有效区分不同程度的term接近度,从而提供了更深层次的语义表示。通过与DeepGOA、TALE和DeepGOPlus一系列蛋白功能预测工具进行比较,研究者用基准测试证明了PO2GO的有效性。在微生物研究领域,DIAMOND算法作为基因功能注释的金标准,已被广泛认可和使用。在与DIAMOND的对比评估中,PO2GO在多个关键指标上均超越了DIAMOND,显示出了其在微生物基因功能注释中的潜力和优势。

得益于PO2Vec深度学习方法学的开发,PO2GO在蛋白质功能预测中显示出了较高的准确性和特异性,漏报现象明显减少,能够很好地帮助科研者填补注释“黑洞”,为微生物研究领域提供了新的工具。同时,与GO类似的数据库结构在生物学研究领域普遍存在,因此研究者提出的注释方法论具有迁移性,可以用于其他类型的蛋白质相关特征注释。

PO2Vec和PO2GO模型不仅是对传统基因功能注释方法的一次重要革新与补充,更是深度学习在生物信息学领域应用的一次生动展现。它们以其独特的视角和深度学习的能力,打破了传统基因功能注释方法的局限,提供了一种全新的、更为精准的基因序列分析与理解方式。它能够将复杂的基因序列转化为高维空间中的向量表示,从而捕捉序列中那些微妙的、传统方法难以发现的模式和关联。

本文的正式发表,以及上述模型的研发,代表了未知君在生物信息学领域的深厚积累和创新能力,为公司的创新药物开发、FMT精准供体筛选、临床应用扩展和技术体系升级提供了强大的支持。模型也将作为优质的基础工具,为未知君的人体肠道微生态科研注入了创新动力,推动公司在生物信息学领域的持续进步和深入探索。

查看原文:https://academic.oup.com/bib/article/25/2/bbae077/7620910


-End-