原標題:人工智能與生命醫(yī)學交叉再獲突破 西安交大團隊提出基因注釋研究新方法
基因注釋是連接“測出基因組”和“讀懂基因組”的核心環(huán)節(jié),是基因組研究走向功能解析和應用轉化的重要基礎。隨著國際大型基因組計劃持續(xù)產(chǎn)出海量數(shù)據(jù),如何實現(xiàn)高質量基因注釋已成為后基因組時代亟待突破的重要瓶頸。傳統(tǒng)方法通常依賴RNA測序、同源蛋白等外部證據(jù),存在數(shù)據(jù)需求高、計算開銷大、對數(shù)據(jù)匱乏物種適用性受限等問題。
記者13日從西安交通大學獲悉,針對這一挑戰(zhàn),西安交通大學葉凱教授團隊近日提出了一種基于混合專家架構的深度學習基因注釋框架 ANNEVO。
據(jù)了解,ANNEVO圍繞“進化異質性建?!焙汀伴L距離上下文建?!眱纱箨P鍵難題進行設計。在模型架構上,該方法首先在宏觀層面對不同生物大類群進行區(qū)分,盡可能減少進化距離較遠物種之間的信號干擾;在類群內(nèi)部,則進一步通過混合專家機制自動學習不同亞類群特異性的基因結構模式,從而增強模型對復雜生物多樣性和跨物種差異的適應能力。與此同時,ANNEVO引入長距離上下文建模模塊,以適應基因組序列中局部模式與全局模式并存的復雜特征:前者體現(xiàn)在剪接位點、起始和終止密碼子等短程保守信號,后者則體現(xiàn)在遠距離外顯子協(xié)同、長基因結構組織以及跨區(qū)域關聯(lián)等長程依賴關系。
除在特征學習層面實現(xiàn)突破外,ANNEVO還在預測輸出階段融入了與基因結構相關的生物學約束機制,在解碼過程中顯式考慮外顯子、內(nèi)含子、剪接位點、起始/終止密碼子以及閱讀框連續(xù)性等生物學規(guī)則,使模型不僅具備深度學習方法強大的模式提取能力,也兼顧了基因預測任務對生物學一致性的嚴格要求。
研究結果表明,該方法能夠同時建模不同生物類群之間的進化規(guī)律以及基因組內(nèi)部的長距離序列依賴關系,在無需RNA測序和同源蛋白等外部證據(jù)的情況下,僅依賴DNA序列即可實現(xiàn)高精度從頭基因注釋。該方法不僅在多個系統(tǒng)發(fā)育分支中展現(xiàn)出優(yōu)異的泛化能力,還可用于修正現(xiàn)有參考數(shù)據(jù)庫中的錯誤注釋,為新基因組解析和參考注釋完善提供了新的技術路徑。
該研究表明,基因注釋正從高度依賴外部實驗數(shù)據(jù)和人工規(guī)則的傳統(tǒng)范式,邁向更加智能化、自動化的新階段。ANNEVO的提出,不僅為數(shù)據(jù)匱乏物種提供了切實可行的高質量注釋方案,也為大規(guī)模生命基因組計劃提供了更具擴展性的技術支撐。同時,該成果打破了國外尤其是德國研究團隊在該領域二十余年的技術主導局面,推動中國在基因注釋核心方法上實現(xiàn)重要突破,進一步增強了中國在智能基因組學關鍵技術領域的自主創(chuàng)新能力。
該研究對于服務國家生物安全戰(zhàn)略、推動人工智能與生命科學深度交叉融合、提升中國在生命大數(shù)據(jù)核心技術領域的國際競爭力具有重要意義。未來,隨著模型在非編碼RNA、可變剪接等更復雜注釋任務中的進一步拓展,ANNEVO有望在更廣泛的基因組功能解析場景中發(fā)揮作用。
相關成果以“Highly accurate ab initio gene annotation with ANNEVO”為題,于2026年3月12日在線發(fā)表于國際頂級期刊Nature Methods。西安交通大學電信學部自動化學院博士生張鵬宇為該論文第一作者,葉凱教授為通訊作者。
葉凱教授團隊表示,面向生命科學加速邁入“海量基因組數(shù)據(jù)”時代,推動人工智能與基因組學深度融合、加快構建自主可控的核心方法體系,已成為搶占生命科學前沿制高點的重要方向。研究團隊長期圍繞“人工智能驅動基因組解析”開展系統(tǒng)性研究與技術布局。隨著相關研究持續(xù)推進,團隊已逐步形成覆蓋基因組變異識別與基因功能注釋等關鍵環(huán)節(jié)的連續(xù)方法鏈條,并已在Darwin Tree of Life等國際旗艦基因組計劃中展現(xiàn)出重要應用價值。 (記者 阿琳娜)