科技日?qǐng)?bào)北京10月10日電 (記者張夢(mèng)然)美國(guó)哈佛大學(xué)與西北大學(xué)研究團(tuán)隊(duì)合作,開發(fā)出一種新型機(jī)器學(xué)習(xí)方法,能夠從無序蛋白質(zhì)中排序,設(shè)計(jì)出具有特定性質(zhì)的內(nèi)在無序蛋白質(zhì)(IDPs),從而突破了當(dāng)前人工智能(AI)工具在解析約30%人類蛋白質(zhì)結(jié)構(gòu)上的局限。該成果發(fā)表于最新一期《自然·計(jì)算科學(xué)》。
這類蛋白質(zhì)因其不折疊成固定三維結(jié)構(gòu)而長(zhǎng)期難以被建模,像“阿爾法折疊”等先進(jìn)AI系統(tǒng)雖在結(jié)構(gòu)預(yù)測(cè)方面表現(xiàn)卓越,卻無法有效處理這類高度動(dòng)態(tài)的分子。然而,IDPs在細(xì)胞信號(hào)傳導(dǎo)、分子傳感和交聯(lián)等關(guān)鍵生物過程中發(fā)揮著核心作用,其功能異常也與癌癥、神經(jīng)退行性疾病等多種疾病密切相關(guān),例如α-突觸核蛋白就與帕金森病緊密關(guān)聯(lián)。
為應(yīng)對(duì)這一挑戰(zhàn),研究團(tuán)隊(duì)提出了一種結(jié)合物理模型與機(jī)器學(xué)習(xí)技術(shù)的新路徑。該方法基于“自動(dòng)微分”技術(shù)——一種常用于深度學(xué)習(xí)中計(jì)算導(dǎo)數(shù)的算法,用于追蹤輸入變量微小變化對(duì)輸出的影響。他們利用這一機(jī)制,在分子動(dòng)力學(xué)模擬框架下直接優(yōu)化氨基酸序列,使其具備預(yù)定的物理或功能特性。與依賴大量數(shù)據(jù)訓(xùn)練的典型人工智能模型不同,該方法依托已有且足夠精確的物理模擬體系,通過梯度優(yōu)化高效搜索滿足特定功能需求的蛋白質(zhì)序列,如形成柔性連接結(jié)構(gòu)或響應(yīng)環(huán)境變化的能力。
團(tuán)隊(duì)強(qiáng)調(diào),目標(biāo)并非用數(shù)據(jù)驅(qū)動(dòng)模型替代物理理解,而是將真實(shí)的分子行為規(guī)律嵌入設(shè)計(jì)過程,使生成的蛋白質(zhì)序列不僅具備功能性,而且其設(shè)計(jì)過程本身就根植于自然界真實(shí)的動(dòng)力學(xué)原理。由此設(shè)計(jì)出的蛋白質(zhì)是“可微分的”,意味著每一步優(yōu)化都建立在對(duì)系統(tǒng)物理狀態(tài)連續(xù)、精確調(diào)控的基礎(chǔ)上,而非依賴黑箱式的預(yù)測(cè)。