中新網(wǎng)北京5月18日電 (記者 張素)“安全合規(guī)與隱私保護是開展大規(guī)模數(shù)據(jù)分析的前提?!鄙钲诖髮W特聘教授、東壁科技數(shù)據(jù)創(chuàng)始人吳登生在受訪時說,可以通過差分隱私、同態(tài)加密等技術手段來確保研究者不泄露個人隱私,最終助力醫(yī)學數(shù)據(jù)的知識轉化。
“全球醫(yī)學頂尖科研成果高質量數(shù)據(jù)集索引(2019–2024)”17日對外發(fā)布。該數(shù)據(jù)集從海量醫(yī)學文獻中精準提取高價值科研數(shù)據(jù),構建覆蓋基礎研究、醫(yī)療器械、生物醫(yī)藥與人工智能四個領域的多維數(shù)據(jù)框架,旨在為全球醫(yī)學研究趨勢研判、政策制定與產(chǎn)業(yè)創(chuàng)新提供權威數(shù)據(jù)支撐。
這一數(shù)據(jù)集由東壁科技數(shù)據(jù)聯(lián)合上海財經(jīng)大學數(shù)字經(jīng)濟學院發(fā)布。吳登生說,醫(yī)學領域存在數(shù)據(jù)集質量參差不齊、結構不清、可擴展性差等問題,一定程度上制約了醫(yī)學數(shù)據(jù)價值釋放。此次團隊創(chuàng)新設計了基礎研究、醫(yī)療器械、生物醫(yī)藥、人工智能四個一級分類框架,構建了兼具深度與廣度的醫(yī)學知識圖譜。
針對非結構化文本解析的挑戰(zhàn),團隊開發(fā)了“數(shù)據(jù)融合—知識抽取—質量驗證”三層智能引擎,通過融合期刊影響因子、學科分類等結構化信息與論文標題、摘要等文本內容,并結合大模型技術,實現(xiàn)了從文獻到結構化醫(yī)學數(shù)據(jù)的高效自動提取。
吳登生介紹說,“全球醫(yī)學頂尖科研成果高質量數(shù)據(jù)集索引(2019–2024)”基于Dongbi Index(東壁指數(shù))頂級期刊評價體系,鎖定34本醫(yī)學領域頂尖期刊。這些期刊涵蓋腫瘤學、心血管、免疫學等學科,80%以上影響因子超過10。數(shù)據(jù)顯示,2019年至2024年,34本期刊累計發(fā)表論文10.6萬余篇,為高質量數(shù)據(jù)挖掘奠定了堅實基礎。
通過對數(shù)據(jù)集的15260篇文獻深度解析,研究團隊發(fā)現(xiàn),美國以9719篇核心論文位居榜首,其后依次為英國、德國和法國,中國位列第五。
進一步對中國和美國的細分領域發(fā)文以及數(shù)據(jù)集使用類型進行對比分析,吳登生說,在腫瘤發(fā)生與演進機制及防治、疾病治療和傳染病防控等研究領域,美國的研究數(shù)量均高于中國。這表明美國在基礎病理機制與臨床轉化研究上具有更為深厚的積累與投入,中國在這些領域仍有提升空間。
但在新興或高技術含量領域上,比如腦科學、放射治療設備、基因療法、醫(yī)學影像等領域,中美差距相對較小?!斑@意味著我國在精準醫(yī)療與先進技術應用方面有望迎頭趕上?!眳堑巧f。
研究團隊此番發(fā)布的報告指出,中國憑借其廣泛的國際合作網(wǎng)絡,在數(shù)據(jù)集使用領域迅速崛起,不僅與美、英、德等傳統(tǒng)科研強國保持頻繁的學術交流,也在與加拿大、意大利、荷蘭、巴西和阿根廷等新興研究伙伴的合作中持續(xù)擴大影響力。這為中國在構建覆蓋廣泛、多元互補的醫(yī)學數(shù)據(jù)庫體系、提升國際話語權與競爭力提供了寶貴經(jīng)驗與合作平臺。
圍繞中國醫(yī)學數(shù)據(jù)庫建設,報告提出,一方面應構建以多組學、多中心臨床試驗及流行病學調查為基礎的復合型數(shù)據(jù)庫,保障數(shù)據(jù)的高質量與多樣性。另一方面,應在數(shù)據(jù)庫設計中預置完善的臨床干預、長期隨訪和綜合指標體系,鼓勵開放式數(shù)據(jù)共享與跨學科聯(lián)合分析等,提升數(shù)據(jù)的挖掘價值與科研轉化效率。
報告建議,要主動融入并推動多國、多機構間的數(shù)據(jù)互認與標準統(tǒng)一,建立符合國際慣例的元數(shù)據(jù)描述規(guī)范和數(shù)據(jù)交換標準,促進國內外資源共享與協(xié)同創(chuàng)新。(完)