一聲輕鳴,燈光亮起,高光譜成像儀啟動,一枚躺在玻璃管里的簡牘被緩緩?fù)迫?。不到半分鐘,簡牘的高光譜成像圖已經(jīng)出現(xiàn)在屏幕上。
在甘肅省簡牘智能計算與數(shù)字人文工程研究中心的實驗室里,研究中心負(fù)責(zé)人、西北師范大學(xué)教授張強盯著紅外圖像和光譜曲線仔細(xì)分析:“很多簡牘文物封存在玻璃管里,不能輕易打開。利用高光譜成像儀掃描和算法處理,可以清晰提取其紅外圖像信息,為數(shù)據(jù)集提供更多支持。”
張強所說的數(shù)據(jù)集,是指簡牘字符檢測與識別大規(guī)模數(shù)據(jù)集,名為DeepJiandu數(shù)據(jù)集。今年3月,張強團隊聯(lián)合甘肅簡牘博物館等單位推出數(shù)據(jù)集,面向全球開放。
甘肅是全國簡牘出土最豐富的地區(qū)之一。20世紀(jì)以來,甘肅出土7萬余枚簡牘,以漢簡居多,內(nèi)容涉及軍事、政務(wù)、醫(yī)藥、民俗等。
簡牘材料相對脆弱,經(jīng)過長期埋藏,經(jīng)常出現(xiàn)字符模糊、字跡缺損等情況。傳統(tǒng)的簡牘研究,處理一枚簡牘的工作量非常大,從定位文字、辨認(rèn)字形,到記錄保存、成果分享都需要人工完成。
張強長期從事計算機科學(xué)與管理科學(xué)交叉研究工作,“我們?nèi)绾瓮ㄟ^多學(xué)科交叉融合,運用人工智能為簡牘學(xué)研究賦能?”張強帶領(lǐng)團隊,聯(lián)合甘肅簡牘博物館、上海中西書局、甘肅文化出版社等,先后收集4萬多枚簡牘圖版,整理4.5萬多條釋文、近20萬個字形等數(shù)據(jù)。去年6月,簡牘學(xué)術(shù)資源數(shù)據(jù)共享平臺正式上線,面向全球公開免費使用。
在共享平臺的研發(fā)、應(yīng)用中,張強團隊提出了推出DeepJiandu數(shù)據(jù)集的想法。“大量看似復(fù)雜的簡牘特征信息是可以被提取的,該數(shù)據(jù)集為利用人工智能實現(xiàn)簡牘文字智能識別的特征提取提供了基礎(chǔ)和可能?!睆垙娬f。
數(shù)據(jù)集就像“養(yǎng)料”,張強團隊不斷地將其“喂給”各類分析算法。例如,對于一枚簡牘,團隊通過圖像增強、補全、定位等算法,通過大量數(shù)據(jù)模型訓(xùn)練和算法優(yōu)化,就能對其文字進行智能檢測和識別。
制作這樣的數(shù)據(jù)集,并非簡單地“把文字粘貼到表格里”。有些簡牘字跡模糊、書寫風(fēng)格復(fù)雜,有些簡牘還存在著彎曲、斷裂等物理變形,加上不同簡牘的年代、地域不同,字體形態(tài)差異巨大、規(guī)范性差……經(jīng)過反復(fù)試錯、細(xì)致標(biāo)注,一個字一個字地“摳”,團隊開展了多輪對比測試。不斷調(diào)整優(yōu)化后,基于DeepJiandu數(shù)據(jù)集的文字檢測精度提升至92%以上,對于一些常見漢字,數(shù)據(jù)集的表現(xiàn)更加穩(wěn)定。
兩年中,張強團隊從不到5人擴展到30多人,人員學(xué)術(shù)背景構(gòu)成也拓展到計算機、歷史、文學(xué)和管理等學(xué)科領(lǐng)域,目前正在穩(wěn)步開展智能識別簡牘書寫風(fēng)格、殘簡斷簡智能綴合、簡牘知識圖譜構(gòu)建等研究項目。“希望更多人愿意加入進來,挖掘簡牘學(xué)的寶貴價值?!睆垙娬f。
《 人民日報 》( 2025年06月09日 12 版)