一聲輕鳴,燈光亮起,高光譜成像儀啟動(dòng),一枚躺在玻璃管里的簡牘被緩緩?fù)迫?。不到半分鐘,簡牘的高光譜成像圖已經(jīng)出現(xiàn)在屏幕上。
在甘肅省簡牘智能計(jì)算與數(shù)字人文工程研究中心的實(shí)驗(yàn)室里,研究中心負(fù)責(zé)人、西北師范大學(xué)教授張強(qiáng)盯著紅外圖像和光譜曲線仔細(xì)分析:“很多簡牘文物封存在玻璃管里,不能輕易打開。利用高光譜成像儀掃描和算法處理,可以清晰提取其紅外圖像信息,為數(shù)據(jù)集提供更多支持?!?/p>
張強(qiáng)所說的數(shù)據(jù)集,是指簡牘字符檢測(cè)與識(shí)別大規(guī)模數(shù)據(jù)集,名為DeepJiandu數(shù)據(jù)集。今年3月,張強(qiáng)團(tuán)隊(duì)聯(lián)合甘肅簡牘博物館等單位推出數(shù)據(jù)集,面向全球開放。
甘肅是全國簡牘出土最豐富的地區(qū)之一。20世紀(jì)以來,甘肅出土7萬余枚簡牘,以漢簡居多,內(nèi)容涉及軍事、政務(wù)、醫(yī)藥、民俗等。
簡牘材料相對(duì)脆弱,經(jīng)過長期埋藏,經(jīng)常出現(xiàn)字符模糊、字跡缺損等情況。傳統(tǒng)的簡牘研究,處理一枚簡牘的工作量非常大,從定位文字、辨認(rèn)字形,到記錄保存、成果分享都需要人工完成。
張強(qiáng)長期從事計(jì)算機(jī)科學(xué)與管理科學(xué)交叉研究工作,“我們?nèi)绾瓮ㄟ^多學(xué)科交叉融合,運(yùn)用人工智能為簡牘學(xué)研究賦能?”張強(qiáng)帶領(lǐng)團(tuán)隊(duì),聯(lián)合甘肅簡牘博物館、上海中西書局、甘肅文化出版社等,先后收集4萬多枚簡牘圖版,整理4.5萬多條釋文、近20萬個(gè)字形等數(shù)據(jù)。去年6月,簡牘學(xué)術(shù)資源數(shù)據(jù)共享平臺(tái)正式上線,面向全球公開免費(fèi)使用。
在共享平臺(tái)的研發(fā)、應(yīng)用中,張強(qiáng)團(tuán)隊(duì)提出了推出DeepJiandu數(shù)據(jù)集的想法?!按罅靠此茝?fù)雜的簡牘特征信息是可以被提取的,該數(shù)據(jù)集為利用人工智能實(shí)現(xiàn)簡牘文字智能識(shí)別的特征提取提供了基礎(chǔ)和可能?!睆垙?qiáng)說。
數(shù)據(jù)集就像“養(yǎng)料”,張強(qiáng)團(tuán)隊(duì)不斷地將其“喂給”各類分析算法。例如,對(duì)于一枚簡牘,團(tuán)隊(duì)通過圖像增強(qiáng)、補(bǔ)全、定位等算法,通過大量數(shù)據(jù)模型訓(xùn)練和算法優(yōu)化,就能對(duì)其文字進(jìn)行智能檢測(cè)和識(shí)別。
制作這樣的數(shù)據(jù)集,并非簡單地“把文字粘貼到表格里”。有些簡牘字跡模糊、書寫風(fēng)格復(fù)雜,有些簡牘還存在著彎曲、斷裂等物理變形,加上不同簡牘的年代、地域不同,字體形態(tài)差異巨大、規(guī)范性差……經(jīng)過反復(fù)試錯(cuò)、細(xì)致標(biāo)注,一個(gè)字一個(gè)字地“摳”,團(tuán)隊(duì)開展了多輪對(duì)比測(cè)試。不斷調(diào)整優(yōu)化后,基于DeepJiandu數(shù)據(jù)集的文字檢測(cè)精度提升至92%以上,對(duì)于一些常見漢字,數(shù)據(jù)集的表現(xiàn)更加穩(wěn)定。
兩年中,張強(qiáng)團(tuán)隊(duì)從不到5人擴(kuò)展到30多人,人員學(xué)術(shù)背景構(gòu)成也拓展到計(jì)算機(jī)、歷史、文學(xué)和管理等學(xué)科領(lǐng)域,目前正在穩(wěn)步開展智能識(shí)別簡牘書寫風(fēng)格、殘簡斷簡智能綴合、簡牘知識(shí)圖譜構(gòu)建等研究項(xiàng)目。“希望更多人愿意加入進(jìn)來,挖掘簡牘學(xué)的寶貴價(jià)值?!睆垙?qiáng)說。
《 人民日?qǐng)?bào) 》( 2025年06月09日 12 版)