中新社拉薩11月19日電 (記者 貢桑拉姆)“陽光清言”藏語大模型研發(fā)成果19日在西藏拉薩市正式發(fā)布。目前,研究團(tuán)隊已按照國家相關(guān)法規(guī)推進(jìn)模型備案工作,待完成后將正式上線面向社會服務(wù)。
“‘陽光清言’藏語大模型V1.0是一個千億參數(shù)級的藏語大模型?!敝袊こ淘涸菏?、西藏大學(xué)教授尼瑪扎西介紹,此款藏語大模型的訓(xùn)練數(shù)據(jù)使用了約288億token高質(zhì)量藏語數(shù)據(jù),包括大規(guī)模句子級和篇章級的藏語單語數(shù)據(jù)、漢藏和藏英平行語料、漢藏雙語辭典條目等,內(nèi)容涵蓋新聞、法律、醫(yī)學(xué)、哲學(xué)、教育、文化和科學(xué)技術(shù)等多個領(lǐng)域。
尼瑪扎西說,這款模型能夠處理復(fù)雜的語言結(jié)構(gòu)和多領(lǐng)域知識,具備深度的藏語語義理解與生成能力,問答自然流暢、生成明晰準(zhǔn)確,在藏語智能問答、文本生成、機(jī)器翻譯等領(lǐng)域有著優(yōu)異的表現(xiàn)。
“‘陽光清言’藏語大模型除了具有藏語能力,還有更為強(qiáng)大的漢語能力?!蔽鞑卮髮W(xué)信息科學(xué)技術(shù)學(xué)院副教授、尼瑪扎西院士團(tuán)隊成員洛桑嘎登稱,作為基座模型,“陽光清言”藏語大模型可以廣泛應(yīng)用于邊疆治理大模型、西藏文旅大模型、西藏綠色能源大模型、西藏農(nóng)牧科研大模型、西藏教育大模型、西藏文化大模型和藏醫(yī)藥與高原健康大模型等研發(fā)。
他說,該模型重點(diǎn)解決邊疆?dāng)?shù)智治理過程中的語言技術(shù)支撐能力、基于大模型的市域和區(qū)域治理能力、基于大模型的民生服務(wù)能力、AI賦能文化旅游產(chǎn)業(yè)能力、AI賦能高原科學(xué)技術(shù)研究、清潔能源開發(fā)利用智能化等關(guān)鍵技術(shù)。
據(jù)悉,西藏大學(xué)尼瑪扎西院士團(tuán)隊與北京智譜華章科技有限公司聯(lián)合開展了藏語大模型研發(fā)工作,旨在推動藏語智能技術(shù)的國際話語權(quán),同時為西藏的長治久安和高質(zhì)量發(fā)展提供技術(shù)支持。(完)