原標(biāo)題:多模態(tài)大模型將重塑行業(yè)格局
眼神表情、語氣動作與臺詞內(nèi)容、周邊環(huán)境可實(shí)時調(diào)整,情緒轉(zhuǎn)折和肢體行為切換順暢,直播間里超擬真數(shù)字人的表現(xiàn)力甚至超越真人;果農(nóng)打開AI助手,語音說出想法,一個集合產(chǎn)品展示、線上下單、收款發(fā)貨功能的定制化應(yīng)用即在3分鐘內(nèi)生成,實(shí)現(xiàn)無代碼編程,每個人都可以成為程序員……
這些是科技日報記者在Create2025百度AI開發(fā)者大會上看到的多模態(tài)大模型應(yīng)用場景。
近日,百度發(fā)布文心大模型4.5Turbo及深度思考模型X1Turbo。作為多模態(tài)大模型,前者實(shí)現(xiàn)了文本、圖像和視頻的混合訓(xùn)練,大幅提升跨模態(tài)學(xué)習(xí)效率和多模態(tài)融合效果,使學(xué)習(xí)效率提高近2倍,多模態(tài)理解效果提升超過30%。
創(chuàng)新應(yīng)用賦能多業(yè)態(tài)
超擬真數(shù)字人的“超能力”從何而來?其驚艷表現(xiàn)的背后是多模態(tài)AI技術(shù)的強(qiáng)力支持。
百度首席技術(shù)官王海峰所在的團(tuán)隊研制了“劇本”驅(qū)動多模協(xié)同的超擬真數(shù)字人技術(shù),可實(shí)現(xiàn)語言、聲音、形象的協(xié)調(diào)一致。
“打開電腦,拿起手機(jī),讓文物講述它的故事?!碑?dāng)天,中國文物交流中心與百度文心大模型發(fā)布首個文博智能體——文夭夭文博智推官,為公眾提供國內(nèi)外博物館文物、展覽、數(shù)字化應(yīng)用等文博專業(yè)知識的科普講解、傳播推廣。
如何提高文物展示水平,重塑與激活文物承載的文化內(nèi)涵和精神價值?AI給出了科技答案,賦予文物新的創(chuàng)造力。
中國文物交流中心黨委副書記、副主任周宇表示,中國文物交流中心與百度文心大模型合作,希望通過AI技術(shù)賦能文博事業(yè)發(fā)展,借助智能體讓人們更方便、更快捷、更全面地了解文物背后的歷史、故事以及價值。
通過整合文本、圖像、視頻等數(shù)據(jù),多模態(tài)大模型實(shí)現(xiàn)了跨模態(tài)理解與生成,突破了傳統(tǒng)單模態(tài)模型的局限性。王海峰表示,未來,大模型的能力和效率將進(jìn)一步提升,人們可以探索更前瞻、更有想象力的創(chuàng)新應(yīng)用。
在大模型賦能下,文物更鮮活,也更吸引人了。百度文心大模型與中國文物交流中心將繼續(xù)探索AI大模型技術(shù)在文博領(lǐng)域的應(yīng)用,打造多元化、數(shù)字化、智能化文博內(nèi)容新場景,助力文物和文化遺產(chǎn)保護(hù)傳承。
非遺傳承有了新方式
非遺武術(shù)是五千年中華文明的活態(tài)載體,然而其傳承傳播正遭遇嚴(yán)峻挑戰(zhàn)。數(shù)據(jù)顯示,傳統(tǒng)武術(shù)拳種僅存129種。
事實(shí)上,非遺武術(shù)離人們的生活并不遙遠(yuǎn),太極拳、形意拳、八卦掌,這些特色拳種早已通過武俠小說、電影、電視等融入生活。如何讓更多人學(xué)到非遺武術(shù)知識,參與非遺武術(shù)傳承傳播?大模型給出了新答案。
“非遺武術(shù)—百度文心大模型”應(yīng)運(yùn)而生。該應(yīng)用基于百度文心大模型,融合上海體育大學(xué)武術(shù)學(xué)院、中國武術(shù)博物館的專業(yè)積淀,將武術(shù)技法與算法結(jié)合,通過3D動作建模、AI動態(tài)糾錯等技術(shù),把非遺武術(shù)技術(shù)動作以數(shù)字化的形式保存和記錄下來。
例如,練拳時,AI可以捕捉用戶動作軌跡,與標(biāo)準(zhǔn)模型智能比對,實(shí)現(xiàn)動態(tài)打分評測和實(shí)時反饋指導(dǎo);學(xué)習(xí)時,系統(tǒng)可解析發(fā)力原理,提供科學(xué)優(yōu)化建議,讓“紙上招式”變?yōu)椤傲Ⅲw教學(xué)”。
“大模型豐富了非遺武術(shù)的教育形式,也創(chuàng)新了非遺武術(shù)的傳承方式,未來我們將積極打造新場景。”王海峰說。
未來,多模態(tài)大模型將重塑多個行業(yè)格局。例如在制造業(yè)中,模型可通過視覺檢測與自然語言指令結(jié)合,實(shí)現(xiàn)缺陷自動標(biāo)注與工藝優(yōu)化;在金融領(lǐng)域,其可整合財報、輿情與市場數(shù)據(jù),提供更精準(zhǔn)的風(fēng)險評估。