AI大模型自誕生之日起,其幻覺就難以避免。因?yàn)閺牡讓右?guī)則來(lái)看,大模型被強(qiáng)制要求一定要有回應(yīng),但它確實(shí)會(huì)出現(xiàn)無(wú)法回答的情況,自然就會(huì)胡說八道。一邊是廠商不斷加高的安全壁壘,另一邊是用戶不斷嘗試,設(shè)法在已有的規(guī)則中找尋突破口。就如幾十年前互聯(lián)網(wǎng)剛普及時(shí)一樣,這注定將成為一場(chǎng)“貓鼠游戲”?!癆I大模型目前的這一結(jié)構(gòu)令其在技術(shù)上無(wú)法消滅幻覺,只能在工程上盡可能避免。”Listenhub運(yùn)營(yíng)負(fù)責(zé)人馬克斯說
◎記者 羅茂林
大模型的普及讓全球內(nèi)容生產(chǎn)正經(jīng)歷一場(chǎng)重構(gòu)。近期,部分大模型突破框架,輸出不雅回復(fù)的新聞一度在社交媒體上發(fā)酵。與此同時(shí),各類諸如“關(guān)公戰(zhàn)秦瓊”的AI幻覺,也令模型商業(yè)化落地難以真正令人滿意。
“生成式”內(nèi)容帶來(lái)的沖擊遠(yuǎn)不止于此。日前,法國(guó)、馬來(lái)西亞及印度的監(jiān)管部門共同向馬斯克旗下的AI聊天機(jī)器人Grok發(fā)難:該模型生成大量針對(duì)女性和未成年人的性相關(guān)偽造內(nèi)容。相關(guān)部門譴責(zé)稱,這樣的行為正在突破法律和倫理的底線。
新生事物的發(fā)展總伴隨爭(zhēng)議與挑戰(zhàn),當(dāng)“生成式”內(nèi)容正以前所未有的規(guī)模進(jìn)入大眾生活,新的規(guī)則邊界也需要在探索中逐漸形成。
AI大模型:與幻覺共存
近期,有用戶稱在使用大模型時(shí)模型出現(xiàn)不雅回復(fù),一時(shí)間引發(fā)網(wǎng)友關(guān)注。
“這件事在業(yè)內(nèi)來(lái)看有點(diǎn)蹊蹺,因?yàn)檩敵龅膬?nèi)容連格式都和一般的模型對(duì)話不太一樣?!盠istenhub運(yùn)營(yíng)負(fù)責(zé)人馬克斯告訴上海證券報(bào)記者,這種不尋常的情況有可能意味著大模型被注入過特殊指令。
一位AI大模型工程師告訴記者,目前AI大模型訓(xùn)練中工程師往往會(huì)為大模型設(shè)定一套底層“人設(shè)”:“它可以理解為大模型的一個(gè)人格,包含了很多禁止性約束,在內(nèi)容輸出前起到審核作用,確保輸出內(nèi)容合規(guī)?!?/p>
而所謂注入指令,便是用戶通過輸入特定的詞語(yǔ),讓大模型短時(shí)間內(nèi)忘掉被工程師設(shè)定的“人格”。在此背景下,模型可能突破既定規(guī)則,這也被業(yè)內(nèi)視為AI大模型幻覺的一種表現(xiàn)。
匯正財(cái)經(jīng)資深投資顧問馮濤告訴記者,從目前大模型行業(yè)的訓(xùn)練慣例來(lái)看,AI產(chǎn)生幻覺大致包括兩方面原因:一方面是初始的訓(xùn)練數(shù)據(jù)可能存在少量錯(cuò)誤、噪聲或覆蓋盲區(qū);另一方面是模型對(duì)復(fù)雜邏輯的推理能力不足,知識(shí)關(guān)聯(lián)建模存在缺陷而導(dǎo)致的漏洞。
“國(guó)內(nèi)外的大模型產(chǎn)品,本質(zhì)上叫next token prediction,這就是說模型在生成答案時(shí),是基于概率預(yù)測(cè)下一個(gè)詞,而不是真正地進(jìn)行邏輯推理或計(jì)算。所以為了流暢或其他原因,有可能會(huì)產(chǎn)生一些很奇怪的說法。”深圳大學(xué)一位專攻大語(yǔ)言模型及其安全領(lǐng)域的副教授告訴記者,“出現(xiàn)這些幻覺更本質(zhì)的核心原因,還是當(dāng)前的計(jì)算能力受限了?!?/p>
在馬克斯看來(lái),AI大模型自誕生之日起,幻覺就難以避免?!耙?yàn)閺牡讓右?guī)則來(lái)看,大模型被強(qiáng)制要求一定要有回應(yīng),但它確實(shí)會(huì)出現(xiàn)無(wú)法回答的情況,因此自然就會(huì)胡說八道?!?/p>
一邊是廠商不斷加高的安全壁壘,另一邊是用戶不斷嘗試,設(shè)法在已有的規(guī)則中找尋突破口。就如幾十年前互聯(lián)網(wǎng)剛普及時(shí)一樣,這注定將成為一場(chǎng)“貓鼠游戲”。
“AI大模型目前的這一結(jié)構(gòu)令其在技術(shù)上無(wú)法消滅幻覺,只能在工程上盡可能避免?!瘪R克斯說。
“生成式”內(nèi)容:規(guī)則邊界的重新定義
如何盡可能減少AI幻覺?除了確保源頭數(shù)據(jù)的準(zhǔn)確以外,建立更加多維且可靠的安全墻是最好的選擇。
馬克斯告訴記者,除了在輸出前增加新的對(duì)抗性“人格”,再次確保內(nèi)容合規(guī)外,使用檢索增強(qiáng)生成技術(shù)也成為現(xiàn)在廠商的選擇之一,“這個(gè)技術(shù)相當(dāng)于一個(gè)外置的知識(shí)庫(kù),大模型在輸出前再到庫(kù)里檢索一遍,以確保內(nèi)容準(zhǔn)確”。
記者注意到,目前不少?gòu)S商在醫(yī)療、金融、教育等對(duì)準(zhǔn)確度要求極高的場(chǎng)景中都使用了相關(guān)技術(shù)。
盡管如今AI大模型幻覺觸發(fā)的概率正變得越來(lái)越低,但在越發(fā)龐大的總量面前,這些“胡言亂語(yǔ)”的數(shù)量仍不能小覷。更重要的是,不少內(nèi)容甚至伴隨對(duì)既有社會(huì)法規(guī)的挑戰(zhàn)。
近期,印度電子信息技術(shù)部發(fā)布命令,要求X平臺(tái)必須采取措施,限制Grok生成“淫穢、色情、低俗、猥褻等違法內(nèi)容”。同期,法國(guó)、馬來(lái)西亞的監(jiān)管部門也宣布了對(duì)Grok違規(guī)行為的審查。
對(duì)此,馬斯克發(fā)文稱:“任何利用Grok生成非法內(nèi)容的人,都將面臨與上傳非法內(nèi)容同等的后果?!?/p>
早前,有用戶通過Grok生成了兒童色情圖片引發(fā)社交媒體震動(dòng)。Grok官方隨后緊急發(fā)文致歉,表示這是安全防護(hù)機(jī)制的一次失效,“我們對(duì)由此造成的任何傷害深表歉意。正對(duì)此事展開審查,以杜絕類似問題再次發(fā)生”。
采訪中,多位業(yè)內(nèi)人士表示,盡管國(guó)內(nèi)目前對(duì)于生成式內(nèi)容的管理整體更為有序,但潛在的爭(zhēng)議仍需要明確?!氨热缯f對(duì)于生成內(nèi)容,究竟是由大模型廠商、使用模型的商家,還是由用戶承擔(dān)責(zé)任,這些都需要明確?!瘪R克斯說。
記者注意到,在國(guó)內(nèi),圍繞生成式內(nèi)容的管理目前已有一定的法規(guī)指引。2023年1月10日起施行的《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》明確規(guī)定,對(duì)“可能導(dǎo)致公眾混淆或者誤認(rèn)的”深度合成服務(wù)情形需做出顯著標(biāo)識(shí)。
在此基礎(chǔ)上,2025年9月1日,國(guó)家網(wǎng)信辦等四部門聯(lián)合發(fā)布《人工智能生成合成內(nèi)容標(biāo)識(shí)辦法》進(jìn)一步細(xì)化規(guī)則,提出“顯式標(biāo)識(shí)”與“隱式標(biāo)識(shí)”的雙軌標(biāo)識(shí)制度。
“根據(jù)《生成式人工智能服務(wù)管理暫行辦法》第十四條第一款的規(guī)定,提供者發(fā)現(xiàn)違法內(nèi)容的,應(yīng)當(dāng)及時(shí)采取停止生成、停止傳輸、消除等處置措施,采取模型優(yōu)化訓(xùn)練等措施進(jìn)行整改,并向有關(guān)主管部門報(bào)告?!北本┦芯熉蓭熓聞?wù)所律師孟博告訴上海證券報(bào)記者,新修改的《中華人民共和國(guó)網(wǎng)絡(luò)安全法》也進(jìn)一步要求完善人工智能倫理規(guī)范。
沒有人能準(zhǔn)確估計(jì)如今AI生成內(nèi)容的總量。據(jù)搜索引擎優(yōu)化公司Graphite估算,截至2025年5月,僅在英文互聯(lián)網(wǎng),AI生成的內(nèi)容數(shù)量已占據(jù)整個(gè)互聯(lián)網(wǎng)書面內(nèi)容的52%。
這注定是一個(gè)AI蓬勃生長(zhǎng)的時(shí)代。有意思的是,全球知名的韋氏詞典(Merriam-Webster)宣布,將“slop”選定為2025年度詞匯,這個(gè)本意為“殘羹剩菜”的詞語(yǔ),如今被引申為由人工智能批量生成的低質(zhì)量數(shù)字內(nèi)容。
“這是一個(gè)全新的領(lǐng)域,不僅是技術(shù),很多的規(guī)則制度都需要各方去完善,從而確保人工智能能夠真正實(shí)現(xiàn)科技向善。”孟博說。