據(jù)知情人士透露,OpenAI正采取措施優(yōu)化其音頻AI模型,為未來發(fā)布由AI驅(qū)動(dòng)的個(gè)人設(shè)備做準(zhǔn)備。三名知情人士表示,該設(shè)備預(yù)計(jì)將主要依賴音頻交互。
目前,當(dāng)用戶與ChatGPT對話時(shí),雖然聊天機(jī)器人能進(jìn)行語音回復(fù),但其語音版本與文本版本使用的底層模型并不相同。一位前員工和一位現(xiàn)職員工透露,OpenAI內(nèi)部研究人員認(rèn)為,當(dāng)前語音模型在回答準(zhǔn)確性和響應(yīng)速度上均落后于文本模型。
為應(yīng)對這一挑戰(zhàn),過去兩個(gè)月內(nèi),OpenAI已整合了工程、產(chǎn)品和研究團(tuán)隊(duì),共同推進(jìn)音頻模型的優(yōu)化。提升語音模型準(zhǔn)確性對OpenAI至關(guān)重要,因其計(jì)劃推出一款支持語音指令的消費(fèi)級(jí)設(shè)備。據(jù)此前報(bào)道,首款設(shè)備預(yù)計(jì)至少一年后面世。
知情人士稱,新音頻模型架構(gòu)能生成更自然、更具情感且更精準(zhǔn)深入的回應(yīng),同時(shí)支持與用戶實(shí)時(shí)對話(現(xiàn)有模型無法實(shí)現(xiàn))并更好地處理對話打斷。該模型目標(biāo)發(fā)布時(shí)間為2026年第一季度,OpenAI發(fā)言人對此不予置評(píng)。
與谷歌、亞馬遜、Meta和蘋果類似,OpenAI正探索開發(fā)新型個(gè)人AI設(shè)備(包括可穿戴設(shè)備)。部分公司認(rèn)為,當(dāng)前主流設(shè)備(如iPhone)未針對未來AI技術(shù)優(yōu)化。OpenAI研究人員希望用戶通過語音而非屏幕與設(shè)備交互,許多AI專家認(rèn)為語音是更自然的交互方式,因人類日常溝通主要依賴語言。
無屏設(shè)計(jì)還可能減少用戶對設(shè)備的依賴。與OpenAI合作硬件開發(fā)的前蘋果設(shè)計(jì)主管喬尼·艾夫強(qiáng)調(diào),糾正以往消費(fèi)電子產(chǎn)品的負(fù)面影響是其首要目標(biāo)。他在5月采訪中表示:“即使初衷無害,若產(chǎn)品產(chǎn)生不良后果,也需承擔(dān)責(zé)任。這種責(zé)任感驅(qū)動(dòng)著我當(dāng)前的工作?!?/p>
然而,OpenAI面臨一大挑戰(zhàn):多數(shù)ChatGPT用戶尚未養(yǎng)成語音交互習(xí)慣,或因音頻模型質(zhì)量不足,或因未意識(shí)到該功能。要推出以音頻為核心的AI設(shè)備,需先培養(yǎng)用戶通過語音與AI產(chǎn)品互動(dòng)的習(xí)慣。
知情人士稱,音頻AI項(xiàng)目的核心人物是今夏從Character.AI加入的語音研究員Kundan Kumar,其他負(fù)責(zé)人包括重構(gòu)音頻AI基礎(chǔ)設(shè)施的產(chǎn)品研究主管Ben Newhouse,以及多模態(tài)ChatGPT產(chǎn)品經(jīng)理Jackie Shannon。
多名知情人士表示,OpenAI計(jì)劃逐步發(fā)布一系列設(shè)備(如眼鏡、無屏智能音箱),而非單一產(chǎn)品。今夏的內(nèi)部演示中,研究人員稱該設(shè)備將作為用戶的“協(xié)作伴侶”,主動(dòng)提供目標(biāo)達(dá)成建議,而非僅作為應(yīng)用入口。設(shè)備還能通過音頻捕捉環(huán)境與用戶信息,實(shí)現(xiàn)情景化交互。