OpenAI 首席執(zhí)行官山姆?奧特曼
作者:斯蒂芬妮?帕拉佐洛
知情人士透露,OpenAI 正全力升級音頻人工智能模型,為最終推出首款人工智能驅動的個人硬件設備做準備。另有三位知情人士表示,這款設備將以音頻交互為核心形態(tài)。
用戶與 ChatGPT 語音對話時,雖能得到語音回復,但支撐該音頻功能的大語言模型,與 ChatGPT 文本回復所依托的模型并非同款。OpenAI 一位前員工和一位現(xiàn)任員工透露,公司研究人員認為,當前音頻模型在回復準確率、響應速度上,均落后于文本模型。
核心要點
? OpenAI 整合多支團隊,為新一代硬件升級音頻 AI 模型
? 全新音頻模型架構,可實現(xiàn)更自然、精準、富有情感的語音交互
? 首款設備定位智能陪伴助手,主動提供建議助力用戶達成目標
深耕研發(fā),攻堅音頻技術
知情人士表示,過去兩個月,OpenAI 已整合工程、產(chǎn)品、研究等多個核心團隊,專項攻堅音頻模型優(yōu)化,全力適配未來硬件設備的需求。
提升音頻模型準確率,是 OpenAI 打造語音指令操控消費級設備的關鍵前提。此前《信息報》曾報道,這款硬件設備預計至少還需一年才會正式發(fā)布。
目前,OpenAI 的音頻模型升級已初見成效。上述知情人士稱,全新音頻模型架構生成的回復語音更自然、更富情感,答案也更精準、更具深度;該模型還將實現(xiàn)與用戶實時同聲對話(現(xiàn)有模型無法做到),并能更好地應對用戶的中途插話。
據(jù)悉,OpenAI 計劃于 2026 年第一季度推出這款全新音頻模型。OpenAI 發(fā)言人對此不予置評。
與谷歌、亞馬遜、元宇宙平臺、蘋果等企業(yè)一樣,OpenAI 也在布局新一代個人人工智能設備,包括可穿戴設備。多家企業(yè)認為,當下主流設備(如蘋果手機)并未針對未來人工智能技術做優(yōu)化適配。
OpenAI 的硬件研發(fā)團隊希望用戶通過語音而非屏幕與設備交互。包括前 OpenAI 首席技術官米拉?穆拉蒂聯(lián)合創(chuàng)立的人工智能初創(chuàng)公司思維機器實驗室在內,眾多人工智能研究者均認為,語音交流是人與人工智能更自然的交互方式 —— 畢竟人與人之間的溝通也以語音為主。
無屏設計,規(guī)避設備成癮問題
部分研究者還認為,無屏幕設計能降低用戶對設備的成癮風險。正與 OpenAI 合作研發(fā)硬件的前蘋果首席設計官喬尼?艾夫表示,這是他的核心設計考量,他希望通過新一代設備,彌補過往消費電子產(chǎn)品的設計缺憾。
艾夫在 2025 年 5 月接受支付公司 Stripe 首席執(zhí)行官帕特里克?科里森采訪時表示:“即便初衷無過,但若參與打造的產(chǎn)品帶來不良后果,就必須承擔責任。于我而言,這份責任驅動著我如今的所有工作。”
不過上述前員工坦言,OpenAI 當前面臨一大難題:多數(shù) ChatGPT 用戶并未使用語音交互功能,究其原因,一是音頻模型體驗欠佳,二是用戶對該功能并不知曉。要打造音頻優(yōu)先的人工智能設備,OpenAI 首先要讓消費者養(yǎng)成與 ChatGPT 等產(chǎn)品語音交互的習慣。
核心團隊領銜,多品類設備蓄勢待發(fā)
據(jù)悉,OpenAI 音頻人工智能研發(fā)的核心領軍人物是昆丹?庫馬爾 —— 他于 2025 年夏季從 Character.AI 加盟 OpenAI,專職負責音頻 AI 研發(fā)。其他核心負責人還包括:產(chǎn)品研究主管本?紐豪斯,主導重構了 OpenAI 原有的文本人工智能基礎設施,適配音頻 AI 需求;多模態(tài) ChatGPT 產(chǎn)品經(jīng)理杰姬?香農。
多位知情人士透露,OpenAI 并非研發(fā)單一硬件設備,而是規(guī)劃推出全系硬件產(chǎn)品矩陣,并分階段發(fā)布。公司已探討的產(chǎn)品形態(tài)包括智能眼鏡、無顯示屏智能音箱。
上述知情人士稱,硬件研發(fā)團隊在 2025 年夏季的內部匯報中表示,這款設備將定位智能陪伴助手,全程協(xié)助用戶,主動提供建議幫用戶實現(xiàn)目標,而非單純作為連接各類應用和軟件的工具。經(jīng)用戶授權后,設備還可通過音頻、視頻感知周邊環(huán)境與用戶狀態(tài)。
OpenAI 多個部門均參與該硬件項目,涵蓋供應鏈、工業(yè)設計、模型研發(fā)等環(huán)節(jié)。2025 年初,OpenAI 以近 65 億美元收購了喬尼?艾夫聯(lián)合創(chuàng)立的設計公司 io,全權負責硬件設備的設計工作。