作者:伊萬(wàn)?梅塔
當(dāng)下,開(kāi)發(fā)者與各類企業(yè)正愈發(fā)頻繁地在應(yīng)用程序中接入人工智能智能體與聊天機(jī)器人,但這類產(chǎn)品的交互形式至今仍大多局限于文本。數(shù)字虛擬人生成技術(shù)企業(yè)檸檬切片(Lemon Slice)正試圖改變這一現(xiàn)狀:該公司研發(fā)出一款全新擴(kuò)散模型,僅憑一張圖片即可生成數(shù)字虛擬人,為這類智能對(duì)話產(chǎn)品疊加視頻交互層。
這款名為檸檬切片二代(Lemon Slice-2)的模型,生成的數(shù)字虛擬人可對(duì)接知識(shí)庫(kù),勝任人工智能智能體的各類指定角色 —— 既能解答客戶咨詢、輔導(dǎo)課后作業(yè),甚至還能擔(dān)任心理健康疏導(dǎo)顧問(wèn)。
該公司聯(lián)合創(chuàng)始人莉娜?科盧奇表示:‘生成式人工智能發(fā)展初期,我和聯(lián)合創(chuàng)始人們就開(kāi)始嘗試各類視頻模型,當(dāng)時(shí)我們便意識(shí)到,視頻交互終將走向智能化、可互動(dòng)化。像聊天生成預(yù)訓(xùn)練轉(zhuǎn)換器這類工具的核心吸引力,就在于其強(qiáng)交互屬性,而我們的目標(biāo),正是讓視頻也具備這樣的交互能力。’
檸檬切片公司介紹,這款模型的參數(shù)量達(dá) 200 億,單塊圖形處理器即可運(yùn)行,能以每秒 20 幀的速率生成視頻流。企業(yè)可通過(guò)應(yīng)用程序編程接口調(diào)用該模型,也可借助一款嵌入式組件,僅需一行代碼就能將虛擬人功能集成至自有網(wǎng)站。虛擬人生成后,用戶還能隨時(shí)調(diào)整其背景畫(huà)面、風(fēng)格設(shè)計(jì)與面部外觀。
除高度擬人化的虛擬人形象外,該公司還著力研發(fā)非人類虛擬角色的生成技術(shù),滿足多元化場(chǎng)景需求。這家初創(chuàng)企業(yè)采用十一實(shí)驗(yàn)室(ElevenLabs)的技術(shù),為旗下所有虛擬人定制語(yǔ)音。
檸檬切片由莉娜?科盧奇、西德尼?普萊馬斯與安德魯?韋茨于 2024 年聯(lián)合創(chuàng)立。公司的核心競(jìng)爭(zhēng)思路是:憑借自研的通用型擴(kuò)散模型打造虛擬人產(chǎn)品,以此形成差異化競(jìng)爭(zhēng)力。這類生成式模型的原理是,從帶噪聲的訓(xùn)練數(shù)據(jù)中逆向?qū)W習(xí)規(guī)律,進(jìn)而生成全新的數(shù)據(jù)內(nèi)容。
‘時(shí)至今日,我接觸到的多數(shù)虛擬人解決方案,非但沒(méi)能為產(chǎn)品賦能,反而拉低了體驗(yàn)感?!票R奇直言,‘這些虛擬人形象要么違和怪異,要么動(dòng)作僵硬呆板。靜態(tài)畫(huà)面看上幾秒還算精致,可一旦開(kāi)啟交互,那種強(qiáng)烈的違和感撲面而來(lái),根本無(wú)法讓用戶產(chǎn)生舒適的體驗(yàn)。虛擬人技術(shù)之所以始終未能真正落地普及,核心原因就是產(chǎn)品體驗(yàn)始終達(dá)不到合格水準(zhǔn)。’
為支撐技術(shù)研發(fā)與業(yè)務(wù)擴(kuò)張,檸檬切片于本周二官宣完成1050 萬(wàn)美元種子輪融資,投資方包括經(jīng)緯創(chuàng)投、硅谷創(chuàng)業(yè)孵化器 Y Combinator,還有云端存儲(chǔ)服務(wù)商多寶箱首席技術(shù)官阿拉什?費(fèi)爾多西、游戲直播平臺(tái) Twitch 首席執(zhí)行官埃米特?希爾,以及美國(guó)電子音樂(lè)組合煙鬼樂(lè)隊(duì)。
檸檬切片表示,公司已搭建完善的風(fēng)控機(jī)制,可有效防范未經(jīng)授權(quán)的人臉、聲音克隆行為;同時(shí)還依托大型語(yǔ)言模型,對(duì)虛擬人產(chǎn)出的內(nèi)容進(jìn)行合規(guī)審核。
該公司并未披露具體的合作客戶名單,但透露其技術(shù)已落地應(yīng)用于多個(gè)領(lǐng)域,包括教育教學(xué)、語(yǔ)言學(xué)習(xí)、電子商務(wù)與企業(yè)員工培訓(xùn)。
檸檬切片目前面臨激烈的行業(yè)競(jìng)爭(zhēng),賽道內(nèi)的對(duì)手既包括數(shù)字視頻生成領(lǐng)域的初創(chuàng)企業(yè)(如 D-ID、HeyGen、深曦科技),也有一眾數(shù)字虛擬人研發(fā)商(如精靈科技、靈魂機(jī)器、普拉奇卡、虛擬人操作系統(tǒng)公司)。
經(jīng)緯創(chuàng)投合伙人伊利亞?蘇哈爾認(rèn)為,虛擬人技術(shù)將在視頻場(chǎng)景為主的領(lǐng)域迎來(lái)爆發(fā)。舉例來(lái)說(shuō),相比長(zhǎng)篇文字,人們更愿意通過(guò)視頻平臺(tái)學(xué)習(xí)知識(shí)。他指出,檸檬切片的技術(shù)硬實(shí)力與研發(fā)思路,將成為其突圍的核心優(yōu)勢(shì)。
‘這支團(tuán)隊(duì)深耕技術(shù)研發(fā),擁有成熟的機(jī)器學(xué)習(xí)產(chǎn)品落地經(jīng)驗(yàn),絕非只做技術(shù)演示與理論研究的團(tuán)隊(duì)。行業(yè)內(nèi)不少競(jìng)品的技術(shù)方案僅適配特定場(chǎng)景或垂直領(lǐng)域,而檸檬切片選擇遵循人工智能領(lǐng)域的“慘痛教訓(xùn)”原則,采用規(guī)?;难邪l(fā)路徑 —— 通過(guò)海量數(shù)據(jù)與算力投入打磨通用模型,這一思路在其他人工智能賽道均已被驗(yàn)證有效?!晾麃?蘇哈爾評(píng)價(jià)道。
Y Combinator 合伙人賈里德?弗里德曼則表示,相較于部分只專注研發(fā)擬人虛擬人或游戲角色類虛擬人的同行,檸檬切片采用的擴(kuò)散類模型,使其具備生成全品類虛擬形象的能力。
‘我認(rèn)為,檸檬切片是業(yè)內(nèi)唯一一家立足機(jī)器學(xué)習(xí)底層邏輯研發(fā)技術(shù)的企業(yè),其方案終有一天能突破“恐怖谷效應(yīng)”,通過(guò)虛擬人領(lǐng)域的圖靈測(cè)試。’弗里德曼說(shuō),‘他們訓(xùn)練的模型,與視頻生成工具 Veo3、Sora 同屬一類 —— 視頻擴(kuò)散轉(zhuǎn)換器。這款通用型模型可實(shí)現(xiàn)端到端的全流程生成,其技術(shù)上限永無(wú)止境;而行業(yè)內(nèi)其他競(jìng)品的技術(shù)天花板,都止步于超寫(xiě)實(shí)畫(huà)質(zhì)之下。該模型不僅能生成人類形象,也可打造非人類面孔,且僅需一張圖片,就能快速生成全新的虛擬人臉形象?!?/p>
檸檬切片目前僅有 8 名員工,本輪融資資金將主要用于兩大方向:一是擴(kuò)招算法研發(fā)與商業(yè)化落地團(tuán)隊(duì),二是支付模型訓(xùn)練所需的算力成本。