新浪科技訊 1月14日上午消息,愛詩科技發(fā)布支持最高1080P分辨率通用實(shí)時(shí)世界模型PixVerse R1,宣布首次將視頻生成的延遲從“秒級(jí)”降至“即時(shí)”響應(yīng),實(shí)現(xiàn)了“所想即所見、所說即所現(xiàn)”的實(shí)時(shí)交互體驗(yàn),標(biāo)志著AIGC領(lǐng)域的視頻生成正式從“靜態(tài)輸出”邁入“實(shí)時(shí)交互”的全新階段。
在傳統(tǒng)視頻制作流程中,高延遲、固定時(shí)長生成是長期存在的痛點(diǎn),難以滿足用戶對(duì)實(shí)時(shí)響應(yīng)與內(nèi)容共創(chuàng)的需求。PixVerse R1通過Omni 原生多模態(tài)基礎(chǔ)模型、自回歸流式生成機(jī)制,與瞬時(shí)響應(yīng)引擎三大核心技術(shù)突破,系統(tǒng)性地解決了上述問題,推動(dòng)數(shù)字媒體從“預(yù)錄制回放”向“實(shí)時(shí)動(dòng)態(tài)生成”演進(jìn)。
首先,Omni 原生多模態(tài)基礎(chǔ)模型打破了傳統(tǒng)多模態(tài)系統(tǒng)“拼接式”處理的局限。它采用Transformer架構(gòu),具有高擴(kuò)展性,模型統(tǒng)一Token流架構(gòu),將文本、圖像、音頻與視頻融合為單一生成序列,實(shí)現(xiàn)真正端到端的跨模態(tài)理解與輸出。更為關(guān)鍵的是,模型全程在原生分辨率下訓(xùn)練,避免了上采樣帶來的模糊與偽影。通過scaleup訓(xùn)練,使光影變化、物體運(yùn)動(dòng)與物理交互具備一致性和真實(shí)感。
在此基礎(chǔ)上,自回歸流式生成機(jī)制解決了長時(shí)序一致性這一行業(yè)難題。通過引入記憶增強(qiáng)注意力模塊,可生成任意長度的視頻內(nèi)容,并長期維持角色身份、物體狀態(tài)與環(huán)境邏輯的一致性。用戶不再受限于幾秒片段,而能在生成過程中隨時(shí)插入新指令,系統(tǒng)即時(shí)響應(yīng)并動(dòng)態(tài)調(diào)整敘事,實(shí)現(xiàn)真正的“流式交互”。
而讓這一切“實(shí)時(shí)”成為可能的,是創(chuàng)造性的瞬時(shí)響應(yīng)引擎。IRE 通過時(shí)間軌跡折疊、引導(dǎo)校正和自適應(yīng)稀疏采樣三大創(chuàng)新,將傳統(tǒng)擴(kuò)散模型所需的 50+ 采樣步數(shù)壓縮至驚人的 1–4 步,計(jì)算效率提升數(shù)百倍,讓動(dòng)態(tài)畫面進(jìn)入人眼可感知的“即時(shí)”響應(yīng)閾值。