DeepSeek近日發(fā)布論文,闡述了一種更為高效的人工智能開發(fā)方法。該論文由創(chuàng)始人梁文鋒參與撰寫,提出了名為“流形約束超連接”(mHC)的框架。作者稱,該框架旨在提升可擴(kuò)展性,同時(shí)降低訓(xùn)練先進(jìn)人工智能系統(tǒng)的算力和能源需求。DeepSeek下一代旗艦系統(tǒng)R2預(yù)計(jì)將在2月份春節(jié)前后問(wèn)世。
DeepSeek提出mHC新架構(gòu)
1月1日消息,DeepSeek發(fā)布了一篇新論文,提出了一種名為mHC(流形約束超連接)的新架構(gòu)。
該研究旨在解決傳統(tǒng)超連接在大規(guī)模模型訓(xùn)練中的不穩(wěn)定性問(wèn)題,同時(shí)保持其顯著的性能增益。
這篇論文的第一作者有三位:Zhenda Xie(解振達(dá))、Yixuan Wei(韋毅軒)、Huanqi Cao。值得注意的是,DeepSeek創(chuàng)始人梁文鋒也在作者名單中。
論文摘要指出,近來(lái),以超連接(HC)為代表的研究通過(guò)拓寬殘差流寬度和多樣化連接模式,拓展了過(guò)去十年間確立的普遍采用的殘差連接范式。雖然這些改進(jìn)帶來(lái)了顯著的性能提升,但連接模式的多樣化從根本上削弱了殘差連接固有的恒等映射特性,導(dǎo)致嚴(yán)重的訓(xùn)練不穩(wěn)定性與受限的可擴(kuò)展性,同時(shí)還造成了顯著的內(nèi)存訪問(wèn)開銷。
為了解決這些問(wèn)題,DeepSeek提出了流形約束超連接(mHC)——一種通用框架,能夠?qū)C的殘差連接空間投影到特定流形上,從而恢復(fù)恒等映射特性,并融合嚴(yán)格的基礎(chǔ)設(shè)施優(yōu)化以確保運(yùn)行效率。
DeepSeek稱,實(shí)證實(shí)驗(yàn)表明,mHC能夠有效支持大規(guī)模訓(xùn)練,在提供明顯性能提升的同時(shí)具備更優(yōu)的可擴(kuò)展性。DeepSeek預(yù)計(jì),mHC作為HC的一種靈活而實(shí)用的拓展,將有助于深化對(duì)拓?fù)浼軜?gòu)設(shè)計(jì)的理解,并為基座模型的演進(jìn)指明富有前景的方向。
內(nèi)部大規(guī)模訓(xùn)練結(jié)果顯示,mHC可有效支持規(guī)模化訓(xùn)練,當(dāng)擴(kuò)展率?=4時(shí),僅帶來(lái)6.7%的額外時(shí)間開銷。
圖為殘差連接范式的示意圖。本圖對(duì)比了 (a) 標(biāo)準(zhǔn)殘差連接、(b) 超連接 以及 (c) 流形約束超連接的結(jié)構(gòu)設(shè)計(jì)。與無(wú)約束的HC不同,mHC通過(guò)將連接矩陣投影到一個(gè)約束流形上,專注于優(yōu)化殘差連接空間,從而確保訓(xùn)練的穩(wěn)定性。
論文在結(jié)論與展望部分指出,實(shí)證結(jié)果表明,mHC能有效恢復(fù)恒等映射特性,相較于傳統(tǒng)HC,能以更優(yōu)的可擴(kuò)展性實(shí)現(xiàn)穩(wěn)定的大規(guī)模訓(xùn)練。關(guān)鍵的是,通過(guò)高效的基礎(chǔ)設(shè)施級(jí)優(yōu)化,mHC以可忽略的計(jì)算開銷實(shí)現(xiàn)了上述改進(jìn)。
論文還指出,作為HC范式的廣義拓展,mHC為未來(lái)研究開辟了多個(gè)重要方向:雖然本研究采用雙隨機(jī)矩陣確保穩(wěn)定性,但該框架可兼容針對(duì)特定學(xué)習(xí)目標(biāo)設(shè)計(jì)的多種流形約束探索;預(yù)計(jì)對(duì)差異化幾何約束的深入研究可能催生能更好權(quán)衡可塑性—穩(wěn)定性關(guān)系的新方法。此外,DeepSeek希望mHC能重新激發(fā)學(xué)界對(duì)宏觀架構(gòu)設(shè)計(jì)的關(guān)注。通過(guò)深化對(duì)拓?fù)浣Y(jié)構(gòu)如何影響優(yōu)化與表征學(xué)習(xí)的理解,mHC將有助于突破現(xiàn)有局限,并可能為下一代基礎(chǔ)架構(gòu)的演進(jìn)指明新路徑。
DeepSeek頻頻上“熱搜”
近期,DeepSeek動(dòng)作不斷,“熱搜”也不斷。
2025年12月8日
梁文鋒入選《自然》年度十大科學(xué)人物
2025年12月8日,英國(guó)《自然》雜志網(wǎng)站發(fā)布2025年度十大科學(xué)人物榜單,中國(guó)人工智能企業(yè)深度求索創(chuàng)始人梁文鋒和中國(guó)科學(xué)院深??茖W(xué)家杜夢(mèng)然入選。
2025年1月,來(lái)自中國(guó)的一則公告震撼了人工智能界。深度求索公司發(fā)布其強(qiáng)大而低成本的R1推理模型?!蹲匀弧冯s志網(wǎng)站稱,這瞬間證明美國(guó)在人工智能領(lǐng)域的發(fā)展并不像許多專家想象的那樣遙遙領(lǐng)先。
2025年12月1日
DeepSeek發(fā)布兩個(gè)正式版模型
據(jù)DeepSeek官微,2025年12月1日,DeepSeek發(fā)布兩個(gè)正式版模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale。DeepSeek-V3.2強(qiáng)化Agent能力,官方網(wǎng)頁(yè)端、App和API均已更新為正式版DeepSeek-V3.2。Speciale版本目前僅以臨時(shí)API服務(wù)形式開放,以供社區(qū)評(píng)測(cè)與研究。
2025年11月27日
DeepSeek推出新模型
2025年11月27日,DeepSeek推出新型數(shù)學(xué)推理模型DeepSeekMath-V2,采用可自我驗(yàn)證的訓(xùn)練框架。該模型基于DeepSeek-V3.2-Exp-Base構(gòu)建,通過(guò)LLM驗(yàn)證器自動(dòng)審查生成的數(shù)學(xué)證明,并利用高難度樣本持續(xù)優(yōu)化性能。
2025年10月20日
DeepSeek開源新模型
2025年10月20日,DeepSeek-AI團(tuán)隊(duì)發(fā)布《DeepSeek-OCR:Contexts Optical Compression》論文,提出利用視覺(jué)模態(tài)壓縮長(zhǎng)文本上下文的新方法。根據(jù)介紹,此次開源的 DeepSeek-OCR 由兩個(gè)部分組成:核心編碼器 DeepEncoder 和解碼器 DeepSeek3B-MoE-A570M。在實(shí)際生產(chǎn)中,DeepSeek-OCR 可在單塊 A100-40G 顯卡上每天生成超過(guò) 20 萬(wàn)頁(yè)的大語(yǔ)言模型 / 視覺(jué)語(yǔ)言模型訓(xùn)練數(shù)據(jù)。
2025年9月29日
DeepSeek-V3.2-Exp模型正式發(fā)布
2025年9月29日,深度求索公司發(fā)布了 DeepSeek-V3.2-Exp 模型,其宛如再次向國(guó)產(chǎn)芯片江湖投入一枚巨石。
官方公告顯示,新版本模型實(shí)驗(yàn)性地引入了 DeepSeek Sparse Attention(一種稀疏注意力機(jī)制),其顯著降低計(jì)算資源消耗并提升推理效率。
而得益于這一技術(shù)創(chuàng)新,深度求索宣布其官方App、網(wǎng)頁(yè)端、小程序均已同步更新為新模型,并全面下調(diào)API價(jià)格,降幅在50%到75%不等。
值得注意的是,不同于上次發(fā)布 DeepSeek-V3.1版本時(shí)“猶抱琵琶半遮面”的狀態(tài),此次 V3.2 EXP 版本的發(fā)布,幾乎零時(shí)差引發(fā)數(shù)個(gè)國(guó)產(chǎn)芯片廠商——華為、寒武紀(jì)、海光等的“認(rèn)領(lǐng)”。
2025年9月17日
登上《自然》!DeepSeek-R1訓(xùn)練方法發(fā)布
2025年9月17日,由DeepSeek團(tuán)隊(duì)共同完成、梁文鋒擔(dān)任通訊作者的DeepSeek-R1推理模型研究論文,登上國(guó)際頂級(jí)期刊《自然(Nature)》的封面。該期刊編輯部直言:目前幾乎所有主流的大模型都還沒(méi)有經(jīng)過(guò)獨(dú)立同行評(píng)審,這一空白“終于被DeepSeek打破”。
DeepSeek-R1包含一個(gè)在人類監(jiān)督下的深入訓(xùn)練階段,以優(yōu)化推理過(guò)程。梁文鋒團(tuán)隊(duì)報(bào)告稱,該模型使用了強(qiáng)化學(xué) 習(xí) 而非人類示例來(lái)開發(fā)推理步驟,減少了訓(xùn)練成本和復(fù)雜性。DeepSeek-R1在被展示優(yōu)質(zhì)的問(wèn)題解決案例后,會(huì)獲得一個(gè)模板來(lái)產(chǎn)生推理過(guò)程,即這一模型通過(guò)解決問(wèn)題獲得獎(jiǎng)勵(lì),從而強(qiáng)化學(xué)習(xí)效果。團(tuán)隊(duì)總結(jié)說(shuō), 未來(lái)研究可以聚焦優(yōu)化獎(jiǎng)勵(lì)過(guò)程,以確保推理和任務(wù)結(jié)果更可靠。
來(lái)源:綜合自證券時(shí)報(bào)、財(cái)聯(lián)社、21世紀(jì)經(jīng)濟(jì)報(bào)道及公開信息