欧美精品成人a在线观看_无码无遮挡av毛片内射亚洲_涩涩免费无码视频在线观看_国产AV一区二区大屁屁

首頁  ?  財經(jīng)  ?  財經(jīng)要聞

谷歌深夜重磅開源!深度研究Agent拿下SOTA,比GPT-5 pro便宜90%

2025-12-12 08:13:00

來源:市場資訊

專題:政策定調(diào)夯實A股長期運行基礎(chǔ) 未來方向看科技成長

  來源:智東西

  智東西12月12日消息,今日凌晨,比OpenAI早一個小時,谷歌甩出了3個Agent大招:

  Deep Research Agent功能更新,并首次向開發(fā)者開放;開源新網(wǎng)絡(luò)研究Agent基準DeepSearchQA,旨在測試Agent在網(wǎng)絡(luò)研究任務(wù)中的全面性;推出新交互API(Interactions API)。

  Gemini Deep Research是一款專為長期上下文采集和綜合任務(wù)優(yōu)化的Agent,其背后的模型是Gemini 3 Pro,通過多步強化學(xué)習(xí)的擴展搜索,Agent能夠自主地以高精度導(dǎo)航復(fù)雜的信息環(huán)境。此次更新包括針對特定數(shù)據(jù)進行網(wǎng)頁搜索、更低成本生成研究報告等。

  谷歌DeepMind產(chǎn)品經(jīng)理路卡斯·哈斯(Lukas Haas)在社交平臺X上透露,新Gemini Deep Research Agent已經(jīng)實現(xiàn)SOTA,在谷歌新基準測試上得分46.4%,在BrowseComp上與GPT-5 Pro相當,價格是其1/10左右。

  Deep Research Agent很快將在谷歌搜索、筆記本、 谷歌金融中提供,并在Gemini應(yīng)用中升級。

  DeepSearchQA內(nèi)置了900個手工設(shè)計的“因果鏈”任務(wù),涵蓋17個領(lǐng)域,可以評估Agent在復(fù)雜、需要多步查詢信息等任務(wù)上的能力。

  交互API作為其與Gemini模型和Agent的統(tǒng)一交互界面,通過Google AI Studio中的Gemini API公開測試版向開發(fā)者開放。開發(fā)者可以通過Agent開發(fā)套件(ADK)和A2A協(xié)議使用交互API。

  有網(wǎng)友評論,谷歌這是把“一個數(shù)字版的福爾摩斯交給了開發(fā)者”,現(xiàn)在你只需要一邊喝咖啡,一邊就能讓每個應(yīng)用像寫論文一樣展開深度調(diào)查。

  DeepSearchQA開源地址:https://www.kaggle.com/benchmarks/google/dsqa/leaderboard

  一、Deep Research Agent:更新網(wǎng)頁搜索、低成本生成研究報告功能

  谷歌博客稱,Deep Research背后的Gemini 3 Pro模型是他們迄今為止最真實的模型,該模型經(jīng)過專門訓(xùn)練,旨在減少幻覺并最大化復(fù)雜任務(wù)中的報告質(zhì)量。

  Deep Research通過迭代式流程運行,它會提出問題、閱讀結(jié)果、識別知識空白,然后再次進行搜索。其新版本大幅提升了網(wǎng)頁搜索功能,使其能夠深入網(wǎng)站查找特定數(shù)據(jù)。

  新Gemini Deep Research Agent在完整HLE測試中達到46.4%,Gemini 3 Pro為43.2%,GPT-5 Pro為38.9%。在DeepSearchQA、BrowseComp的測試中以微小優(yōu)勢勝出。

  谷歌還優(yōu)化了該Agent以更低成本生成深度研究報告的功能。

  Gemini Deep Research Agent已經(jīng)在需要高精度和基于早期反饋、測試的復(fù)雜領(lǐng)域應(yīng)用,包括金融服務(wù)、生物技術(shù)和市場調(diào)研等行業(yè),這些領(lǐng)域都可以利用Gemini Deep Research完成初步調(diào)研任務(wù)。

  對于構(gòu)建下一代自動化研究工具的開發(fā)者來說,Gemini Deep Research Agent能夠綜合信息并生成詳細報告:

  統(tǒng)一信息綜合:Gemini Deep Research通過文件上傳和文件搜索工具分析用戶的文檔和公共網(wǎng)絡(luò)數(shù)據(jù),還能處理長上下文,允許用戶直接在提示中放置大量背景信息;

  報告可控性:用戶可以通過提示定義結(jié)構(gòu)、頭部,或指定數(shù)據(jù)表生成和格式來控制輸出;

  詳細引用:其會提供細粒度的來源,允許用戶驗證數(shù)據(jù)來源;

  結(jié)構(gòu)化輸出:支持JSON模式輸出,便于下游應(yīng)用解析研究結(jié)果。

  二、DeepSearchQA:新Agent基礎(chǔ),涵蓋17大領(lǐng)域、900條任務(wù)

  DeepSearchQA是Deep Research Agent的測試基準。

  現(xiàn)有基準測試往往無法反映現(xiàn)實世界多步網(wǎng)絡(luò)研究的復(fù)雜性,谷歌開源新基準DeepSearchQA,是用于評估Agent在復(fù)雜、需要多步查詢信息等任務(wù)上。

  DeepSearchQA有900個手工設(shè)計的“因果鏈”任務(wù),涵蓋17個領(lǐng)域,每一步都依賴于事先分析。與傳統(tǒng)的基于事實的測試不同,DeepSearchQA衡量的是全面性,要求Agent生成詳盡的答案集。這不僅評估研究的準確性,也包括檢索的記憶能力。

  DeepSearchQA還可以作為衡量“思考時長”效率的工具。谷歌在內(nèi)部評估中發(fā)現(xiàn),當允許Agent執(zhí)行更多搜索與推理步驟時,其性能會獲得顯著提升。

  三、交互API:集成專為Agent應(yīng)用開發(fā)設(shè)計的接口

  交互API原生集成了一套專屬接口,該接口專為Agent應(yīng)用開發(fā)場景設(shè)計,可高效處理交錯式消息、思維鏈、工具調(diào)用及其狀態(tài)信息的復(fù)雜上下文管理工作。除Gemini模型套件外,交互API還提供其首個內(nèi)置Agent Gemini Deep Research Agent。

  下一步,谷歌將擴展其內(nèi)置Agent,并提供構(gòu)建和引入其他Agent的功能,這將使開發(fā)者能夠通過一個API連接Gemini模型、谷歌內(nèi)置Agent和開發(fā)者的定制Agent。

  交互API提供了一個單一的RESTful端點,用于與模型和Agent交互。

  通過指定模型參數(shù)與模型交互:

  通過指定Agent參數(shù)與Agent互動,目前支持deep-research-pro-preview-12-2025:

  交互API通過現(xiàn)代Agent應(yīng)用所需的功能擴展了生成內(nèi)容的核心功能,包括:

  可選的服務(wù)器端狀態(tài):能夠?qū)v史管理卸載到服務(wù)器。這簡化了開發(fā)者的客戶端代碼,減少了上下文管理錯誤,并通過增加緩存命中率可能降低成本。

  可解釋和可組合的數(shù)據(jù)模型:一個為復(fù)雜的Agent歷史設(shè)計的干凈圖式。開發(fā)者可以對交錯的信息、思維、工具及其結(jié)果進行調(diào)試、流式分析和推理。

  背景執(zhí)行:能夠?qū)㈤L期運行的推理環(huán)路卸載到服務(wù)器,而無需維護客戶端連接。

  遠程MCP工具支持:模型可以直接調(diào)用模型上下文協(xié)議(MCP)服務(wù)器作為工具。

  結(jié)語:Gemini生態(tài)再擴容,谷歌簡化Agent開發(fā)模式

  目前,Deep Research Agent已經(jīng)在金融、科學(xué)研究等諸多領(lǐng)域有所應(yīng)用。此次谷歌不僅更新了這一Agent,還發(fā)布了交互API,以簡化與Gemini模型和Agent的交互流程,構(gòu)建更易用的開發(fā)生態(tài)。

  谷歌博客提到,其未來的更新還將聚焦于更豐富的輸出,如原生生成圖表以支持可視化分析報告,以及通過模型上下文協(xié)議(MCP)支持擴展連接性,更輕松地訪問自定義數(shù)據(jù)源,并努力將Gemini Deep Research引入企業(yè)用的Vertex AI。

免責(zé)聲明:本網(wǎng)對文中陳述、觀點判斷保持中立,不對所包含內(nèi)容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔(dān)全部責(zé)任。 本網(wǎng)站轉(zhuǎn)載圖片、文字之類版權(quán)申明,本網(wǎng)站無法鑒別所上傳圖片或文字的知識版權(quán),如果侵犯,請及時通知我們,本網(wǎng)站將在第一時間及時刪除。