資深人工智能研究員Andrew Dai表示,在谷歌DeepMind任職14年后,他近期已離職并將創(chuàng)辦一家新的初創(chuàng)企業(yè),專注于研發(fā)可同步理解和處理文本、圖像、視頻及音頻數(shù)據(jù)的人工智能模型。
Dai以及另一位知情人士透露,這家名為Elorian的新創(chuàng)公司正在與投資者洽談一輪規(guī)模約5000萬美元的種子輪融資。該知情人士還稱,Striker Venture Partners目前正洽談領投此輪融資,這家風投機構由風投公司CRV前普通合伙人Max Gazor于去年10月創(chuàng)立。
該知情人士透露,Yinfei Yang是Elorian的聯(lián)合創(chuàng)始人,此人曾擔任蘋果公司研究科學家,負責該公司人工智能模型相關工作,于去年12月離職。Dai和Yang均已更新領英個人資料,顯示任職于一家“保密模式”企業(yè),其中戴的資料標注其職位為首席執(zhí)行官。
在周六的電話采訪中,Dai表示Elorian的核心業(yè)務是研發(fā)人工智能模型,這類模型可通過同步處理圖像、視頻和音頻數(shù)據(jù),對物理世界進行視覺層面的解讀與分析。他提到,機器人技術是Elorian人工智能模型的潛在應用場景之一,同時該初創(chuàng)公司還規(guī)劃了諸多其他應用方向,但并未展開說明。Yang暫未就相關問詢作出回應。
早期由OpenAI等企業(yè)研發(fā)的人工智能模型僅基于文本數(shù)據(jù)訓練,不過近年來行業(yè)趨勢已轉向基于圖像和視頻數(shù)據(jù)訓練的模型。這一被稱為視覺推理的研究領域,目前已成為谷歌、OpenAI、Anthropic等眾多大型人工智能企業(yè)及初創(chuàng)公司的布局重點。亞馬遜也于上月在其年度云技術大會上,推出了一款同類人工智能模型。
視覺推理模型專為復雜人工智能應用場景設計,例如機器人系統(tǒng)。這類模型具備多功能融合能力,能夠省去開發(fā)者整合不同人工智能模型的工作。部分研究人員指出,該技術對于人工智能智能體具有重要價值——此類智能體需要解讀和識別截圖等圖像信息,進而完成處理零售商品退貨、審核法律文件等復雜任務。
根據(jù)Dai的領英資料,他在谷歌DeepMind任職期間,曾擔任Gemini系列模型數(shù)據(jù)預訓練工作的聯(lián)合負責人,該預訓練技術是Gemini系列模型的核心底層支撐。此外,戴還曾與谷歌多位知名研究員聯(lián)合發(fā)表論文,其中包括Quoc V. Le,以及谷歌深度思維與谷歌研究院首席科學家Jeff Dean。
該知情人士表示,Andrew Dai是語言模型領域的先驅,過去20年間始終深耕預訓練相關研究。
該人士補充道,他的研究工作大多聚焦于兩大方向:一是研發(fā)用于評估人工智能模型訓練數(shù)據(jù)質量的技術,二是確保模型的訓練數(shù)據(jù)來源于多個不同渠道。