人民網北京9月13日電 (記者夏曉倫、許維娜)近日,國家數據局發(fā)布一批“高質量數據集典型案例”,人民網“主流價值語料庫”成功入選。
此次評選是為落實“人工智能+”行動有關部署,按照《國家數據局綜合司關于征集高質量數據集典型案例的通知》工作安排,經嚴格的申報推薦、專家評審環(huán)節(jié)最終確定名單。
作為中央重點新聞網站排頭兵,人民網依托傳播內容認知全國重點實驗室科研能力,早在2023年初就啟動了主流價值語料庫的建設工作。該語料庫依托黨報黨網長期建設形成的新聞資訊、理論評論、政策法規(guī)和科普知識等優(yōu)質資源,經科學采樣、歸集、清洗、標注、定制、風控等環(huán)節(jié)精心打磨而成。目前,語料庫已入庫3000多萬篇基礎語料、31萬對問答語料、500多萬對圖文語料,在國內多家主流大模型廠家得到實際應用,正向糾偏作用明顯。
主流價值語料庫入選國家數據局發(fā)布的“高質量數據集典型案例”,是人民日報社AI建設的階段性成果。人民網將持續(xù)保持項目建設的力度和質量,繼續(xù)擴大語料庫規(guī)模,不斷深挖重點領域,為人工智能行業(yè)供給更多高質量語料。
據悉,國家數據局將定期圍繞高質量數據集組織相關技術交流及主題研討等活動。現(xiàn)將案例名單公布如下。(按推薦單位排序,排名不分先后)
附:“高質量數據集典型案例”名單