
在近期舉行的亞洲消費(fèi)電子展上,汽車廠商成為重頭戲,不少智能概念車首次亮相。但是,智能概念車雖然有新意,其量產(chǎn)和普及卻還有很長(zhǎng)的一段路。業(yè)內(nèi)專家表示,讓“智能概念”能夠?qū)崿F(xiàn)“民用級(jí)”,走入車主生活,還是要靠智能車載硬件,才會(huì)讓汽車真正“智能”起來(lái)。
車載語(yǔ)音機(jī)器人需要“更強(qiáng)大腦”
不久前,一段關(guān)于“山東糾正哥”進(jìn)行車載電話撥號(hào)的視頻瘋傳網(wǎng)絡(luò)。夾雜方言的山東男子試圖用語(yǔ)音撥打電話號(hào)碼,車載系統(tǒng)的識(shí)別過(guò)程笑話百出,糾正多次都無(wú)果,人與機(jī)器紛紛無(wú)奈。在這則笑話視頻的背后,更多地是反映出了當(dāng)今智能語(yǔ)音技術(shù)的關(guān)鍵短板所在:非配合情況下,人和機(jī)器根本無(wú)法用語(yǔ)音順暢交流。
車載硬件的“智能”,在駕駛過(guò)程中首推交互智能。駕駛過(guò)程中由于導(dǎo)航、電話、信息、車載娛樂(lè)和各類車內(nèi)控制,司機(jī)需要與車載硬件進(jìn)行不停的“溝通”。以往,通常需要司機(jī)的視線離開(kāi)路面,用手操作手機(jī)或車載硬件實(shí)現(xiàn)溝通。人們已經(jīng)廣泛認(rèn)識(shí)到,這種方式的精力分散已經(jīng)成為重要的安全隱患。因此,采用語(yǔ)音操控成為了“智能汽車”的必由之路。國(guó)外的蘋(píng)果、谷歌、Nuance,國(guó)內(nèi)的百度、科大訊飛等公司都紛紛開(kāi)發(fā)過(guò)車載語(yǔ)音系統(tǒng)。
但目前的車載語(yǔ)音系統(tǒng)大都只使用了語(yǔ)音識(shí)別技術(shù),通過(guò)抗噪算法一定程度上減輕車載噪聲對(duì)機(jī)器辨識(shí)的影響。但從人機(jī)交互角度,更多地還是停留在“一問(wèn)一答”的簡(jiǎn)單命令控制階段,只是一個(gè)不太靈敏的“耳朵”加上機(jī)械式的流程圖判斷,在出現(xiàn)多個(gè)結(jié)果的情況下,仍需輔助屏幕觸控,這使得現(xiàn)在的車載系統(tǒng)都不具有真正的“人機(jī)智能”。
首先就是語(yǔ)音識(shí)別在非配合的情況下,由于方言、環(huán)境噪聲等的影響準(zhǔn)確率不高。即使達(dá)到了90%以上的準(zhǔn)確率,上述的“山東糾正哥”在撥打11位手機(jī)電話的時(shí)候,還是有1位錯(cuò)誤。而一旦有識(shí)別錯(cuò)誤,機(jī)器就無(wú)法準(zhǔn)確理解用戶意圖,電話號(hào)碼錯(cuò)1位也無(wú)法撥出,還是要手動(dòng)操作。更嚴(yán)重的是,沒(méi)有大腦的語(yǔ)音交互系統(tǒng),只能不停地按照自己的邏輯讓用戶重復(fù)或提供特定信息,對(duì)“打斷”、“糾正”這類深層次的需求束手無(wú)策,使得本應(yīng)解決問(wèn)題的智能交互變成了不斷添加更多累贅的“麻煩制造者”。更不要說(shuō)由于沒(méi)有交互系統(tǒng)的架構(gòu)設(shè)計(jì)、缺乏智能的信息控制與調(diào)度而造成的語(yǔ)音延遲和反應(yīng)滯后的現(xiàn)象了。真正的“車載語(yǔ)音機(jī)器人”需要“更強(qiáng)大腦”。
從“能聽(tīng)會(huì)說(shuō)”到“會(huì)聽(tīng)能做”
“語(yǔ)音交互系統(tǒng)不能再‘有耳無(wú)腦’了?!眹?guó)家青年千人計(jì)劃獲得者、上海市“東方學(xué)者”特聘教授,上海交大—思必馳智能語(yǔ)音技術(shù)聯(lián)合實(shí)驗(yàn)室負(fù)責(zé)人俞凱表示,上海交通大學(xué)智能語(yǔ)音技術(shù)實(shí)驗(yàn)室最新研發(fā)的認(rèn)知型人機(jī)口語(yǔ)對(duì)話系統(tǒng),就已經(jīng)不再是傳統(tǒng)的語(yǔ)音識(shí)別,而是一個(gè) “人性化語(yǔ)音機(jī)器人”。人們可以順暢自由地使用語(yǔ)音,隨時(shí)隨地與能夠理解自然語(yǔ)言的智能交互機(jī)器人進(jìn)行對(duì)話交流,完成任務(wù)。
俞凱介紹說(shuō),上海交通大學(xué)智能語(yǔ)音技術(shù)實(shí)驗(yàn)室從人機(jī)交互系統(tǒng)的角度進(jìn)行智能語(yǔ)音技術(shù)的研究,在實(shí)現(xiàn)一系列高性能抗噪語(yǔ)音識(shí)別的基礎(chǔ)上,研發(fā)了具有適應(yīng)和思考能力的認(rèn)知型人機(jī)口語(yǔ)對(duì)話系統(tǒng)。并與蘇州思必馳信息科技有限公司合作,升級(jí)推出了針對(duì)智能車載的一體化智能人機(jī)交互解決方案,使得語(yǔ)音交互系統(tǒng)不再 “有耳無(wú)腦”。在近期剛剛發(fā)布的全球首款車載智能抬頭顯示(Head Up Display,HUD)系統(tǒng)——“車蘿卜”(carrobot)中,就使用了這樣的智能對(duì)話系統(tǒng)技術(shù)。
俞凱認(rèn)為,傳統(tǒng)語(yǔ)音識(shí)別只是模擬耳朵的感知功能,但其實(shí)更關(guān)鍵的是解決完整的口語(yǔ)人機(jī)交互問(wèn)題,這是模擬人腦的全套認(rèn)知功能。認(rèn)知型的智能語(yǔ)音技術(shù)是更高層面的人工智能,與傳統(tǒng)語(yǔ)音識(shí)別和合成相比,它融入了自適應(yīng)、理解糾錯(cuò)、智能反饋的認(rèn)知技術(shù)。這會(huì)使得機(jī)器可以適應(yīng)更多的環(huán)境和口音,具有進(jìn)化調(diào)整的能力,從“能聽(tīng)會(huì)說(shuō)”變成“會(huì)聽(tīng)能做”:即聽(tīng)得懂說(shuō)的,懂得聽(tīng)什么,聽(tīng)不清楚了能問(wèn),搞錯(cuò)了能糾正,最終能成功完成用戶的任務(wù)。
讓機(jī)器“深度理解”“自動(dòng)糾錯(cuò)”
俞凱說(shuō),超越傳統(tǒng)語(yǔ)音識(shí)別的“深度理解”以及“自動(dòng)糾錯(cuò)”技術(shù)是新型的人性化智能語(yǔ)音交互技術(shù)的兩個(gè)典型例子。
“深度理解”是把機(jī)器的識(shí)別狀態(tài)(比如識(shí)別結(jié)果的可靠度、環(huán)境嘈雜程度等)、用戶的個(gè)人特點(diǎn)(比如性別、方言地區(qū)、說(shuō)話快慢等),以及說(shuō)話的情境(比如談話的領(lǐng)域、常識(shí)、前面談話的歷史等)等因素從大數(shù)據(jù)中提取出來(lái),根據(jù)這些“情境”對(duì)識(shí)別結(jié)果再進(jìn)行二次計(jì)算,使得語(yǔ)義理解的準(zhǔn)確度大大提高。
“因?yàn)檫@些計(jì)算模型的訓(xùn)練都依賴于語(yǔ)音識(shí)別的結(jié)果,采用合理的算法,就能學(xué)習(xí)各種語(yǔ)音識(shí)別錯(cuò)誤模式,使機(jī)器像人一樣能夠從失敗中總結(jié)規(guī)律,在理解的時(shí)候自動(dòng)糾正語(yǔ)音識(shí)別的錯(cuò)誤?!庇釀P舉例說(shuō),比如用戶在開(kāi)車的時(shí)候說(shuō)“導(dǎo)航到車管所”,不幸被識(shí)別成“導(dǎo)航到廁所”,根據(jù)情境和談話歷史信息,這個(gè)語(yǔ)音識(shí)別的錯(cuò)誤很容易就被自動(dòng)糾正回“車管所”。
而對(duì)于“糾正錯(cuò)誤”的問(wèn)題,不止是深度理解可以進(jìn)行單句的語(yǔ)義適配式糾錯(cuò),機(jī)器還可以像人一樣通過(guò)對(duì)話交互糾錯(cuò)或理解意圖。俞凱說(shuō),通過(guò)邏輯關(guān)聯(lián)和智能對(duì)話,機(jī)器能夠像人一樣允許被“打斷”,以及智能的根據(jù)新信息糾正原先的號(hào)碼,這也就是上海交通大學(xué)智能語(yǔ)音實(shí)驗(yàn)室研發(fā)的基于統(tǒng)計(jì)的認(rèn)知型對(duì)話管理技術(shù)。
語(yǔ)音機(jī)器人會(huì)越來(lái)越“聽(tīng)話”
“以前語(yǔ)音識(shí)別只追求‘聽(tīng)清’,語(yǔ)義理解也只追求一句話層面的‘聽(tīng)懂’,而新型的人機(jī)智能交互是追求機(jī)器能夠‘聽(tīng)話’,成為真正的‘語(yǔ)音機(jī)器人’。而且希望它能夠有進(jìn)化和適應(yīng)的能力,用得越多越聽(tīng)話?!庇釀P說(shuō),語(yǔ)音輸入不再局限于呆板簡(jiǎn)單的句式限制,語(yǔ)音控制也不需要按照機(jī)器的設(shè)定去命令,在復(fù)雜環(huán)境和噪音影響下,在自由說(shuō)話方式(例如打斷)下,依然能夠保證良好而穩(wěn)定的語(yǔ)音識(shí)別和語(yǔ)義分析精度。人類的自然口語(yǔ),或許不完整,或許發(fā)音不準(zhǔn)確,語(yǔ)義不精確,但是通過(guò)上下文關(guān)聯(lián)邏輯,以及多輪對(duì)話交互,機(jī)器能夠進(jìn)行智能語(yǔ)義推理而準(zhǔn)確識(shí)別人的意思,大幅度提升使用者的語(yǔ)音交互體驗(yàn)。
對(duì)于自己正在進(jìn)行的研究項(xiàng)目,上海交通大學(xué)智能語(yǔ)音技術(shù)實(shí)驗(yàn)室的研究者們表示,語(yǔ)音交互的智能設(shè)備更容易打動(dòng)消費(fèi)者,這是因?yàn)椤叭诵曰睅Ыo消費(fèi)者更好的使用體驗(yàn)。真正的人工智能語(yǔ)音,要以用戶為中心,在多類環(huán)境下準(zhǔn)確識(shí)別并反饋,以個(gè)性化色彩進(jìn)行交流。語(yǔ)音交互的未來(lái)應(yīng)當(dāng)是面向用戶,人性化的智能交互,而非過(guò)去模塊化的機(jī)械交互。拋棄過(guò)去單一的語(yǔ)音識(shí)別與合成,把識(shí)別、語(yǔ)義理解和人機(jī)對(duì)話連在一起,幫助用戶完成任務(wù),這將是一個(gè)嶄新的劃時(shí)代變革。
“希望‘山東糾正哥’能用上最新的認(rèn)知型人機(jī)口語(yǔ)對(duì)話系統(tǒng),不再鬧笑話;更希望車主們都能與自己的愛(ài)車無(wú)障礙交流,愉快地行走在路上。”俞凱笑著說(shuō)。