新資訊

谷歌開(kāi)發(fā)AI“讀唇”軟件準(zhǔn)確率比人類(lèi)高3倍 —— 文章正文2016-11-25

谷歌開(kāi)發(fā)AI“讀唇”軟件準(zhǔn)確率比人類(lèi)高3倍

TNW中文站 11月24日?qǐng)?bào)道

谷歌(微博)人工智能部門(mén)DeepMind正與牛津大學(xué)研究人員合作，希望開(kāi)發(fā)出全球最先進(jìn)的“讀唇”軟件，可能比人類(lèi)的“讀唇”能力還要出色。

為實(shí)現(xiàn)這一目標(biāo)，研究人員選取了數(shù)千個(gè)小時(shí)的BBC電視短片，上傳到一個(gè)神經(jīng)網(wǎng)絡(luò)上，對(duì)其“讀唇”軟件進(jìn)行訓(xùn)練，即根據(jù)主播嘴部運(yùn)動(dòng)來(lái)識(shí)別其播報(bào)內(nèi)容。

結(jié)果，這款“讀唇”軟件的唇讀準(zhǔn)確率高達(dá)46.8%。相比之下，基于同樣的測(cè)試內(nèi)容，人類(lèi)唇讀的準(zhǔn)確率只有12.4%。

這項(xiàng)研究基于牛津大學(xué)之前的一款人工智能“讀唇”系統(tǒng)“LipNet”。LipNet能將視頻中人物的嘴部運(yùn)動(dòng)與其臺(tái)詞進(jìn)行匹配，準(zhǔn)確率高達(dá)93.4%。當(dāng)然，該準(zhǔn)確率主要基于一些相對(duì)簡(jiǎn)單的句子。

DeepMind這款“讀唇”軟件名為“看、聽(tīng)、分析與拼寫(xiě)”(Watch, Listen, Attend, and Spell)，與LipNet不同的是，DeepMind的軟件致力于更難的長(zhǎng)句。

為此，谷歌神經(jīng)網(wǎng)絡(luò)觀(guān)看了來(lái)自BBC的約5000個(gè)小時(shí)的流行電視節(jié)目，包括《晚間新聞》和《提問(wèn)時(shí)間》和《今日世界》等，共包含了11萬(wàn)個(gè)不同的句子，1.75萬(wàn)個(gè)不同的單詞。相比之下，測(cè)試LipNet的句子只包含了51個(gè)不同的單詞。

谷歌對(duì)此表示：“這項(xiàng)研究的目的是識(shí)別人們談話(huà)時(shí)的短語(yǔ)和句子，有聲音或沒(méi)有聲音都能識(shí)別。與之前的相關(guān)研究不同，它們僅限于有限數(shù)量的單詞或短語(yǔ)，而我們的研究針對(duì)無(wú)限制的自然語(yǔ)言長(zhǎng)句。”

DeepMind團(tuán)隊(duì)認(rèn)為，他們新開(kāi)發(fā)的這款軟件除了能幫助聽(tīng)力損傷人群，還支持其他一系列應(yīng)用，包括注釋電影、利用唇部動(dòng)作與Siri和Alexa等數(shù)字助理通信等。(編譯/譚燃)

(責(zé)任編輯：雨潤(rùn)華來(lái)源：雨潤(rùn)華科技時(shí)間：2016-11-25)
Keywords（關(guān)鍵詞）：谷歌開(kāi)發(fā)AI“讀唇”軟件準(zhǔn)確率比人類(lèi)高3倍谷歌;人工智能

上一篇：蘋(píng)果憑什么搶走全球智能手機(jī)行業(yè)91%的利潤(rùn)？
下一篇：《焦點(diǎn)訪(fǎng)談》揭批P2P亂象借貸寶成負(fù)面典型

新資訊

谷歌開(kāi)發(fā)AI“讀唇”軟件 準(zhǔn)確率比人類(lèi)高3倍 —— 文章正文2016-11-25

谷歌開(kāi)發(fā)AI“讀唇”軟件準(zhǔn)確率比人類(lèi)高3倍 —— 文章正文2016-11-25