當(dāng)前位置：中研網(wǎng)>行業(yè)資訊>行業(yè)經(jīng)濟(jì)>其他行業(yè)

語音識(shí)別系統(tǒng)詞錯(cuò)率已達(dá)到5.5%

2017年5月4日來源：北京日?qǐng)?bào) 編輯：FuMingQing 繁體

分享到:

日前，美國一家公司宣稱專業(yè)速記員在記錄對(duì)話時(shí)，轉(zhuǎn)錄詞錯(cuò)率為5.1%，而該公司最新研發(fā)的語音識(shí)別系統(tǒng)詞錯(cuò)率已達(dá)到5.5%，超越之前的歷史最佳水平，樹立了新的里程碑。

　　日前，美國一家公司宣稱專業(yè)速記員在記錄對(duì)話時(shí)，轉(zhuǎn)錄詞錯(cuò)率為5.1%，而該公司最新研發(fā)的語音識(shí)別系統(tǒng)詞錯(cuò)率已達(dá)到5.5%，超越之前的歷史最佳水平，樹立了新的里程碑。語音識(shí)別，是人工智能領(lǐng)域的核心問題之一，0.4%的差距似乎意味著機(jī)器即將比肩人類。

　　已過“甲子”之年

　　斯坦福大學(xué)的相關(guān)研究者在2016年9月發(fā)布了一篇名為《2030年的人工智能與生活》的文章，提到：人工智能領(lǐng)域正式誕生于1956年夏天，一場(chǎng)由約翰·麥卡錫組織的在美國達(dá)特茅斯暑期研究項(xiàng)目的研討會(huì)，在多年以后被認(rèn)定為全球人工智能研究的起點(diǎn)。

　　其實(shí)，對(duì)于人工智能子項(xiàng)目之一的語音識(shí)別來說，它的歷史甚至比60年還要久。

　　語音識(shí)別的研究源頭可追溯至1950年，計(jì)算機(jī)科學(xué)之父阿蘭·圖靈在《思想》(Mind)雜志上發(fā)表了題為“計(jì)算的機(jī)器和智能”的論文，首次提出了機(jī)器智能的概念，論文還提出了一種驗(yàn)證機(jī)器是否有智能的方法：讓人和機(jī)器進(jìn)行交流，如果人無法判斷自己交流的對(duì)象是人還是機(jī)器，就說明這個(gè)機(jī)器有智能了，這就是后來鼎鼎有名的人工智能圖靈測(cè)試。

　　圖靈測(cè)試的概念極大影響了人工智能對(duì)于功能的定義，以此為途徑，卡內(nèi)基梅隆大學(xué)的兩位科學(xué)家希爾伯特·西蒙和曼紐爾·布盧姆做了大量的前期工作，非常精妙地證明了羅素《數(shù)學(xué)原理》52道中的38道。西蒙甚至宣稱在10年之內(nèi)，機(jī)器就可以達(dá)到和人類智能一樣的高度。

　　在這一時(shí)期，科學(xué)家們也將語音識(shí)別比作“機(jī)器的聽覺系統(tǒng)”，該技術(shù)可以讓機(jī)器通過識(shí)別和理解，把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令。1952年，貝爾研究所、Davis等人研制了世界上第一個(gè)能識(shí)別10個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng)。1960年，英國的Denes等人研制了第一個(gè)計(jì)算機(jī)語音識(shí)別系統(tǒng)。

　　從“模擬”人腦到開創(chuàng)統(tǒng)計(jì)方法

　　當(dāng)20世紀(jì)50年代明確了人工智能要模擬人類智慧這一大膽目標(biāo)后，這一領(lǐng)域經(jīng)歷了近20年的輝煌。研究人員開展了一系列項(xiàng)目，表明計(jì)算機(jī)能夠完成一系列原本只屬于人類能力范疇之內(nèi)的任務(wù)，例如證明定理、求解微積分、通過規(guī)劃來響應(yīng)命令、履行物理動(dòng)作，甚至是模擬心理學(xué)家心理實(shí)驗(yàn)、作曲家譜曲這樣的活動(dòng)。

　　但是，過分簡單的算法以及計(jì)算能力的限制，嚴(yán)重阻礙了人們使用人工智能來解決更加困難和多樣化的問題。

　　這一階段在人工智能的細(xì)分領(lǐng)域語音識(shí)別上，科學(xué)家們也走上了同樣的彎路。他們認(rèn)為，計(jì)算機(jī)要完成語音識(shí)別這類只有人才能做的事情，必須先讓計(jì)算機(jī)理解自然語言，導(dǎo)致研究局限在人類學(xué)習(xí)語言的方式上了，即電腦模擬人腦，語言學(xué)者參與了大量的研究工作，但最后的成果卻近乎為零。伴隨著對(duì)未來繼續(xù)努力的失望，人工智能包括語音識(shí)別都于20世紀(jì)70年代中期逐漸淡出公眾視野。

　　轉(zhuǎn)機(jī)出現(xiàn)在統(tǒng)計(jì)語言學(xué)的創(chuàng)立上。這不得不提一個(gè)關(guān)鍵性人物——德里克·賈里尼克和他領(lǐng)導(dǎo)的IBM華生實(shí)驗(yàn)室，他們創(chuàng)新的使用統(tǒng)計(jì)方法，將當(dāng)時(shí)的語音識(shí)別率從70%迅速提升到90%，同時(shí)語音識(shí)別的規(guī)模從幾百個(gè)單詞上升到幾萬個(gè)單詞，使得語音識(shí)別就有了從實(shí)驗(yàn)室走向?qū)嶋H應(yīng)用的可能。

　　在賈里尼克之前，科學(xué)家們都把語音識(shí)別問題的核心歸結(jié)為語言學(xué)中的規(guī)則問題，而賈里尼克將它當(dāng)作通信問題后，用兩個(gè)隱含馬爾可夫模型(聲學(xué)模型和語言模型)把語音識(shí)別重新概括清楚了。

　　這個(gè)框架結(jié)構(gòu)至今仍對(duì)語音識(shí)別影響深遠(yuǎn)，它不僅從根本上使得語音識(shí)別有使用的可能，而且奠定了今天自然語言處理的基礎(chǔ)。賈里尼克后來也因此當(dāng)選美國工程院院士，并被某雜志評(píng)為20世紀(jì)100名發(fā)明家之一。

　　盡管賈里尼克在1972年就提出了新的研究范式，但模擬人腦與統(tǒng)計(jì)學(xué)的方法之爭，卻持續(xù)了近十五年時(shí)間，語音識(shí)別領(lǐng)域歷經(jīng)了十五年的新舊交替后，最大的成果其實(shí)是在技術(shù)的應(yīng)用及產(chǎn)品化方面出現(xiàn)了進(jìn)展。

　　大進(jìn)步的催化劑

　　在互聯(lián)網(wǎng)大爆發(fā)的20世紀(jì)90年代，人工智能的相關(guān)研究又一次停滯了。直到21世紀(jì)前10年，出現(xiàn)了一系列復(fù)興人工智能研究進(jìn)程的要素，尤其是下面這些重要的因素和核心技術(shù)：

　　大數(shù)據(jù)。得益于互聯(lián)網(wǎng)、社交媒體、移動(dòng)設(shè)備和廉價(jià)的傳感器，這個(gè)世界產(chǎn)生的數(shù)據(jù)量急劇增加。大數(shù)據(jù)是人工智能發(fā)展的助推劑，這是因?yàn)橛行┤斯ぶ悄芗夹g(shù)使用統(tǒng)計(jì)模型來進(jìn)行數(shù)據(jù)的概率推算，如語音識(shí)別，通過數(shù)據(jù)的海洋中豐富的語料，使得技術(shù)不斷優(yōu)化。

　　新算法。算法是解決一個(gè)設(shè)計(jì)程序或完成任務(wù)的路徑方法。在一個(gè)完整的工業(yè)界語音識(shí)別系統(tǒng)里，最關(guān)鍵的是深度學(xué)習(xí)算法，還有很多工作是專業(yè)領(lǐng)域相關(guān)的算法，以及海量數(shù)據(jù)收集和工程系統(tǒng)架構(gòu)的搭建。這些算法本身很重要，同時(shí)也是其他技術(shù)的推動(dòng)者，比如機(jī)器學(xué)習(xí)算法Google的TensorFlow目前就被開源使用。

　　可以說，任何技術(shù)都有蓄能階段和爆發(fā)階段，人工智能包括語音識(shí)別技術(shù)的爆發(fā)都得益于以上條件。這也不難理解，從語音識(shí)別來看，它是需要經(jīng)驗(yàn)、數(shù)據(jù)和用戶反饋共同作用來提升表現(xiàn)的。需要利用用戶的反饋總結(jié)出一些特點(diǎn)。

　　谷歌是最早在全球范圍內(nèi)大規(guī)模使用深度學(xué)習(xí)算法的公司，也最早開創(chuàng)了用互聯(lián)網(wǎng)思維做語音識(shí)別。在這方面，科大訊飛受到谷歌的啟發(fā)，迅速跟進(jìn)成為國內(nèi)第一個(gè)在商用系統(tǒng)里使用深度學(xué)習(xí)的公司。

　　現(xiàn)有成績和待解難題一樣多

　　語音識(shí)別技術(shù)已經(jīng)發(fā)展了幾十年，因?yàn)榇髷?shù)據(jù)和深度學(xué)習(xí)的應(yīng)用，這一領(lǐng)域的傳統(tǒng)強(qiáng)者成了谷歌、亞馬遜、蘋果和微軟這些美國科技巨頭，據(jù)統(tǒng)計(jì)，美國至少有26家公司在開發(fā)語音識(shí)別技術(shù)，而中國則有近50家公司研究這一領(lǐng)域。

　　盡管谷歌這些巨頭在語音識(shí)別技術(shù)上的技術(shù)積累和先發(fā)優(yōu)勢(shì)讓后來者似乎難以望其項(xiàng)背，但因?yàn)橐恍┱吆褪袌?chǎng)方面的原因，當(dāng)然也有部分原因是中文的復(fù)雜程度高于英語，所以國際巨頭的語音識(shí)別主要偏向于英語，中文領(lǐng)域的語音智能機(jī)會(huì)則留給了科大訊飛、百度、搜狗等中國公司。在國內(nèi)，這些本土化產(chǎn)品更為用戶所熟知。

　　中文領(lǐng)域的識(shí)別難度在哪里?舉個(gè)簡單的例子，魯迅《孔乙己》中的孔乙己之問：茴香豆的“茴”有幾種寫法?或者一個(gè)更有時(shí)代感的案例，如何形容物流很快?據(jù)說，在漢語里回答這個(gè)問題竟然至少有3600種說法，比如第二天就到了、物流很給力、給快遞點(diǎn)贊等不盡其詳。盡管語音識(shí)別在近些年來取得了巨大的進(jìn)步，但其實(shí)仍然還有很多的工作要做。

　　此外，還有確保語音識(shí)別能在更為真實(shí)生活的環(huán)境中良好地工作。這些環(huán)境包括具有很多背景噪聲的地方，比如聚會(huì)場(chǎng)所或在高速路上駕駛的時(shí)候;還有在多人交談環(huán)境中將不同的說話人區(qū)分開。

　　還有一個(gè)更深層次的難題是，如果需要實(shí)現(xiàn)人機(jī)對(duì)話、人機(jī)寫作，不只是需要用機(jī)器轉(zhuǎn)錄來自人類嘴巴的聲音信號(hào)，更要理解人們所說的話。

　　從語音識(shí)別來看，下一個(gè)前沿是從識(shí)別走向理解，真正的人工智能仍然還在遙遠(yuǎn)的地平線上，在機(jī)器能理解其所聽到或看到的事物的真正含義之前，還需要很長時(shí)間的工作，有很長的路要走。

　　或許也可以說，我們正在從一個(gè)人類必須理解計(jì)算機(jī)的世界，邁向一個(gè)計(jì)算機(jī)必須理解我們的世界。亞里士多德曾說過，如果機(jī)器能干很多活，豈不能讓人類解放出來，或許這一解放的起點(diǎn)就是“理解”。

語音識(shí)別人工智能

報(bào)告

報(bào)告資訊

細(xì)分市場(chǎng)
可研報(bào)告
商業(yè)計(jì)劃
專項(xiàng)調(diào)研
兼并重組
IPO上市
產(chǎn)業(yè)園區(qū)

中研網(wǎng)
發(fā)現(xiàn)資訊的價(jià)值
中研研究院
掌握產(chǎn)業(yè)最新情報(bào)

中研網(wǎng)是中國領(lǐng)先的綜合經(jīng)濟(jì)門戶，聚焦產(chǎn)業(yè)、科技、創(chuàng)新等研究領(lǐng)域，致力于為中高端人士提供最具權(quán)威性的產(chǎn)業(yè)資訊。每天對(duì)全球產(chǎn)業(yè)經(jīng)濟(jì)新聞進(jìn)行及時(shí)追蹤報(bào)道，并對(duì)熱點(diǎn)行業(yè)專題探討及深入評(píng)析。以獨(dú)到的專業(yè)視角，全力打造中國權(quán)威的經(jīng)濟(jì)研究、決策支持平臺(tái)！

廣告、內(nèi)容合作請(qǐng)點(diǎn)這里：

尋求報(bào)道 ??

相關(guān)閱讀

語音識(shí)別已過“甲子”之年 0.4%的差距即將比肩人類

智能駕駛會(huì)對(duì)道路交通有積極的影響嗎？

熱點(diǎn)圖文分析

《神奇女俠》新海報(bào)驚艷絕倫！女神單手擋子彈所向披靡
清純漂亮女孩戶外雨傘清新迷人養(yǎng)眼寫真
厲害了那日進(jìn)斗金的大學(xué)生盤點(diǎn)高校吸金狂人
懷孕了？朱丹蓬蓬裙遮腹腰身秀出大長腿
“侯局長”陸毅童年照從小就是美男子！
日本最清純Coser伊織萌來北京參展 2B小姐姐打扮黑衣人貼身保護(hù)

【版權(quán)及免責(zé)聲明】凡注明"轉(zhuǎn)載來源"的作品，均轉(zhuǎn)載自其它媒體，轉(zhuǎn)載目的在于傳遞更多的信息，并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。中研網(wǎng)倡導(dǎo)尊重與保護(hù)知識(shí)產(chǎn)權(quán)，如發(fā)現(xiàn)本站文章存在內(nèi)容、版權(quán)或其它問題，
煩請(qǐng)聯(lián)系：jsb@chinairn.com、0755-23619058，我們將及時(shí)溝通與處理。