Alexa是亞馬遜的云端語音識別軟件,它是黑色圓柱體音箱Echo的大腦。Alexa的面世在全球造成了轟動(dòng),除了小孩以外,因?yàn)樗麄冇X得這是理所當(dāng)然的。小孩子會(huì)伴隨著Alexa成長。在人工智能的支持下,Alexa學(xué)會(huì)了回答越來越多的問題,有朝一日可能會(huì)進(jìn)化到能與人自由交談的地步。
但是,任何10歲以上的人都知道,從前不是這樣的。語音識別軟件發(fā)展到今天經(jīng)歷了漫長的道路。雖然Echo比啤酒杯更瘦,但是第一批語音識別機(jī)器——二十世紀(jì)中葉開發(fā)的那些——幾乎可以占滿一整個(gè)房間。
亞馬遜Echo把語音識別帶進(jìn)人們的起居室(圖片來源:Amazon)
人類很久以前就試圖對機(jī)器講話——或者至少讓機(jī)器對我們說話。"語音能夠讓我們與機(jī)器實(shí)現(xiàn)難以置信的簡單互動(dòng),它是最自然、最方便的交互方式,也是我們每天都在使用的東西,"亞馬遜設(shè)備事業(yè)部和亞馬遜Alexa歐洲區(qū)副總裁喬利特·凡德·穆勒恩(Jorrit Van der Meulen)說,"語音就是未來。"
1773年,俄國科學(xué)家、在哥本哈根生活的生理學(xué)教授克里斯蒂安·克拉特齊斯坦(Christian Kratzenstein)開始思考語音技術(shù)。他制造了一個(gè)特別的設(shè)備,把共鳴管和風(fēng)琴管連接起來,發(fā)出類似于人類語言中元音的聲音。就在十多年后,維也納的沃爾夫?qū)ゑT·肯佩倫(Wolfgang von Kempelen)制造了一臺(tái)類似的機(jī)械聲學(xué)語音機(jī)器。在十九世紀(jì)初,英國發(fā)明家查爾斯·惠斯通(Charles Wheatstone)用皮革共鳴器改進(jìn)了馮·肯佩倫的系統(tǒng)。該系統(tǒng)可以通過手動(dòng)調(diào)整或控制發(fā)出像語言一樣的聲音。
到1881年,亞歷山大·格拉漢姆·貝爾(Alexander Graham Bell)和他的兄弟查爾斯·薩姆納·天特(Charles Sumner Tainter)一起制造了一個(gè)蠟涂層的旋轉(zhuǎn)圓柱體,一根唱針對傳入的聲音壓力作出反應(yīng),切出垂直的凹槽。這一發(fā)明為1907年獲得專利的第一臺(tái)留聲機(jī)鋪平了道路。他們是希望用機(jī)器來聽寫秘書念的筆記和書信,這樣就不再需要速記員。隨后,這些記錄可以用打字機(jī)打出來。這一發(fā)明很快在全球流行起來,在越來越多的辦公室里,秘書會(huì)帶著笨拙的耳機(jī),聆聽錄音并完成轉(zhuǎn)錄。
但所有這些雛形都是被動(dòng)式機(jī)器——直到1952年自動(dòng)數(shù)字識別機(jī)"Audrey"的問世。它由貝爾實(shí)驗(yàn)室(Bell Labs)制造,體型巨大,占滿了一個(gè)六英尺高的繼電器架子,耗電量很大,連接著大量纜線。它能夠識別語音的基本單位"音素"。
那時(shí),計(jì)算機(jī)系統(tǒng)非常昂貴、笨重,存儲(chǔ)空間和運(yùn)算速度有限。但是Audrey仍然能夠識別數(shù)字的發(fā)音——零到九——準(zhǔn)確率高達(dá)90%,至少它的開發(fā)者戴維斯(HK Davis)發(fā)音時(shí)是這樣。當(dāng)面對其他幾位指定的說話者時(shí),它的準(zhǔn)確率為70%到80%,但如果是不熟悉的聲音,它的準(zhǔn)確率就會(huì)大大降低。"這在當(dāng)時(shí)是一個(gè)驚人的成就,但是那個(gè)系統(tǒng)需要一整個(gè)房間的電子設(shè)備,還需要專業(yè)的電路,才能識別單個(gè)數(shù)字,"貝爾實(shí)驗(yàn)室信息分析部的查理·巴哈爾(Charlie Bahr)說。
電話的發(fā)明者亞歷山大·格拉漢姆·貝爾
電話的發(fā)明者亞歷山大·格拉漢姆·貝爾在語音識別方面也完成了重要的工作(圖片來源:Science Photo Library)
由于Audrey只能識別指定說話者的聲音,它的用途就比較有限:比如它可以為收費(fèi)電話的接線員提供語音撥號的功能,但實(shí)際上沒有這個(gè)必要,因?yàn)樵诖蠖鄶?shù)情況下,通過手動(dòng)按鈕撥號成本更低,且更簡便。Audrey仍然是雛形——它領(lǐng)先于普通的計(jì)算機(jī)。雖然它并沒有用在生產(chǎn)系統(tǒng)中,但是"它說明了語音識別是可以實(shí)現(xiàn)的,"巴哈爾說。
但是還有另一個(gè)目標(biāo)。"我相信Audurey開發(fā)的最初目的是要減少帶寬,即電線上傳輸?shù)臄?shù)據(jù)量,"巴哈爾的同事、諾基亞貝爾實(shí)驗(yàn)室(Nokia Bell Labs)的拉里·奧戈?duì)柭↙arry O'Gorman)說。語音識別所需帶寬比原始聲波要小。但是隨著二十世紀(jì)七十和八十年代電話機(jī)開關(guān)的數(shù)字化,電話線路分配變的更快、更便宜,同時(shí)仍需要接線員來理解撥號請求。于是,二十世紀(jì)七十年代和八十年代,貝爾實(shí)驗(yàn)室語音研究投入了大量精力研究以下內(nèi)容:識別數(shù)字零到十以及"是"與"否"。"電話系統(tǒng)在能夠識別這12個(gè)單詞后,就能夠單純依靠機(jī)器完成電話接線,"奧戈?duì)柭f。
Audrey并不是唯一。二十世紀(jì)六十年代,日本的幾個(gè)團(tuán)隊(duì)也對語音識別進(jìn)行研究,最著名的包括東京無線電研究實(shí)驗(yàn)室(Radio Research Lab)的元音識別器、京都大學(xué)的(Kyoto University)音素識別器和NEC實(shí)驗(yàn)室的數(shù)字語音識別器。
在1962年的世界博覽會(huì)上,IBM展示了它的"鞋盒"(Shoebox)機(jī)器,它能夠理解16個(gè)口頭表達(dá)的英語單詞。美國、英國和蘇聯(lián)還有其他研究。蘇聯(lián)的研究人員發(fā)明了動(dòng)態(tài)規(guī)整(DTW)算法,并將其用來制造一個(gè)能夠駕馭200個(gè)單詞的識別器。但這些系統(tǒng)大都基于樣本匹配,也就是把單詞與存儲(chǔ)在機(jī)器里的語音進(jìn)行匹配。
最大的一次飛躍發(fā)生在1971年,當(dāng)時(shí)美國國防部的研究機(jī)構(gòu)Darpa出資開展一個(gè)為期五年的語音理解研究項(xiàng)目,目標(biāo)是達(dá)到1000個(gè)單詞的詞匯量。很多公司和學(xué)術(shù)機(jī)構(gòu)參與了該項(xiàng)目,包括IBM、卡內(nèi)基梅隆大學(xué)(Carnegie Mellon University)和斯坦福研究所(Stanford Research Institute)。于是,Harpy在卡內(nèi)基梅隆大學(xué)誕生。
和它的前輩不同,Harpy能夠識別整句話。"我們不想查詞典——所以我想要制造一個(gè)能夠翻譯話語的機(jī)器。這樣,當(dāng)你在講一種語言時(shí),它會(huì)把你說的話轉(zhuǎn)換成文本,然后進(jìn)行機(jī)器翻譯,所有任務(wù)都一次完成,"卡內(nèi)基梅隆大學(xué)曾經(jīng)在Harpy項(xiàng)目和該大學(xué)的Hearsay-II項(xiàng)目工作的計(jì)算機(jī)科學(xué)教授亞歷山大·韋貝爾(Alexander Waibel)說。
電話的到來加速了語音識別技術(shù)的發(fā)展(圖片來源:iStock)
從單詞轉(zhuǎn)到詞組并不容易。"句子里的單詞會(huì)交匯起來,你會(huì)弄不清楚,不知道單詞從哪里開始,到哪里結(jié)束。于是,你會(huì)得到'euthanasia'這樣的東西,而它可能是'youth in Asia'。"韋貝爾說,"或者,當(dāng)你說'Give me a new display'時(shí),它可能會(huì)被理解為'give me a nudist play'。"
Harpy一共能識別1011個(gè)單詞,這大概是一個(gè)普通的三歲小孩的詞匯量。它的準(zhǔn)確率也相當(dāng)不錯(cuò),所以實(shí)現(xiàn)了Darpa最初的目標(biāo)。"它成了現(xiàn)代語音識別系統(tǒng)真正的祖先,"卡內(nèi)基梅隆大學(xué)語言技術(shù)所的所長杰米·卡博內(nèi)爾(Jaime Carbonell)說,"它是第一個(gè)成功利用語言模型判斷哪些單詞放在一起會(huì)產(chǎn)生意義的系統(tǒng),因此它能夠降低語音識別的錯(cuò)誤。"
在之后的一些年里,語音識別系統(tǒng)進(jìn)一步發(fā)展。在二十世紀(jì)八十年代,IBM制造了語音激活的打字機(jī)Tangora,它能夠處理20000個(gè)單詞的詞匯量。IBM的方法是基于隱馬爾可夫模型(hidden Markov model),把統(tǒng)計(jì)學(xué)納入數(shù)字信號處理技術(shù)。這一方法讓我們有可能預(yù)測哪些音素最有可能出現(xiàn)在某一給定音素的后面。
IBM的競爭對手Dragon Systems提出了自己的方法。此時(shí),技術(shù)取得了長足的進(jìn)步,語音識別終于能夠應(yīng)用到實(shí)際生活中——比如可以讓兒童訓(xùn)練講話的玩偶。雖然取得了很多成就,但是當(dāng)時(shí)的所有程序都采用了不連續(xù)聽寫,這意味著用戶必須在每個(gè)單詞后停頓一下。1990年,Dragon Systems發(fā)布了第一款消費(fèi)語音識別產(chǎn)品Dragon Dictate,9000美元的售價(jià)令人咂舌。然后,在1997年,Dragon NaturallySpeaking 問世——這是第一款連續(xù)語音識別產(chǎn)品。
"在那以前,語音識別產(chǎn)品局限在不連續(xù)的話語,這就意味著它們一次只能識別一個(gè)單詞," Nuance Communications公司高級副總裁、Dragon的總經(jīng)理彼得·馬奧尼(Peter Mahoney)說,"Dragon是連續(xù)語音識別的先鋒,它首次實(shí)現(xiàn)了實(shí)用的語音識別,可用來創(chuàng)建文件。"Dragon NaturallySpeaking每分鐘能夠識別100個(gè)單詞的話語——時(shí)至今日,它仍在使用。比如美國和英國的很多醫(yī)生用它來歸檔醫(yī)療記錄。
微軟的個(gè)人智能助理小娜(Cortana)是數(shù)十年實(shí)驗(yàn)的成果(圖片來源:iSto)
在過去的十年間,大致基于人腦工作模式的機(jī)器學(xué)習(xí)技術(shù)讓計(jì)算機(jī)能夠接受大量語音的訓(xùn)練,從而成功識別不同人的不同口音。
然而,直至谷歌發(fā)布了用于蘋果手機(jī)的谷歌語音搜索應(yīng)用"Google Voice Search",技術(shù)才又繼續(xù)向前發(fā)展。谷歌的方法是使用云計(jì)算處理應(yīng)用收到的數(shù)據(jù)。突然間,大眾可以獲得的語音識別擁有了大規(guī)模計(jì)算的能力。谷歌能夠運(yùn)行大規(guī)模的數(shù)據(jù)分析,匹配用戶的單詞和數(shù)十億個(gè)搜索詞條中積累的大量人類語音的例子。2010年,谷歌為安卓手機(jī)的語音搜索添加了"個(gè)性化識別"。2011年中期,又把語音搜索加入Chrome瀏覽器。蘋果也很快推出了它自己的版本,名為Siri,而微軟的語音識別功能名為AI Cortana,名字來自流行的光環(huán)系列游戲(Halo)中的一個(gè)人物。
所以,下一步會(huì)發(fā)生什么?"在語音處理領(lǐng)域,最成熟的技術(shù)就是語音合成,"奧戈?duì)柭f,"機(jī)器語音和人類語音現(xiàn)在已經(jīng)基本上無法區(qū)分。但是在很多情況下,自動(dòng)語音識別與人耳相比仍有較大差距。"雖然在一個(gè)幾乎沒有噪音的環(huán)境下,一個(gè)人只要講話清晰就能被自動(dòng)識別,但是當(dāng)發(fā)生所謂的"雞尾酒會(huì)效應(yīng)"(人類能夠在嘈雜的聚會(huì)中聽到某一個(gè)人說的話)時(shí),最新技術(shù)仍束手無策。就連Alexa也是這樣,如果房間里很吵鬧,你就必須靠近黑色圓柱體,清楚大聲的對它講話。
亞馬遜在語音識別方面的嘗試是受到了《星際迷航》(Star Trek)中計(jì)算機(jī)的啟發(fā),凡德·穆勒恩說。亞馬遜的目標(biāo)是制造一個(gè)完全可由語音控制的云端計(jì)算機(jī)——這樣你就可以自然的與它交談。當(dāng)然,好萊塢的魔法仍然領(lǐng)先于今日的科技。但是,凡德·穆勒恩說:"我們正處于機(jī)器學(xué)習(xí)和人工智能的黃金時(shí)代。讓機(jī)器按照人類的方式做事仍然遙不可及,但是我們每天都在解決一些難以置信的復(fù)雜問題。"
(審核編輯: 林靜)
分享