本文由中科院-極限元“智能交互聯(lián)合實(shí)驗(yàn)室”投稿
語(yǔ)音合成又稱文語(yǔ)轉(zhuǎn)換(Text-To-Speech),簡(jiǎn)稱TTS,指通過(guò)機(jī)械的、電子的方法生成語(yǔ)音的技術(shù)。
隨著科技的發(fā)展,合成語(yǔ)音的自然度和音質(zhì)均得到了明顯的改善。目前,語(yǔ)音合成技術(shù)在我們生活中具有廣泛的應(yīng)用,如電子閱讀、車載語(yǔ)音導(dǎo)航、銀行醫(yī)院排號(hào)系統(tǒng)、交通播報(bào)等等,這些應(yīng)用場(chǎng)景都離不開語(yǔ)音合成。
簡(jiǎn)單來(lái)說(shuō)語(yǔ)音合成分為文本分析、韻律分析和聲學(xué)分析三個(gè)部分。通過(guò)文本分析提取出文本特征,在此基礎(chǔ)上預(yù)測(cè)基頻、時(shí)長(zhǎng)、節(jié)奏等多種韻律特征,然后通過(guò)聲學(xué)模型實(shí)現(xiàn)從前端參數(shù)到語(yǔ)音參數(shù)的映射,最后通過(guò)聲碼器合成語(yǔ)音。整個(gè)過(guò)程類似于“編碼、信息匹配,解碼的過(guò)程”。
語(yǔ)音合成常用的兩種方法:
一種是參數(shù)語(yǔ)音合成,另一種則是拼接合成。波形拼接語(yǔ)音合成的過(guò)程更容易理解,即在語(yǔ)料庫(kù)中抽取合適的拼接單元,拼接成為句子。參數(shù)語(yǔ)音合成則需要對(duì)音庫(kù)進(jìn)行參數(shù)化建模,根據(jù)訓(xùn)練得到的模型預(yù)測(cè)出韻律參數(shù)和聲學(xué)參數(shù)。
波形拼接語(yǔ)音合成需要對(duì)錄音人進(jìn)行長(zhǎng)達(dá)幾十個(gè)小時(shí)以上的錄音采集,而參數(shù)語(yǔ)音合成則只需要十個(gè)小時(shí)的錄音采集,即可完成一套定制化語(yǔ)音包的制作 。在體驗(yàn)效果上,拼接拼接合成的語(yǔ)音更加貼近真實(shí)發(fā)音,但是通過(guò)參數(shù)合成的語(yǔ)音更穩(wěn)定。
下圖為基于波形拼接:
下圖為基于統(tǒng)計(jì)參數(shù):
如何讓機(jī)器說(shuō)話更自然,有情感
從合成的發(fā)展歷史來(lái)看,表現(xiàn)力、音質(zhì)、復(fù)雜度和自然度一直是合成技術(shù)所追求的四點(diǎn)。但是目前水平下的合成語(yǔ)音很難體現(xiàn)出情感特征,例如在韻律表現(xiàn)上不夠靈活,聲調(diào)變化上相對(duì)死板。
讓機(jī)器擁有自然、有情感、高表現(xiàn)力的聲音,依舊是語(yǔ)音合成技術(shù)的一大難點(diǎn)。
擺脫平鋪直敘,使合成語(yǔ)言更具有表現(xiàn)力高立足于以下條件:
1、情感豐富的大數(shù)據(jù),如:更自然的發(fā)音、更豐富的情感、更高更強(qiáng)的表現(xiàn)力
2、新技術(shù)的應(yīng)用
(1)深度神經(jīng)網(wǎng)絡(luò)技術(shù)已經(jīng)成功應(yīng)用到韻律模型、聲學(xué)模型預(yù)測(cè),并集成端到端的語(yǔ)音合成模型;
(2)彈性單元挑選技術(shù),讓合成語(yǔ)音更逼近真人發(fā)音;
(3)立足于大量數(shù)據(jù)的文本分析技術(shù)讓合成系統(tǒng)更理解人類的語(yǔ)言;
3、強(qiáng)需求應(yīng)用場(chǎng)景,如:語(yǔ)音導(dǎo)航、小說(shuō)播報(bào)、個(gè)性化需求等
語(yǔ)音合成技術(shù)已全面支持多方言、多語(yǔ)種、多音色的選擇,專業(yè)MOS評(píng)分可達(dá)4.0以上,為用戶提供渾厚男聲、甜美女聲,并可根據(jù)用戶需求實(shí)現(xiàn)音庫(kù)定制,滿足用戶的個(gè)性化應(yīng)用,例如:明星聲音定制、童聲定制、方言定制等。 從兩個(gè)角度來(lái)說(shuō),一. 音色的定制化,需要跟蹤錄大量的音庫(kù),重新訓(xùn)練一個(gè)模型;二. 個(gè)性化表示方法的定制化,可以錄一些數(shù)據(jù),通過(guò)深度學(xué)習(xí)訓(xùn)練模型,自適應(yīng)的方法來(lái)實(shí)現(xiàn)。
(審核編輯: 林靜)
分享