免费色播,亚洲国产欧美国产第一区二区三区,毛片看,日本精品在线观看视频,国产成人精品一区二区免费视频,日本黄色免费网站,一级毛片免费

讓機(jī)器說(shuō)話更自然 語(yǔ)音合成還能干什么?

來(lái)源:網(wǎng)絡(luò)

點(diǎn)擊:1365

A+ A-

所屬頻道:新聞中心

關(guān)鍵詞: 語(yǔ)音技術(shù),機(jī)器人

    讓機(jī)器說(shuō)話更自然 語(yǔ)音合成還能干什么?

    本文由中科院-極限元“智能交互聯(lián)合實(shí)驗(yàn)室”投稿

    語(yǔ)音合成又稱文語(yǔ)轉(zhuǎn)換(Text-To-Speech),簡(jiǎn)稱TTS,指通過(guò)機(jī)械的、電子的方法生成語(yǔ)音的技術(shù)。

    隨著科技的發(fā)展,合成語(yǔ)音的自然度和音質(zhì)均得到了明顯的改善。目前,語(yǔ)音合成技術(shù)在我們生活中具有廣泛的應(yīng)用,如電子閱讀、車載語(yǔ)音導(dǎo)航、銀行醫(yī)院排號(hào)系統(tǒng)、交通播報(bào)等等,這些應(yīng)用場(chǎng)景都離不開語(yǔ)音合成。

    讓機(jī)器說(shuō)話更自然 語(yǔ)音合成還能干什么?

    簡(jiǎn)單來(lái)說(shuō)語(yǔ)音合成分為文本分析、韻律分析和聲學(xué)分析三個(gè)部分。通過(guò)文本分析提取出文本特征,在此基礎(chǔ)上預(yù)測(cè)基頻、時(shí)長(zhǎng)、節(jié)奏等多種韻律特征,然后通過(guò)聲學(xué)模型實(shí)現(xiàn)從前端參數(shù)到語(yǔ)音參數(shù)的映射,最后通過(guò)聲碼器合成語(yǔ)音。整個(gè)過(guò)程類似于“編碼、信息匹配,解碼的過(guò)程”。

    讓機(jī)器說(shuō)話更自然 語(yǔ)音合成還能干什么?

    語(yǔ)音合成常用的兩種方法:

    一種是參數(shù)語(yǔ)音合成,另一種則是拼接合成。波形拼接語(yǔ)音合成的過(guò)程更容易理解,即在語(yǔ)料庫(kù)中抽取合適的拼接單元,拼接成為句子。參數(shù)語(yǔ)音合成則需要對(duì)音庫(kù)進(jìn)行參數(shù)化建模,根據(jù)訓(xùn)練得到的模型預(yù)測(cè)出韻律參數(shù)和聲學(xué)參數(shù)。

    波形拼接語(yǔ)音合成需要對(duì)錄音人進(jìn)行長(zhǎng)達(dá)幾十個(gè)小時(shí)以上的錄音采集,而參數(shù)語(yǔ)音合成則只需要十個(gè)小時(shí)的錄音采集,即可完成一套定制化語(yǔ)音包的制作 。在體驗(yàn)效果上,拼接拼接合成的語(yǔ)音更加貼近真實(shí)發(fā)音,但是通過(guò)參數(shù)合成的語(yǔ)音更穩(wěn)定。

    下圖為基于波形拼接:

    讓機(jī)器說(shuō)話更自然 語(yǔ)音合成還能干什么?

    下圖為基于統(tǒng)計(jì)參數(shù):

    讓機(jī)器說(shuō)話更自然 語(yǔ)音合成還能干什么?

    如何讓機(jī)器說(shuō)話更自然,有情感

    從合成的發(fā)展歷史來(lái)看,表現(xiàn)力、音質(zhì)、復(fù)雜度和自然度一直是合成技術(shù)所追求的四點(diǎn)。但是目前水平下的合成語(yǔ)音很難體現(xiàn)出情感特征,例如在韻律表現(xiàn)上不夠靈活,聲調(diào)變化上相對(duì)死板。

    讓機(jī)器擁有自然、有情感、高表現(xiàn)力的聲音,依舊是語(yǔ)音合成技術(shù)的一大難點(diǎn)。

    擺脫平鋪直敘,使合成語(yǔ)言更具有表現(xiàn)力高立足于以下條件:

    1、情感豐富的大數(shù)據(jù),如:更自然的發(fā)音、更豐富的情感、更高更強(qiáng)的表現(xiàn)力

    2、新技術(shù)的應(yīng)用

    (1)深度神經(jīng)網(wǎng)絡(luò)技術(shù)已經(jīng)成功應(yīng)用到韻律模型、聲學(xué)模型預(yù)測(cè),并集成端到端的語(yǔ)音合成模型;

    (2)彈性單元挑選技術(shù),讓合成語(yǔ)音更逼近真人發(fā)音;

    (3)立足于大量數(shù)據(jù)的文本分析技術(shù)讓合成系統(tǒng)更理解人類的語(yǔ)言;

    3、強(qiáng)需求應(yīng)用場(chǎng)景,如:語(yǔ)音導(dǎo)航、小說(shuō)播報(bào)、個(gè)性化需求等

    讓機(jī)器說(shuō)話更自然 語(yǔ)音合成還能干什么?

    語(yǔ)音合成技術(shù)已全面支持多方言、多語(yǔ)種、多音色的選擇,專業(yè)MOS評(píng)分可達(dá)4.0以上,為用戶提供渾厚男聲、甜美女聲,并可根據(jù)用戶需求實(shí)現(xiàn)音庫(kù)定制,滿足用戶的個(gè)性化應(yīng)用,例如:明星聲音定制、童聲定制、方言定制等。 從兩個(gè)角度來(lái)說(shuō),一. 音色的定制化,需要跟蹤錄大量的音庫(kù),重新訓(xùn)練一個(gè)模型;二. 個(gè)性化表示方法的定制化,可以錄一些數(shù)據(jù),通過(guò)深度學(xué)習(xí)訓(xùn)練模型,自適應(yīng)的方法來(lái)實(shí)現(xiàn)。

    (審核編輯: 林靜)

    聲明:除特別說(shuō)明之外,新聞內(nèi)容及圖片均來(lái)自網(wǎng)絡(luò)及各大主流媒體。版權(quán)歸原作者所有。如認(rèn)為內(nèi)容侵權(quán),請(qǐng)聯(lián)系我們刪除。