2009年9月29日 星期二

語音合成的作法

• 頻譜參數合成方法(Articulatory Synthesis):


如Holmes的並聯共振峰合成器(1973)和Klatt的串/並聯共振峰(Formant)(1980)合成、基於LPC等聲學參數的合成系統,但要合成出清晰的語音需要準確的設定參數,使用困難,且合成出的語音仍不夠自然。

• 波形拼接法(Formant Synthesis):

如基頻同步累加法(PSOLA)(1990)在語音波形上做時域(time domain)的韻律修正來合成語音,就可以產生出具有韻律的合成語音。 PSOLA的設計重點,在改良頻域(frequency domain)耗時,以及在時域(time domain)接合效果太差的情形,其合成的語音在音色與自然度都大大的提升,且架構較簡單,容易實作。

對於 TTS 系統而言,無論接受的是一段文字的輸入或是一篇文章,這些文字本身並沒有包含任何聲學特性 ( 說話的聲調,停頓方式,發音長短等韻律 ) ,只有語言學的特性,所以必須透過自動預測的機制來產生這些文字的可能的聲學特性 (acoustic feature) 而所謂自動預測的機制,一般有 rule-based 跟 knowledge-based 兩種方法,但是這兩種方法不但合成的聲音平淡又缺乏吸引力且遇到連續發音或要保留語者音色時表現都不好, 因此近來串接合成法大行其道。

• 串接合成法(Concatenated Synthesis):

以一個錄好聲音的語料庫來當作比對的標的,從語料庫中抓出相對應的聲音單元,一些在 rule-based 與 knowledge-based 方法下需要做細節的聲韻調整也因此減少了許多,如此簡化了計算拼接與口音等複雜的計算,也特別適合在少量字彙的輸出時使用。

語音合成的困難點

1. 發音的自然度(清晰、流暢)。

2. 破音字的處理。

3. 即時處理的能力。

語音合成的4大模組

1. 文句分析

分析文句的語法與語意後轉成語言特徵參數

讓電腦知道本文中哪些是詞,哪些是句子,發什麼音,怎麼發音,發音時到哪應該停頓,停頓多長等等。

1. rule base:最大匹配法、反向最大匹配法、逐詞搜尋法、最佳匹配法、二次掃描法等等。

2. data driven:二元文法法(Di-Grammar Method)、三元文法法(Tri-Grammar Method)、隱藏式馬可夫模型法(HMM Method)和類神經網路法(Neural Network Method)等等。

2. 韻律產生器

將語言特徵參數送入韻律產生器來產生文句的每個音節的對應韻律訊息,包含基頻軌跡,音量,音長等

將說話的聲調,語氣,停頓方式,發音長短轉換成韻律參數。

1. rule base:。

2. data driven:類神經網路法(Neural Network Method)。

3. 合成單元產生器

根據語音資料庫中的單音節音素語音波形樣本輸出合成單元.

4. 語音合成器

根據需要發的音從聲音資料庫中選擇出合適的聲學參數,然後根據在韻律模型中得到的韻律參數,透過語音合成演算法產生語音。

語音相關應用

1. 語音合成(Speech Synthesize):運用資訊科技使電腦或電子設備模擬人聲。

2. 語音辨識(Speech Recognition):讓電腦聽得懂人類說話的聲音。

1. 語者相關(Speaker Dependent):不要求語者發音準確,需先經過訓練。

2. 非語者相關(Speaker Independent):語者發音需較正確,且無須訓練。

3. 語者識別(Speaker Identification):辨識說話者的身份Reference:http://irw.ncut.edu.tw/peterju/speech.html

沒有留言:

張貼留言