第二十七卷 第六期 - 2014年九月二十六日 PDF
Counter
前後文相關之狀態層語音轉換於自發性音節縮減之語音合成
吳宗憲*, 黃奕欽, 李崇漢, 郭峻成
國立成功大學資訊工程研究所
 
字體放大
研究主要目的是建構出一套具有高度自然度之中文語音合成系統。其中,自然語音中發音變異之現象是影響語音自然度的重要因素。基於隱藏式馬可夫模型的語音合成器,近年來已經可合成出流暢及清晰的語音,其系統的可攜性及適應性更是其發展優勢,但在語音的自然度上仍嫌不足,需要改善合成語音的自然度。因此,本研究以「轉換函式」作為轉換並合成出發音變異現象的方法,以及考慮「構音特性參數」做發音變異現象之預測;透過轉換函式產生新的音韻模型,希望改善在傳統合成方法中,僅利用固定數量音韻模型合成的不足,並以構音特性參數對發音變異做聲學特性上的分類,以彌補訓練語料不足的問題。藉由產生發音變異現象,用以增進基於隱藏式馬可夫模型之合成語音的自然度。

研究方法介紹

本研究提出一套系統性的方法,藉由線性轉換的函式作為產生發音變異之轉換模型,利用新產生的模型來合成出帶有發音變異現像的語音。另外藉由語音的構音特徵參數將發音變異做分類,利用分類決策樹模型(Decision Tree,簡稱DT)歸納出不同發音方式下的變異特性,藉以預測訓練語料以外的發音變異。另外,在語音訊號參數化、取得頻譜及音高的參數分析上,使用的是STRAIGHT分析及合成演算法,可以得到精確的基頻參數以及頻譜參數。主要的想法是,先對平行語料找出發音變異音素與正常音素間相對應關係,接著對成對的音素利用線性關係訓練出發音變異的轉換函式;接著將發音變異轉換函式中的參數頻譜與音長資訊利用隱藏式馬可夫模型(Hidden Markov Model, 簡稱HMM)建模,並配合發音參數使用DT來做分類。最後在聲音合成端利用使用者所輸入文字的發音參數,預測所需的轉換函式,配合HMM的語音合成結果,將合成語音參數轉換,透過MLSA(Mel-log Spectrum Approximation Filter)產生具有發音變異之自然語音。

資料對應關係之建立

由於聲音資料的長度不一,為了觀察音節合併現象的語音與一般正常朗讀式語音之間的關係,我們利用動態時間校正找尋兩筆資料間對應的關係。如圖1所示,縱軸為朗讀式語音頻譜資料序列,橫軸為發生音節合併的語音頻譜資料序列,圖中顯示出兩筆參數資料的差異程度,其中顏色的深淺表示兩筆資料之間歐式距離的差異大小,顏色越深表示差異越大,紅色的線段則為最佳對應關係之路徑。

利用動態時間校正的路徑結果來建立兩筆資料間的對應關係,如圖1所示,其中標示(1)的為兩筆資料具有較恰當的一對一對應部分,可視為兩筆資料較相近的部分;標示為(2)的部分,其動態時間校正路徑較為垂直,代表較多數的朗讀式語音資料之音框對應到較少數的變異語音資料之音框。若以朗讀式語料為基準,可視為有部分音段被刪(deletion);標示(3)的部分,其動態時間校正路徑較為水平,代表較少數的朗讀式資料之音框對應到較多數的變異語音資料之音框,可視為有音段插入(insertion)。兩筆資料之間可以由此方式找到相對應的關係。

圖1:動態時間校正結果


針對產生發音變異之聲音單元部分,首先要找出正確發音和變異發音之間的對應關係,經過前述之處理後,找出成對的聲音單元,便可接著採用線性的假設關係,將發生變異的音段視為正常語音段的線性組合和轉換,將成對的聲音單元(phone pair)利用線性轉換的方式來描述平行之正常與變異音段間的關係,我們定義正常語音段(source, Xx1..xn))可以經由下式

(1)


藉由式子(1)的線性轉換函式來轉換成為目標的變異語音段(Target, Yy1..yn))。其轉換關係如圖2所示。

圖2:線性轉換關係示意圖


在本研究中,發音變異之轉換模型的訓練上,也採用了隱藏式馬可夫模型,藉由其時間軸上可考慮前後關聯的特性,使描述出來的聲學模型更具有連慣性。在此為了更仔細的描述轉換的函式,除了引入隱藏式馬可夫模型,並同時考慮正常語音與變異的語音資料間的關聯性,也就是最大化 的機率。由最大化期望值演算法估算出的 即為發音變異轉換函式 中所需的參數。每組語音段經過隱藏式馬可夫模型的訓練後可以得到如圖3所示的狀態形式。

由圖3所示,為訓練後隱藏式馬可夫模型,其中各狀態有各自的線性轉換函式 、正常語音段長度資訊LX與自發性口語語音段長度資訊LY。藉由透過此多線性轉換函式的模型,我們可以將朗讀式語音框,透過轉換函式轉換成發音變異的語音段。朗讀式語音與自發性語音間的差異,可以透過LX與LY資訊對音長做調整,達到音素長度變異的效果。

圖3:HMM 之音長轉換模型


發音變異預測模型

正常發音的音素經由頻譜轉換後變成發音變異的音素,利用前述所提出的分類回歸樹來做預測時,希望預測的結果與目標的音素在聲學上的差異越小越好。也就是來源音素經過分類後,根據所在類別選取的轉換函式來進行頻譜特性的轉換,其轉換後之結果(Converted)與變異的目標音素越相似越好。本研究模型採用分類回歸樹,在分裂的條件上設定為“分裂後的轉換誤差(Generation Error)小於分裂前轉換誤差”,轉換的誤差計算方式定義如下:

(2)


其中ym為目標音素Y中第m個音框,xm為來源音素X中的第m個音框, 為第i個state中的線性轉換函式,M為音框總數。欲得到最佳的分裂的結果,亦即欲最大化減少的轉換誤差量,減少的誤差量計算方式為母節點的轉換誤差扣除分裂後子節點轉換誤差,即為所謂的誤差變異數。

合成語音的自然度並不像是自發性語音帶有發音變異的表現,會有不流暢和不連續的情形產生;而本研究所提出的方法,使用頻譜轉換的方式,將聲音頻譜經由State-based的線性轉換函式轉換後,經由主觀測試的結果,在自然度表現上,能夠讓小單元的文字(詞)接近自發性語音中帶有發音變異的表現,也再次証明了只透過音長長度的修正,僅能改變講話的語速和斷句時間的長短,並不能得到發音變異的效果,而經由頻譜轉換的方式,其合成出的語音會帶有發音變異的效果。如圖5所示,本研究所提出的方法(Pro_S_VD)比HMM為基礎之語者調適訓練所得到之語音(AVM)或是經由發音變異之語音對AVM進行調適過之語音合成器,在語音之流暢度得到了受測者較佳的偏好度,確實證明了本研究在語音合成之流暢度與自然度能夠有所提昇。

圖4: 本研究與其他方法在語音自發度之主觀偏好測試結果


參考文獻
  1. Tseng, S.-C., and Liu, Y.-F., “Annotation of Mandarin Conversational Dialogue Corpus,” CKIP Technical Report, No. 02-01, Academia Sinica, 2002.
  2. Bennett C.L., and Black A.W., “Prediction of pronunciation variations for speech synthesis: A data-driven approach,” in Proceedings of IEEE Int. Conf. Acoust., Speech, and Signal Processing, Philadelphia, Pennsylvania, 2005.
  3. Werner S., Eichner M., Wolff M., and Hoffmann R., “Toward spontaneous speech synthesis - utlilizing language model information in TTS,” IEEE Trans. Speech, Audio Processing, pp. 436–445, 2004.
  4. Sun L.-Y., and Wang Y.-R., “An Analysis Modeling of Syllable Contraction in Spontaneous Mandarin Speech Recognition,” Master Thesis, Dept. of Communication Engineering, NCTU, Taiwan, 2004.
  5. Fukada, T., Tokuda, K., Kobayashi, T., and Imai, S., “An Adaptive Algorithm for Mel-cepstral Analysis of Speech”, in Proc. of ICASSP, S7.11, PP. 453-456, 1991.
< 上一篇
下一篇 >
Copyright National Cheng Kung University