語音合成

語音合成是將人類語音用人工的方式所產生。若是將電腦系統用在語音合成上，則稱為語音合成器，而語音合成器可以用軟/硬體所實現。文字轉語音（Text-To-Speech，TTS）系統則是將一般語言的文字轉換為語音，其他的系統可以描繪語言符號的表示方式，就像音標轉換至語音一樣^[1]。

而合成後的語音則是利用在資料庫內的許多已錄好的語音連接起來。系統則因為儲存的語音單元大小不同而有所差異，若是要儲存phone以及diphone的話，系統必須提供大量的儲存空間，但是在語意上或許會不清楚。而用在特定的使用領域上，儲存整字或整句的方式可以達到高品質的語音輸出。另外，包含了聲道模型以及其他的人類聲音特徵參數的合成器則可以創造出完整的合成聲音輸出^[2]。

一個語音合成器的品質通常是決定於人聲的相似度以及語意是否能被了解。一個清晰的文字轉語音程式應該提供人類在視覺受到傷害或是得到失讀症時，能夠聽到並且在個人電腦上完成工作。從80年代早期開始，許多的電腦操作系統已經包含了語音合成器了。

歷史

早在17世紀就有法國人研發機械式的說話裝置。^{[來源請求]}直到19世紀，貝爾實驗室對於電子語音合成技術的研究，才開啟近代語音合成技術的發展。貝爾實驗室在1939年製作出第一個電子語音合成器VODER^[3]，是一種利用共振峰原理所製作的合成器。 1960年，瑞典語言學家G. Fant則提出利用線性預測編碼技術（LPC）來作為語音合成分析技術，並推動了日後的發展。後來1980年代Moulines E和Charpentier F提出新的語音合成演算法PSOLA，此技術可以合成比較自然的語音。

合成器技術

串接合成

單位選擇合成

這通常是使用字詞預錄的方式，將各字詞的發音預先錄製好，經處理後存放在資料庫中。使用時再將預發音的字句斷成字詞，再把發音的資料自資料庫中取出，交由DSP去處理髮音的合成。

共振峰合成

發音合成

HMM基礎合成

正弦波合成

開源代碼

參見 Github 語音合成主題^[4]

開源代碼
類別	語言	功能	名稱	網址
前端Frontend	英文	文本正則化Text Normalization
		轉拼音G2P(Grapheme to Phoneme)
		韻律預測Prosody Prediction	Predicting Prosodic Prominence from Text	https://github.com/Helsinki-NLP/prosody
		韻律預測Prosody Prediction	Find prosodic events from wav	https://github.com/asuni/wavelet_prosody_toolkit
	中文		g2pC	https://github.com/Kyubyong/g2pC
聲碼器Vocoder	/

開源數據

英文

*LJSpeech^[5]

中文

*標貝科技開源的中文女聲語音合成數據^[6]

*愛數智慧開源的15分鐘中文童聲數據^[7]

粵語

暫無

經典論文

Github論文收集庫：awesome-speech-recognition-speech-synthesis-papers^[8]

含有語音合成器的軟件

NVDA（開源多國語言螢幕報讀軟件）
台灣工研院資通所語音團隊開發出的mTTS
JAWS（商業付費螢幕報讀軟件）
內建於蘋果電腦相關產品的VoiceOver Utility
Android 1.6版加入支援語音合成的功能。
微軟在1995年開始，開發了一套Microsoft Speech API，微軟的一些操作系統或軟件有提供支援語音功能。
VOCALOID 及 VOICEROID，前者偏重歌唱而後者偏重 TTS。
盛大遊戲在2012年初，發布了Android語音合成平台聼聼中心，支援本地中英文合成及變聲等服務。
台語語音筆記本為台灣話的語音輸出 (Taiwanese Text-to-speech) 軟件。系統使用台語聲調群剖析器 (Taiwanese tone group parser)^[12]、語音引擎 (Speech engine) 及語音合成器 (Speech synthesizer)直接安裝於個人電腦獨立運作，不需鏈接 MS Speech SDK或 IBM TTS Engine 。使用者圖行形介面包含可用台語羅馬字或中文輸入、有聲辭典同步顯示、有聲讀本製作、外部應用程式/網絡瀏覽器語音輸出、台語調符轉換及使用中英文語詞搜尋等功能。

語音合成標記語言

參見

參考文獻

↑ Allen, Jonathan; Hunnicutt, M. Sharon; Klatt, Dennis. From Text to Speech: The MITalk system. Cambridge University Press. 1987. ISBN 978-0-521-30641-6.
↑ Rubin, P.; Baer, T.; Mermelstein, P. An articulatory synthesizer for perceptual research. Journal of the Acoustical Society of America. 1981, 70 (2): 321–328. Bibcode:1981ASAJ...70..321R. doi:10.1121/1.386780.
↑ 柳春、於洪志（2008年）：《現代教育技術》，第26期第64頁，北京：清華大學電教中心。
↑ github-tts-topic.
↑ LJ-Speech-Dataset.
↑ 数据描述.
↑ 数据页面. [2020-05-30].
↑ ponyzhang, zzw922cn/awesome-speech-recognition-speech-synthesis-papers, 2020-05-29 [2020-05-30]
↑ Blizzard Challenge 2020 - SynSIG
↑ 存档副本. [2020-05-28].
↑ 存档副本. [2020-05-28].
↑ Chang, Y. C. (2017). 以知識表徵方法建構台語聲調群剖析器 (A Knowledge Representation Method to Implement A Taiwanese Tone Group Parser)[In Chinese]. International Journal of Computational Linguistics & Chinese Language Processing; 22:2 2017.12[民106.12]; 頁73-86

[1] Allen, Jonathan; Hunnicutt, M. Sharon; Klatt, Dennis. From Text to Speech: The MITalk system. Cambridge University Press. 1987. ISBN 978-0-521-30641-6.

[2] Rubin, P.; Baer, T.; Mermelstein, P. An articulatory synthesizer for perceptual research. Journal of the Acoustical Society of America. 1981, 70 (2): 321–328. Bibcode:1981ASAJ...70..321R. doi:10.1121/1.386780.

[3] 柳春、於洪志（2008年）：《現代教育技術》，第26期第64頁，北京：清華大學電教中心。

[4] thub-tts-topic.

[5] LJ-Speech-Dataset.

[6] 数据描述.

[7] 数据页面. [2020-05-30].

[8] yzhang, zzw922cn/awesome-speech-recognition-speech-synthesis-papers, 2020-05-29 [2020-05-30]

[9] Blizzard Challenge 2020 - SynSIG

[10] 存档副本. [2020-05-28].

[11] 存档副本. [2020-05-28].

[12] Chang, Y. C. (2017). 以知識表徵方法建構台語聲調群剖析器 (A Knowledge Representation Method to Implement A Taiwanese Tone Group Parser)[In Chinese]. International Journal of Computational Linguistics & Chinese Language Processing; 22:2 2017.12[民106.12]; 頁73-86

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]