语音合成

求闻百科,共笔求闻

语音合成是将人类语音用人工的方式所产生。若是将电脑系统用在语音合成上,则称为语音合成器,而语音合成器可以用软/硬体所实现。文字转语音(Text-To-Speech,TTS)系统则是将一般语言的文字转换为语音,其他的系统可以描绘语言符号的表示方式,就像音标转换至语音一样[1]

而合成后的语音则是利用在资料库内的许多已录好的语音连接起来。系统则因为储存的语音单元大小不同而有所差异,若是要储存phone以及diphone的话,系统必须提供大量的储存空间,但是在语意上或许会不清楚。而用在特定的使用领域上,储存整字或整句的方式可以达到高品质的语音输出。另外,包含了声道模型以及其他的人类声音特征参数的合成器则可以创造出完整的合成声音输出[2]

一个语音合成器的品质通常是决定于人声的相似度以及语意是否能被了解。一个清晰的文字转语音程式应该提供人类在视觉受到伤害或是得到失读症时,能够听到并且在个人电脑上完成工作。从80年代早期开始,许多的电脑操作系统已经包含了语音合成器了。

历史

早在17世纪就有法国人研发机械式的说话装置。[来源请求]直到19世纪,贝尔实验室对于电子语音合成技术的研究,才开启近代语音合成技术的发展。贝尔实验室在1939年制作出第一个电子语音合成器VODER[3],是一种利用共振峰原理所制作的合成器。 1960年,瑞典语言学家G. Fant则提出利用线性预测编码技术(LPC)来作为语音合成分析技术,并推动了日后的发展。后来1980年代Moulines E和Charpentier F提出新的语音合成算法PSOLA,此技术可以合成比较自然的语音。

合成器技术

串接合成

单位选择合成

这通常是使用字词预录的方式,将各字词的发音预先录制好,经处理后存放在资料库中。使用时再将预发音的字句断成字词,再把发音的资料自资料库中取出,交由DSP去处理发音的合成。

共振峰合成

发音合成

HMM基础合成

正弦波合成

开源代码

参见 Github 语音合成主题[4]

开源代码
类别 语言 功能 名称 网址
前端Frontend 英文 文本正则化Text Normalization
转拼音G2P(Grapheme to Phoneme)
韵律预测Prosody Prediction Predicting Prosodic Prominence from Text https://github.com/Helsinki-NLP/prosody
Find prosodic events from wav https://github.com/asuni/wavelet_prosody_toolkit
中文 g2pC https://github.com/Kyubyong/g2pC
声码器Vocoder /


开源数据

英文

*LJSpeech[5]

中文

*标贝科技开源的中文女声语音合成数据[6]

*爱数智慧开源的15分钟中文童声数据[7]

粤语

暂无

经典论文

Github论文收集库:awesome-speech-recognition-speech-synthesis-papers[8]

相关比赛

含有语音合成器的软件

  • NVDA(开源多国语言萤幕报读软件
  • 台湾工研院资通所语音团队开发出的mTTS
  • JAWS(商业付费萤幕报读软件
  • 内建于苹果电脑相关产品的VoiceOver Utility
  • Android 1.6版加入支援语音合成的功能。
  • 微软在1995年开始,开发了一套Microsoft Speech API,微软的一些操作系统或软件有提供支援语音功能。
  • VOCALOIDVOICEROID,前者偏重歌唱而后者偏重 TTS。
  • 盛大游戏在2012年初,发布了Android语音合成平台聼聼中心,支援本地中英文合成及变声等服务。
  • 台语语音笔记本为台湾话的语音输出 (Taiwanese Text-to-speech) 软件。系统使用台语声调群剖析器 (Taiwanese tone group parser)[12]、语音引擎 (Speech engine) 及语音合成器 (Speech synthesizer)直接安装于个人电脑独立运作,不需链接 MS Speech SDK或 IBM TTS Engine 。使用者图行形界面包含可用台语罗马字或中文输入、有声辞典同步显示、有声读本制作、外部应用程式/网络浏览器语音输出、台语调符转换及使用中英文语词搜寻等功能 。

语音合成标记语言

参见

参考文献

  1. Allen, Jonathan; Hunnicutt, M. Sharon; Klatt, Dennis. From Text to Speech: The MITalk system. Cambridge University Press. 1987. ISBN 978-0-521-30641-6. 
  2. Rubin, P.; Baer, T.; Mermelstein, P. An articulatory synthesizer for perceptual research. Journal of the Acoustical Society of America. 1981, 70 (2): 321–328. Bibcode:1981ASAJ...70..321R. doi:10.1121/1.386780. 
  3. 柳春、于洪志(2008年):《现代教育技术》,第26期第64页,北京:清华大学电教中心。
  4. github-tts-topic. 
  5. LJ-Speech-Dataset. 
  6. 数据描述. 
  7. 数据页面. [2020-05-30]. 
  8. ponyzhang, zzw922cn/awesome-speech-recognition-speech-synthesis-papers, 2020-05-29 [2020-05-30] 
  9. Blizzard Challenge 2020 - SynSIG
  10. 存档副本. [2020-05-28]. 
  11. 存档副本. [2020-05-28]. 
  12. Chang, Y. C. (2017). 以知识表征方法建构台语声调群剖析器 (A Knowledge Representation Method to Implement A Taiwanese Tone Group Parser)[In Chinese]. International Journal of Computational Linguistics & Chinese Language Processing; 22:2 2017.12[民106.12]; 页73-86