语音合成:修订间差异

求闻百科,共笔求闻
添加的内容 删除的内容
无编辑摘要
(机器人:清理不当的来源、移除无用的模板参数;整理源码)
 
第1行: 第1行:
'''语音合成'''是将人类语音用人工的方式所产生。若是将电脑系统用在语音合成上,则称为语音合成器,而语音合成器可以用軟/硬体所实现。文字转语音(Text-To-Speech,TTS)系统则是将一般语言的文字转换为语音,其他的系统可以描绘语言符号的表示方式,就像音标转换至语音一样<ref>{{Cite book |first1=Jonathan |last1=Allen |first2=M. Sharon |last2=Hunnicutt |first3=Dennis |last3=Klatt |title=From Text to Speech: The MITalk system |publisher=Cambridge University Press |year=1987 |isbn=978-0-521-30641-6 |registration=yes |}}</ref>。
'''语音合成'''是将人类语音用人工的方式所产生。若是将电脑系统用在语音合成上,则称为语音合成器,而语音合成器可以用軟/硬体所实现。文字转语音(Text-To-Speech,TTS)系统则是将一般语言的文字转换为语音,其他的系统可以描绘语言符号的表示方式,就像音标转换至语音一样<ref>{{Cite book |first1=Jonathan |last1=Allen |first2=M. Sharon |last2=Hunnicutt |first3=Dennis |last3=Klatt |title=From Text to Speech: The MITalk system |publisher=Cambridge University Press |year=1987 |isbn=978-0-521-30641-6 |registration=yes }}</ref>。


而合成后的语音则是利用在资料库内的许多已录好的语音连接起来。系统则因为储存的语音单元大小不同而有所差异,若是要储存phone以及diphone的话,系统必须提供大量的储存空间,但是在语意上或许会不清楚。而用在特定的使用领域上,储存整字或整句的方式可以达到高品质的语音输出。另外,包含了声道模型以及其他的人类声音特征参数的合成器则可以创造出完整的合成声音输出<ref>{{Cite journal | doi = 10.1121/1.386780 | last1 = Rubin | first1 = P. | last2 = Baer | first2 = T. | last3 = Mermelstein | first3 = P. | year = 1981 | title = An articulatory synthesizer for perceptual research | journal = Journal of the Acoustical Society of America | volume = 70 | issue = 2| pages = 321–328 | bibcode = 1981ASAJ...70..321R }}</ref>。
而合成后的语音则是利用在资料库内的许多已录好的语音连接起来。系统则因为储存的语音单元大小不同而有所差异,若是要储存phone以及diphone的话,系统必须提供大量的储存空间,但是在语意上或许会不清楚。而用在特定的使用领域上,储存整字或整句的方式可以达到高品质的语音输出。另外,包含了声道模型以及其他的人类声音特征参数的合成器则可以创造出完整的合成声音输出<ref>{{Cite journal | doi = 10.1121/1.386780 | last1 = Rubin | first1 = P. | last2 = Baer | first2 = T. | last3 = Mermelstein | first3 = P. | year = 1981 | title = An articulatory synthesizer for perceptual research | journal = Journal of the Acoustical Society of America | volume = 70 | issue = 2| pages = 321–328 | bibcode = 1981ASAJ...70..321R }}</ref>。


一个语音合成器的品质通常是決定于人声的相似度以及语意是否能被了解。一个清晰的文字转语音程式应该提供人类在视觉受到伤害或是得到失读症时,能够聽到并且在个人电脑上完成工作。从80年代早期开始,许多的电脑操作系统已经包含了语音合成器了。
一个语音合成器的品质通常是決定于人声的相似度以及语意是否能被了解。一个清晰的文字转语音程式应该提供人类在视觉受到伤害或是得到失读症时,能够聽到并且在个人电脑上完成工作。从80年代早期开始,许多的电脑操作系统已经包含了语音合成器了。

== 文字处理的概观 ==


== 历史 ==
== 历史 ==
第16行: 第14行:
==== 单位选择合成 ====
==== 单位选择合成 ====
这通常是使用字词預录的方式,将各字词的发音預先录制好,经处理后存放在资料库中。使用时再将預发音的字句断成字词,再把发音的资料自资料库中取出,交由[[数位讯号处理器|DSP]]去处理发音的合成。
这通常是使用字词預录的方式,将各字词的发音預先录制好,经处理后存放在资料库中。使用时再将預发音的字句断成字词,再把发音的资料自资料库中取出,交由[[数位讯号处理器|DSP]]去处理发音的合成。
==== Diphone合成 ====
==== Domain-specific合成 ====
=== 共振峰合成 ===
=== 共振峰合成 ===
{{see|共振峰}}
{{see|共振峰}}
第28行: 第24行:


== 开源代码 ==
== 开源代码 ==
参见 Github 语音合成主题<ref>{{Cite web|title=github-tts-topic|url=https://github.com/topics/tts|accessdate=|author=|date=|format=|publisher=|language=|||}}</ref>
参见 Github 语音合成主题<ref>{{Cite web|title=github-tts-topic|url=https://github.com/topics/tts|accessdate=|author=|date=|format=|publisher=|language=}}</ref>
{| class="wikitable sortable mw-collapsible"
{| class="wikitable sortable mw-collapsible"
|+开源代码
|+开源代码
第70行: 第66行:


=== 英文 ===
=== 英文 ===
<nowiki>*</nowiki>LJSpeech<ref>{{Cite web|title=LJ-Speech-Dataset|url=https://keithito.com/LJ-Speech-Dataset/|accessdate=|author=|date=|format=|publisher=|language=|||}}</ref>
<nowiki>*</nowiki>LJSpeech<ref>{{Cite web|title=LJ-Speech-Dataset|url=https://keithito.com/LJ-Speech-Dataset/|accessdate=|author=|date=|format=|publisher=|language=}}</ref>


=== 中文 ===
=== 中文 ===
<nowiki>*</nowiki>标贝科技开源的中文女声语音合成数据<ref>{{Cite web|title=数据描述|url=http://www.data-baker.com/open_source.html|accessdate=|author=|date=|format=|publisher=|language=|||}}</ref>
<nowiki>*</nowiki>标贝科技开源的中文女声语音合成数据<ref>{{Cite web|title=数据描述|url=http://www.data-baker.com/open_source.html|accessdate=|author=|date=|format=|publisher=|language=}}</ref>


<nowiki>*</nowiki>爱数智慧开源的15分钟中文童声数据<ref>{{Cite web|title=数据页面|url=https://www.magicdatatech.cn/opens/3266.html|accessdate=2020-05-30|author=|date=|format=|publisher=|language=}}</ref>
<nowiki>*</nowiki>爱数智慧开源的15分钟中文童声数据<ref>{{Cite web|title=数据页面|url=https://www.magicdatatech.cn/opens/3266.html|accessdate=2020-05-30|author=|date=|format=|publisher=|language=}}</ref>
第81行: 第77行:


== 经典论文 ==
== 经典论文 ==
Github论文收集库:awesome-speech-recognition-speech-synthesis-papers<ref>{{Citation|title=zzw922cn/awesome-speech-recognition-speech-synthesis-papers|url=https://github.com/zzw922cn/awesome-speech-recognition-speech-synthesis-papers|date=2020-05-29|accessdate=2020-05-30|last=ponyzhang|||}}</ref>
Github论文收集库:awesome-speech-recognition-speech-synthesis-papers<ref>{{Citation|title=zzw922cn/awesome-speech-recognition-speech-synthesis-papers|url=https://github.com/zzw922cn/awesome-speech-recognition-speech-synthesis-papers|date=2020-05-29|accessdate=2020-05-30|last=ponyzhang}}</ref>


== 相关比赛 ==
== 相关比赛 ==
* [[Blizzard Challenge]]<ref>[https://www.synsig.org/index.php/Blizzard_Challenge_2020 Blizzard Challenge 2020 - SynSIG<!-- 机器人生成的标题 -->]</ref><ref>{{Cite web |url=http://www.festvox.org/blizzard/ |title=存档副本 |accessdate=2020-05-28 |||}}</ref>
* [[Blizzard Challenge]]<ref>[https://www.synsig.org/index.php/Blizzard_Challenge_2020 Blizzard Challenge 2020 - SynSIG<!-- 机器人生成的标题 -->]</ref><ref>{{Cite web |url=http://www.festvox.org/blizzard/ |title=存档副本 |accessdate=2020-05-28 }}</ref>
* [[voice conversion]]<ref>{{Cite web |url=http://www.vc-challenge.org/ |title=存档副本 |accessdate=2020-05-28 |||}}</ref>
* [[voice conversion]]<ref>{{Cite web |url=http://www.vc-challenge.org/ |title=存档副本 |accessdate=2020-05-28 }}</ref>


== 含有语音合成器的软件 ==
== 含有语音合成器的软件 ==
第120行: 第116行:
{{Differentiable computing}}
{{Differentiable computing}}
{{DEFAULTSORT:Speech synthesis}}
{{DEFAULTSORT:Speech synthesis}}
[[Category:语音合成]]
[[Category:语音合成| ]]