帮助:字词转换处理

本页使用了标题或全文手工转换,现处于中国大陆简体模式
帮助页面

待春留言 | 贡献于2022年12月21日 (三) 21:06提交的版本

字词转换处理是MediaWiki软件的一项自动转换操作,目的是为不同地区的用户显示不同变体的文本。

求闻百科的读者和编者来自世界各地,他们所需求或贡献的中文语言存在许多的差异,像是简体字繁体字的差异、各地区词汇的差异、方言差异造成的书面语言的差异等等。这些中文性质集合在一起,称为“语言变体”。求闻百科并不规范读者或编者要使用何种语言变体阅读或编辑,而是尝试以电脑程序的自动转换来适应这些差异,让编者可以以自己的阅读或编写习惯提供资料,也让读者可以选择所要的资料的用字遣词。

语言变体的自动转换与MediaWiki系统本身的原理有关。大部分编者输入的文章内容,包括文字和源代码等等,都会在系统内保留完整不变的源码,不作自动转换。读者使用MediaWiki软件时,并非直接阅读源码,而是由系统将源码即时自动转换成合适的形式。语言变体转换就是众多自动转换程序中的一道。自动转换电脑程序的能力范围包括所有语言设为“中文”(而非中文的某一具体变体)的页面。

大多数时候,MediaWiki根据转换表进行转换。有的时候,则是根据编者在源码中指定的方式作自动转换,即“手动转换”。转换表就是一份列出各种不同语言变体之间,字与字或是词与词之间的对应关系的表格。目前只有拥有编辑界面权限的用户组(如管理员、界面管理员)能编辑转换表。“手动转换”仍然是在读者使用时即时作的自动转换,但是这时程序是根据编者在源码中指定的方式为优先。编者可以在编辑存档后切换至其他的语言变体查看情况。

选择语言变体

目前,MediaWiki系统支持中文的zh(中文,不转换)、zh-hant(繁体,通用)、zh-tw(中国台湾)、zh-hk(中国香港)、zh-mo(中国澳门),以及zh-hans(简体,通用)、zh-cn(中国大陆)、zh-sg(新加坡)、zh-my(马来西亚)九种语言变体。其中,zh(中文,不转换)、zh-hant(繁体)、zh-hans(简体)三种模式主要用于维护,不应当直接使用,如需使用需登录后在参数设置/小工具/显示类小工具中去除D 隐藏“不转换”、“简体”和“繁体”三个变体转换标签 了解更多的复选框才能显示。编者应该根据其所在地区选择最具体的语言变体,例如中国大陆的用户应该选择zh-cn(大陆简体)而非zh-hans(简体)。

内容的语言变体

内容语言变体可以通过如下方式设置:

  • 所有用户(无论是否已登录)都可以把URL//www.qiuwenbaike.cn/wiki/条目名称)中的 wiki 改成 zh-xx。对于//www.qiuwenbaike.cn/index.php 开头的页面,可以在URL最后加上 &variant=zh-xx (URL含有 ? 时用)或?variant=zh-xx (URL不含有 ? 时用)。其中 xx 可为 hanshantcntwhkmosgmy
  • 已登录的用户可以在参数设置中选择不同的中文语言变体;
  • 对于未登录用户,系统根据用户浏览器要求的语言设置;
  • 如果以上设定都没有,则预设为不转换。

另外,不同的皮肤(Skin)都带有了到显示语言变体页面的链接,如在Vector皮肤中,链接是在页面讨论页链接旁,使用下拉选单选择的,而共笔和Timeless皮肤则需要点击右上角的“变体”。

注意:只有页面语言为“中文”(而非某一具体变体)时才能够设置具体的语言变体。

界面语言

界面语言是独立于文章内容的语言变体的。除了中文的各种变体之外,还可以选择英文、法文等等语言。界面语言在已登录用户的偏好设定里设置。

转换技术

在技术上,求闻百科的字词转换共通过四个层级来实现:

  • MediaWiki内置的转换表,供所有基于MediaWiki软件的网站(不局限于求闻百科)进行转换;
  • MediaWiki:Conversiontable中定义的简繁和地区词转换表,供求闻百科所有页面的转换;
  • 公共转换组,供主题领域相同和相似的条目统一转换;
  • 各条目内设置的手工转换,供该条目单独使用。

其中,公共转换组和条目内手工转换人人均可编辑,而修改本地转换表则需要管理员权限,修改全局转换表需要向MediaWiki版本库提交代码。

转换表

目前,系统预设的自动转换是根据数个“转换表”。转换表就是一份表格,记载各种不同语言变体之间,字与字或是词与词之间的对应关系。

转换表分为系统默认的转换表和定制转换表。系统默认的转换表存在于MediaWiki程序中,包含最基础的文字转换,无法由求闻百科管理员来修改。定制转换表则是管理员通过Mediawiki:Conversiontable的子页面来定制的转换表。普通用户可以在字词转换处理修复请求页面提出修改转换表的建议。

定制转换表可以用来修正系统默认转换表中的错误或不足之处,这些页面可以像其他页面一样编写,但是描述转换关系需依以下格式:

 皇后 => 皇后;
 波斯尼亚 => 波士尼亞;
 萨拉热窝 => 塞拉耶佛  // Sarajevo 的翻译;
 ...

为方便显示,每条对应前可加星号(*)或井号(#),可用“//”加写注释,每条转换关系要以“;”终止。

转换表命名规则:Conversiontable/zh-cn页面用于向zh-cn的转换、Conversiontable/zh-tw页面用于向zh-tw的转换,以此类推。

这些页面更新后,其效果并不一定会即时显示出来,因为有些页面可能放在页面缓存里。要看即时效果可以用编辑预览功能。

公共转换组

公共转换组是指多个页面共享的一套转换规则,但不是所有页面都要应用这一套转换规则。例如,英文“user”这个词,在台湾一般称为“使用者”,而简体中文称为“用户”,港、澳两个特区则使用和简体一样的说法“用戶”。在与MediaWiki有关的页面,繁体中文“偏好設定”对应简体中文“参数设置”。

公共转换组是通过模块在页面内定义-{H|一条转换规则}-实现的,其本质实际上属于隐藏手工转换。

公共转换组是在Module:CGroup的子页面定义的。如需在在页面使用一个公共转换组,可以使用模板链接:{{NoteTA}}模板。具体请参考该模块和模板的文档。

手动指定转换

你可以在特定的地方指定一部分文字如何转换,或者不进行转换。

语言变体回落

语言变体回落(language variant fallback)是指如果查不到某个变体语言的规则,则会尝试查询另一个变体语言的规则。例如,显示澳门繁体(zh-mo)时,如果没有对应的规则,则会依次尝试使用繁体(zh-hant)、香港繁体(zh-hk)和台湾繁体(zh-tw)的转换规则。

MediaWiki规定的回落规则如下:

语言变体 回落语言变体
中文(未转换) 简体、繁体、大陆简体、台湾繁体、香港繁体、新加坡简体、澳门繁体、大马简体
简体 大陆简体、新加坡简体、大马简体
繁体 台湾繁体、香港繁体、澳门繁体
中国大陆简体 简体、新加坡简体、大马简体
新加坡简体 简体、大陆简体、大马简体
马来西亚简体 简体、新加坡简体、大陆简体
中国台湾繁体 繁体、香港繁体、澳门繁体
中国香港繁体 繁体、澳门繁体、台湾繁体
中国澳门繁体 繁体、香港繁体、台湾繁体

以新加坡简体为例,新加坡简体的回落规则为简体、大陆简体、大马简体,因此,

  • -{zh-hans:使用简体; zh-cn:使用大陆简体; zh-my: 使用大马简体; zh-hant: 使用繁體;}-在新加坡简体下显示为:“使用简体”。
  • -{zh-cn:使用大陆简体; zh-my: 使用大马简体; zh-hant: 使用繁體;}-在新加坡简体下显示为:“使用大陆简体”。
  • -{zh-my: 使用大马简体; zh-hant: 使用繁體;}-在新加坡简体下显示为:“使用大马简体”。
  • -{zh-hant: 使用繁體;}-在新加坡简体下显示为:“在手动语言转换规则中检测到错误”,因为没有可以回落的语言变体所以显示错误了。
  • -{H|zh-hans:使用简体; zh-cn:使用大陆简体; zh-my: 使用大马简体; zh-hant: 使用繁體;}-使用繁體显示为:“使用简体”
  • -{H|zh-cn:使用大陆简体; zh-my: 使用大马简体; zh-hant: 使用繁體;}-使用繁體显示为:“使用大陆简体”
  • -{H|zh-my: 使用大马简体; zh-hant: 使用繁體;}-使用繁體显示为:“使用大马简体”
  • -{H|zh-hant: 使用繁體;}-使用繁體显示为:“使用繁体”(因为这条规则没有回落,所以忽略了这条规则而是使用了默认转换规则)

手工转换

手工转换是指规定一部分内容的繁简转换方式,而忽略其他转换规则。其语法如下:

不转换特定内容

可以使用-{不转换的内容}-指定一部分内容不被转换。这部分内容将会忽略繁简转换。

例如:

  • 无论你是设置的什么语言,引号中的这个“-{应用程序}-”总是显示为简体,而“-{應用程式}-”总是显示为繁体。
    • 效果:无论你是设置的什么语言,引号中的这个“应用程序”总是显示为简体,而“應用程式”总是显示为繁体。

这种语法还可以用来切断用词识别。例如,繁体中文下的“應用程式”对应简体中文“应用程序”,但是“應用程-{}-式”转换为简体就是简单的“应用程式”,而不是“应用程序”。

手工转换特定内容

可以使用-{转换规则}-手动指定转换规则,例如:

  • -{zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;zh-mo:文字8;zh-my:文字9;}- 当前显示为:文字4。

根据转换规则的回落规则,你不需要指定完整的转换规则,通常只需要指定简繁体即可。例如:

  • -{zh-hans:文字2;zh-hant:文字3}- 当前显示为:文字2

如果需要避免识别为转换规则,可以使用-{R|文本}-

手工全文转换

-{A|转换规则}-用于呈现指定内容的同时,给全文应用这条转换规则

例如:-{A|zh-cn:博客; zh-hk:網誌; zh-tw:部落格;}-、博客、網誌、部落格

在不同语言下分别显示为:

不转换 博客、博客、網誌、部落格
简体 博客、博客、网志、部落格
繁体 部落格、博客、網誌、部落格
大陆简体 博客、博客、博客、博客
香港繁体 網誌、網誌、網誌、網誌
澳门繁体 網誌、網誌、網誌、網誌
新加坡简体 博客、博客、博客、博客
大马简体 博客、博客、博客、博客
台湾繁体 部落格、部落格、部落格、部落格

-{H|转换规则}-与上述类似,但是在代码出现的地方不会产生转换后的文字,称为隐藏式全文手工转换。模板链接:{{NoteTA}}就是通过这种方法实现的。

例如:-{H|zh-cn:博客; zh-hk:網誌; zh-tw:部落格;}-博客、網誌、部落格

在不同语言下分别显示为:

不转换 博客、網誌、部落格
简体 博客、网志、部落格
繁体 博客、網誌、部落格
大陆简体 博客、博客、博客
香港繁体 網誌、網誌、網誌
澳门繁体 網誌、網誌、網誌
新加坡简体 博客、博客、博客
大马简体 博客、博客、博客
台湾繁体 部落格、部落格、部落格

此外,__NOCC____NOCONTENTCONVERT__魔术字可用于禁止全文繁简转换。

全文删除转换规则

-{-|转换规则}-可用于让全文不应用某条转换规则。这种用法也是隐藏式的,代码出现的地方不会产生文字。

条目标题手工转换

-{T|标题内容}-或者-{T|转换规则}-可以为文章标题应用转换规则

此外,__NOTC__或者__NOTITLECONVERT__魔术字可用于禁止标题繁简转换。

描述转换规则

-{D|转换规则}-可产生一段以各语言变体描述一条转换规则的文字。例如:

  • -{D|文字}-当前显示为:
    • 文字
  • -{D|zh-hans:文字2;zh-hant:文字3;}-当前显示为:
    • 简体:文字2;繁體:文字3;
  • -{D|zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;zh-mo:文字8;zh-my:文字9;}-当前显示为:
    • 原文:文字1;简体:文字2;繁體:文字3;大陆:文字4;臺灣:文字5;香港:文字6;新加坡:文字7;澳門:文字8;大马:文字9;

自动转换的能力范围

MediaWiki的很多页面都可进行自动转换,但是仍有很多例外。

页面分类

目前自动转换电脑程序的能力范围不只是百科的条目文章,也包括页面分类等等页面。因此除非特别指定,否则条目标题或是子分类标题的分类是根据经过自动转换之后的结果来分类。然而在此的自动转换和别处不同,仅仅是简单的“繁简转换”,并没有进一步转换。

实例:美国政治人物John Kerry分别有“约翰·克里”、“約翰·克里”与“約翰·凱利”的不同译名。译名的关系已加入转换表,而条目的源码中并没有特别指定不转换,所以阅读者使用维基系统时,并非直接阅读源码,而是由系统将源码自动转换成合适的形式。但是在页面分类中的自动转换和别处不同,仅仅是简单的“繁简转换”,并没有进一步转换。

软件问题

分类通常不可使用重定向功能。

内部链接、URL、重定向与搜索

虽然源码一般不做转换。只有程序产生出来的页面有经过转换。

用字自动转换电脑程序的能力范围不包括求闻百科的URL与搜索功能。百科的系统不会对URL之中的汉字(有时是Punycode的代号形式),或是输入搜索功能的查询字符串作用字转换。

重定向页的内容不会受到自动转换电脑程序影响。

本百科的条目名称搜索(“进入”)受到自动转换电脑程序影响。本百科的条目全文搜索(“搜索”)不会受到自动转换电脑程序影响。

本百科之外的搜索引擎,如百度、谷歌,可能有自己的自动转换电脑程序。目前已知搜索时会作简单的繁简转换。当需要创建繁简重定向页的时候,创建新条目的方式往往无法奏效。

注意事项

标题不可繁简混用

文章标题(即页面名称)必须全简体或繁体,否则系统无法正确转换。例如“中國历史”就是错误的(正确写法为“中国历史”或“中國歷史”)。

避免忽略了地区词转换的繁简转换

一些词语存在地区词的差别,例如繁体“作業系統”和简体“操作系统”。在公共转换组的影响下,这些词汇可以正常转换,但如果使用混用的写法,如繁体词汇的简体写法“作业系统”,或者简体词汇的繁体写法“操作系統”,则可能无法正确转换。因此,除非十分了解繁简差异,否则在编辑极易出现繁简词汇差异的条目时,用户应当使用自己熟悉和习惯的语言变体添加内容,避免因对非习惯的语言变体忽略了词汇差异而导致加入了无法正常繁简转换的内容。

参见