帮助:字词转换处理

本页使用了标题或全文手工转换,现处于中国大陆简体模式
帮助页面

求闻编者留言 | 贡献于2022年6月13日 (一) 08:00提交的版本 (网站升级迁移)

(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)

字词转换处理是求闻百科的一项自动转换操作,目的是以电脑程序适应不同用字、用词模式的差异。

求闻百科的读者和编者来自世界各地。他们所需求或贡献的中文在性质上有许许多多的差异,像是简化字繁体字的差异、各地区词汇的差异、方言差异造成的书面语言的差异等等。MediaWiki将这些中文性质集合在一起,称为“用字模式”。可以说:一种用字模式就是某些中文性质的一个集合。为了集成读者和编者多元的资源,也为了促进各方的交流,本百科并不规范读者或编者要使用何种用字模式,而是尝试以计算机程序的自动转换来适应这些差异,让编者可以以自己的用字习惯提供资料,也让读者可以选择所要的资料的用字遣词。因此编辑和阅读求闻百科时有特别的事项需要注意。事实上,就连本页尝试说明的事项,也有许多模糊之处。

用字模式自动转换与MediaWiki系统本身的原理有关。大部分编者录入系统的文章内容,包括文字和源代码语法等等(在此统称为源代码)。维基系统通常会保留完整不变的源代码,不作自动转换。读者使用维基系统时,并非直接阅读源代码,而是由系统将源代码即时自动转换成合适的形式,例如加上图片、超链接等等。而求闻百科的用字模式转换就是众多自动转换程序中的一道。自动转换计算机程序的能力范围不只是百科的条目文章,也包括页面分类等等页面。

大多数时候(默认情况),维基程序是根据转换表进行转换。有的时候,则是根据编者在源代码中指定的方式作自动转换,包括不转换或是所谓“手动转换”。转换表就是一份列出各种不同用字模式之间,字与字或是词与词之间的对应关系的表格。目前只有管理员能编辑转换表。所谓“手动转换”仍然是维基系统在读者使用时即时作的自动转换,但是这时程序是根据编者在源代码中指定的方式为优先。编者可以在编辑存档后切换至其他用字模式查看情况。

用字模式选择

目前,MediaWiki系统支持中文的zh(中文用字)、zh-hant(繁体用字)、zh-tw(台湾用字)、zh-hk(香港用字)、zh-mo(澳门用字),以及zh-hans(简体用字)、zh-cn(中国大陆用字)、zh-sg(新加坡用字)、zh-my(马来西亚用字)九种用字模式。zh(中文用字,即不转换)、zh-hant(繁体用字)、zh-hans(简体用字)三种模式主要用于维护,编辑需注册后在参数设置/小工具/显示类小工具中去除隐藏“不转换”、“简体”和“繁体”三个标签的复选框才能显示。要

文章主体正(繁)体/简体选择(按优先级):

  • 所有人都可以把URLhttps://www.qiuwenbaike.cn/wiki/条目名称)中的 wiki 改成 zh-xx。对于https://www.qiuwenbaike.cn/index.php 开头的页面,可以在URL最后加上 &variant=zh-xx (URL含有 ? 时用)或?variant=zh-xx (URL不含有 ? 时用)。其中 xx 可为 hanshantcntwhkmosgmy
  • 已登录的用户可以在个人偏好里选择不同的中文语言;
  • 对匿名用户,系统根据用户浏览器要求的语言设置。参见此处
  • 如果以上设置都没有,则默认为不转换。

另外,不同的面板(Skin)都增加了到各个用字模式的链接,如现在的Vector面板,链接是在页面讨论页链接旁,使用下拉菜单选择的。

界面的用字模式

界面的用字模式是独立于文章内容的用字模式的。除了中文的各种用字模式,还可以选择英文、法文等等语言。界面用字模式在已登录用户的个人偏好里设置。

转换技术

在技术上,求闻百科的字词转换共通过四个层级来实现:其一是MediaWiki内置的转换表,供所有MediaWiki网站进行转换;其二是在MediaWiki:Conversiontable中定义的简繁和地区词转换表,供求闻百科本地全局转换;其三是各公共转换组,供主题领域相同和相似的条目统一转换;其四是各条目内设置的手工转换,供该条目单独使用。其中,公共转换组和条目内手工转换人人均可编辑,而修改本地转换表则需要管理员权限,修改全局转换表需要向MediaWiki版本库提交代码。因此,如欲新增或修复全局及本地全局转换,一般用户需在字词转换处理页面提出请求,交由管理员协助处理。

转换表

目前,系统默认的自动转换是根据数个“转换表”。转换表就是一份表格,记载各种不同用字模式之间,字与字或是词与词之间的对应关系。又叫系统默认转换表。目前只有管理员能编辑定制转换表,一般人可以向管理员提出申请。

系统默认转换表

系统默认的转换表存在于MediaWiki程序中。

定制转换表

管理员可以通过Mediawiki:Conversiontable来定制转换表。普通用户可以在字词转换处理修复请求页面提出修改转换表的建议。定制转换表可以用来修正系统默认转换表里的错误。这些页面可以象其他页面一样编写,但是描述转换关系需依以下格式:

 皇后 => 皇后;
 波斯尼亚 => 波斯尼亚;
 萨拉热窝 => 萨拉热窝  // Sarajevo 的翻译;
 ...

为方便显示,每条对应前可加星号(*)或井号(#),可用“//”加写注释,注意每条转换关系要以“;”终止。

转换表命名规则:Conversiontable/zh-cn页面用于向zh-cn的转换、Conversiontable/zh-tw页面用于向zh-tw的转换,以此类推。

这些页面更新后,其效果并不一定会即时显示出来,因为有些页面可能放在页面缓存里。要看即时效果可以用编辑预览功能。

关于-{}-标记

例如:“张国荣曾在英国利兹大学学习。”所用的标记是[[利兹大學|-{zh:利兹;zh-hans:利兹;zh-hk:列斯;zh-tw:里茲}-大学]]

参见本页“禁止自动转换一段文字的标签”。

-{}-标记现已可完整支持链接、模板、图像的转换。对HTML属性的转换请使用模板链接:{{lan}}。

源代码一般不做转换

大部分编者录入系统的文章内容,包括文字和维基语法等等,在此称为源代码。维基系统通常会保留完整不变的源代码,不会对源代码作自动转换。

断词问题——自动转换程序常见的问题

注意:求闻百科不保证用字模式自动转换程序和内容的正确性。用字模式自动转换并不一定正确,甚至可以说是各种自动转换中问题最多的。

转换程序使用最简单的“最大匹配法”进行转换。这会导致如下的错误:假设转换表中有一对应关系为

内存 => 記憶體

现对以下句子作转换

人体内存在很多微生物

基于最大匹配,系统会对“内存”进行转换,得到“記憶體”。整个句子将会被错误地转换成

人體記憶體在很多微生物

解决这个问题的根本方法是采用智能的分词匹配,将上述句子先拆分为

人体 内 存在 很多 微生物

然后再对每个词单独转换。

在具有这种智能的分词系统没有实现之前,要修正上述错误,可以有两种方法:

  1. 手工将涉及分词错误的词分开:人体内-{}-存在很多微生物
  2. 将涉及分词错误的多个词作为整体加到定制转换表里,如“体内存在 => 體內存在”。(注:目前只有管理员能编辑转换表,一般人可以向管理员提出申请。)

这就是分词的错误。阅读本百科时请多加注意。遇到可疑的部分可以前往编辑页面去查源代码,或是多多留意不同用字模式之间的转换关系,以养成自行“反转换”的能力。

控制自动转换的代码

出于特殊的需要,可以用以下的语法设置不自动转换,或是“手工转换”

设置了所谓“手工转换”,其实维基系统仍然会在阅读者使用时根据系统默认转换表作自动转换,但是这时系统还会根据编者在源码中指定(增添)的方式作转换,并且将编者的方式优先排在转换表所列出的方式之前。也就是由编者自行增添转换方式。

常用的转换工具语法

  • 禁止自动转换一段文字的标签
    -{文字}-
    效果:文字
    对于-{}-中的文字为转换规则(比如:“zh:中文”),但又希望保持原样,可以用:
    -{R|文字}-
    效果:文字
  • 禁止自动转换一段文字整体的标签
    文-{}-字
    但分隔在-{}-两侧的文字仍作字词转换。实质上是切断文字,分别转换。
    可用于希望保留地区词用法但依然进行简繁转换的场合,通过打断词语使全局转换规则不能识别希望保留的地区词。
    效果:
    繁体:舊-{}-金山,香港稱-{三藩市}-。
    简体:旧-{}-金山,香港称-{三藩市}-。
  • 手工转换一段文字的标签(局部性自行增添转换方式标签):
    -{zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;zh-mo:文字8;}-
    效果:文字4
  • 全文手工转换标签(全面性自行增添转换方式标签):
    -{A|zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;zh-mo:文字8;}-
    效果:文字4
  • 隐藏式全文手工转换标签(全面性自行增添转换方式标签):
    -{H|zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;zh-mo:文字8;}-
    效果:文字4
  • 全文手工删除转换标签(从全局转换表中删除某个规则,在该页面中不再以该规则转换):
    -{-|zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;zh-mo:文字8;}-
    效果:文字1
  • 条目标题手工转换标签
    -{T|文字}-
    -{T|zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;zh-mo:文字8;}-
  • 转换规则描述标签(将该规则用人易读的方式显示出来):
    -{D|zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;zh-mo:文字8;}-
    效果:原文:文字1;简体:文字2;繁體:文字3;大陆:文字4;臺灣:文字5;香港:文字6;新加坡:文字7;澳門:文字8;
  • 用字模式名称标签(将某种语言的代码转换成文字描述):
    -{N|zh-cn}-
    效果:大陆
  • 仅转换指定语言
    -{zh-hans;zh-hant|文字}-
    效果:文字
    若为zh-hans;zh-hant则显示转换后的文字,否则单纯显示不转换的文字。有沿溯(fallback)的限制,MediaWiki 1.15新增功能。此功能可用于需要避免地区词转换,但允许繁简转换的场合。比如模板链接:{{Infobox Film}}中的各地片名部分。
  • 全文禁止自动转换
    __NOCC____NOCONTENTCONVERT__
  • 条目标题禁止自动转换
    __NOTC__ 或__NOTITLECONVERT__

条目标题

有时文章的标题不需要转换,如维基词典里的单字,或如《计算机世界报》之类的专有名词。在这种情况下,可以在文章中加一__NOTC____NOTITLECONVERT__(注意前后都是两道下划线)来禁止对该文章标题的转换。然而,在求闻百科,由于可能的简繁不同体问题(如“计算机世界报”和“計算機世界報”),我们不推荐使用这两个标签,而推荐使用下文中的“-{T|}-”转换。

注意:这个标记应放在文章开头。

有时,一篇文章的标题里,可能含有各地区认知不同或翻译方式差异很大的辞汇,但因为某些理由不适合通过修改转换表来达成自动转换的目的,通常是因为一些常用字。如果贸然修改转换表,可能会造成更多地方产生错误。这种情况下可以有两种方法处理,我们推荐后一种:

  1. 在文章内使用标题转换来指明标题的正确显示:-{T|标题}--{T|zh:中文用字; zh-hans:简体用字; zh-sg:新加坡用字}-
  2. 在文章内使用全文手工转换:-{A|标题}--{A|zh:中文用字; zh-hans:简体用字; zh-sg:新加坡用字}-

实例:美国政治家John Kerry分别有“约翰·克里”、“約翰·凱利”与“約翰·克里”的不同译名,但如果在转换表中进行“克里<=>凱利”的互换,那么欧洲地名“克里米亚”与“克里姆林宫”将会变成“凱利米亚”与“凱利姆林宫”的错误情况,为了避免制造更多的混乱,这情况比较适合在约翰·克里的条目中以手工转换标签修正标题与内文部分的相关译名。

注意:该标记仅仅是指明文章显示时对标题的转换,而不能自动处理链接时的转换。所以使用该标记时切记要通过重定向将各种用字模式的同一标题指向该文章。如约翰·凯利

全文禁止自动转换

有时通篇文章都需要不转换,例如讨论繁体/简体的文章。在这种情况下,可以在文章中加一 __NOCC____NOCONTENTCONVERT__(注意前后都是两道下划线)来禁止对该文章内容的转换。不过,在求闻百科,为了便于各地读者阅读,我们不建议禁止除字词转换相关页面以外页面的全文自动转换。

注意:这个标记要放在文章最开始的地方。

自动转换的能力范围

本百科很多页面都可进行自动转换。但是仍有很多例外。例如最近更新页面Special:Recentchanges这样的特殊页面,就有一部分是不转换的。

页面分类

目前自动转换计算机程序的能力范围不只是百科的条目文章,也包括页面分类等等页面。因此除非特别指定,否则条目标题或是子分类标题的分类是根据经过自动转换之后的结果来分类。然而在此的自动转换和别处不同,仅仅是简单的“繁简转换”,并没有进一步转换。

实例:美国政治人物John Kerry分别有“约翰·克里”、“約翰·克里”与“約翰·凱利”的不同译名。译名的关系已加入转换表,而条目的源代码中并没有特别指定不转换,所以阅读者使用维基系统时,并非直接阅读源代码,而是由系统将源代码自动转换成合适的形式。但是在页面分类中的自动转换和别处不同,仅仅是简单的“繁简转换”,并没有进一步转换。

在分类页Category:美国政治人物之中,如果读者选择中国大陆用字新加坡用字模式,将看到约翰·克里的条目归类在“约”字之下的约翰·克里:

而选择台湾用字香港用字的读者则会看到这条目归类在繁体的“約”字之下,然而条目名称是約翰·凱利:

子分类也是一样。

软件问题

分类通常不可使用重定向功能。

内部链接、URL、重定向与搜索

虽然源代码一般不做转换。只有程序产生出来的页面有经过转换。

用字自动转换电脑程序的能力范围不包括求闻百科的URL与搜索功能。百科的系统不会对URL之中的汉字(有时是Punycode的代号形式),或是录入搜索功能的查询字符串作用字转换。

重定向页的内容不会受到自动转换电脑程序影响。

本百科的条目名称搜索(“进入”)受到自动转换电脑程序影响。 本百科的条目全文搜索(“搜索”)不会受到自动转换电脑程序影响。

本百科之外的搜索引擎Google可能有自己的自动转换电脑程序。目前已知搜索时会作简单的繁简转换。当需要创建繁简重定向页的时候,创建新条目的方式往往无法奏效。

如何创建繁简重定向页

登录的用户可以使用移动页面功能来创建繁简重定向页。比方说,假设现在有个名为“沈阳市”的条目,而你想要创建从“瀋陽市”到“沈阳市”的重定向页,那么应该要进行两次移动:

  1. 将“沈阳市”移动到“瀋陽市”。
  2. 将“瀋陽市”移动到“沈阳市”。

其结果将是“沈阳市”的条目维持原状,而“瀋陽市”成为指向“沈阳市”的重定向页。

第二次移动看似多余,但会带来好处:一旦条目名称改变,原本指向该条目的链接虽会以重定向的方式指向正确的条目,但长期来说所有重定向链接都应该用直接链接取代。修改所有这些链接会增加求闻百科的维护成本,比起此种额外负担,将条目保持原有名称会是更有效率的作法。

另一种较简单的办法是,在网址列输入https://zh.qiuwen.wiki/wiki/瀋陽市?action=edit,这样您就可以直接创建重定向页,而不必经过两次移动了。

编辑一般文章时的注意事项

  • 避免繁简混杂、或以繁/简体打出简/繁体用词,文章内容及标题(包括分类标题)必须全简体或繁体,例如对“中國历史”(正确写法为“中国历史”或“中國歷史”)和“操作系統”(正确写法为“作業系統”或“操作系统”),系统可能无法作出正确的转换。如果为单纯繁简转换(如前者),尚可能成功;但若为使用繁体文字打出简体词汇(如后者),则转换通常注定失败。因此,除非十分了解繁简差异,否则在编辑极易出现繁简差异的条目(例如电脑相关的条目)时,请简体中文用户不要使用繁体字录入、繁体中文用户不要使用简体字录入。

参见

Template:帮助导航

页面来源CC BY-SA 3.0