Unicode：修订间差异 - 求闻百科，共笔求闻

（未显示4个用户的8个中间版本）

下文是求闻百科的历史内容，而非最新内容，不代表求闻百科的立场。
若历史内容含有不良信息，请点此报告；参见投诉举报处理方针。

第13行：

| lang = 全球性

| status =

| encodings = [[UTF-8]], [[UTF-16]], [[GB 18030|GB18030]] '''不常用''': [[UTF-32]], [[统一碼二进制有序压缩|BOCU]], [[统一碼标準压缩方案|SCSU]] '''已淘汰''': [[UTF-7]]

| encodings = [[UTF-8]], [[UTF-16]], [[GB 18030|GB18030]] '''不常用''': [[UTF-32]], [[统一碼二进制有序压缩|BOCU]], [[统一碼标準压缩方案|SCSU]] '''已淘汰''': [[UTF-7]]

| encodes =

| extends =

第26行：

'''Unicode'''，[[统一碼联盟|联盟]]官方中文名称为'''统一-{}-碼'''<ref>{{cite web |title=About Unicode Terminology |url=https://unicode.org/terminology/about_term.html |website=unicode.org |accessdate=2021-03-25}}</ref>，是[[电脑科学]]领域的业界标準。它整理、编碼了世界上大部分的[[文字系统]]，使得电脑可以用更为简单的方式来呈现和处理文字。

Unicode伴随着[[通用字符集]]的标準而发展，同时也以书本的形式<ref>{{cite book |author= ||coauthors= |title=The Unicode Standard |year= |publisher=Addison-Wesley Professional |location= |isbn=0321480910 |edition=第五版}}</ref>对外发表。Unicode至今仍在不断增修，每个新版本都加入更多新的字符。目前最新的版本为~~2021~~年9月公布的14.0.0<ref>{{Cite web |url=https://unicode.org/versions/Unicode13.0.0/ |title=存档副本 |accessdate=2020-04-13 ~~|||~~}}</ref>，已经收录~~超过14~~万个[[字符 (计算机科学)|字符]]（第十万个字符在2005年获采纳）。Unicode除了视觉上的字形、编碼方法、标準的[[字符编碼]]资料外，还包含了字符特性（如大小写字母）、书写方向、拆分标准等特性的资料库。

Unicode伴随着[[通用字符集]]的标準而发展，同时也以书本的形式<ref>{{cite book |author= ||coauthors= |title=The Unicode Standard |year= |publisher=Addison-Wesley Professional |location= |isbn=0321480910 |edition=第五版}}</ref>对外发表。Unicode至今仍在不断增修，每个新版本都加入更多新的字符。目前最新的版本为2023年9月公布的15.1.0<ref>{{Cite web |url=https://unicode.org/versions/Unicode13.0.0/ |title=存档副本 |accessdate=2020-04-13 }}</ref>，已经收录将近15万个[[字符（计算机科学）|字符]]（第十万个字符在2005年获采纳）。Unicode除了视觉上的字形、编碼方法、标準的[[字符编碼]]资料外，还包含了字符特性（如大小写字母）、书写方向、拆分标准等特性的资料库。

Unicode的发展由非营利机构统一碼联盟负责，该机构致力于让Unicode方案取代既有的字符编碼方案。因为既有的方案往往空间非常有限，亦不适用于[[多语]]环境。

Unicode备受认可，并广泛地应用于电脑软件的[[国际化与本地化]]过程。有很多新科技，如[[可扩展置标语言]]（Extensible Markup Language，简称：XML）、[[Java|Java程式语言]]以及现代的[[作业系统]]，都采用Unicode编碼。Unicode也被[[ISO]]作为国际标准采纳于[[通用字符集]]，即 ISO/IEC 10646，且Unicode兼容ISO/IEC 10646且完整对应各个版本标准。<ref name="Unicode-technical-intro">{{cite web |title=Technical Introduction |url=https://www.unicode.org/standard/principles.html |website=www.unicode.org |accessdate=2021-10-03}}</ref><ref>{{cite web |title=FAQ - Unicode and ISO 10646 |url=https://www.unicode.org/faq/unicode_iso.html |website=www.unicode.org |accessdate=2021-10-03}}</ref>

Unicode备受认可，并广泛地应用于电脑软件的[[国际化与本地化]]过程。有很多新科技，如[[可扩展标记语言|可扩展置标语言]]（Extensible Markup Language，简称：XML）、[[Java|Java程式语言]]以及现代的[[操作系统]]，都采用Unicode编碼。Unicode也被[[国际标准化组织|ISO]]作为国际标准采纳于[[通用字符集]]，即 ISO/IEC 10646，且Unicode兼容ISO/IEC 10646且完整对应各个版本标准。<ref name="Unicode-technical-intro">{{cite web |title=Technical Introduction |url=https://www.unicode.org/standard/principles.html |website=www.unicode.org |accessdate=2021-10-03}}</ref><ref>{{cite web |title=FAQ - Unicode and ISO 10646 |url=https://www.unicode.org/faq/unicode_iso.html |website=www.unicode.org |accessdate=2021-10-03}}</ref>

== 起源与发展 ==

Unicode为解决传统[[字元编碼]]方案的侷限而产生，例如[[ISO/IEC 8859|ISO 8859-1]]所定义的字元虽然在不同的国家中广泛地使用，可是在不同国家间卻经常出现不相容的情況。很多传统的编碼方式都有共同的问题，即容许电脑处理双语环境（通常使用[[拉丁字母]]以及其本地语言），但卻无法同时支援多语言环境（指可同时处理多种语言混合的情況）。

Unicode编碼包含了不同写法的字，如“{{Unicode|ɑ}}／{{Unicode|a}}”、“-{强／强}-”、“-{户／户／戸}-”。然而在[[汉字]]方面引起了一字多形的认定争议，詳见[[中日韩统一表意文字]]。

Unicode编碼包含了不同写法的字，如“{{Unicode|ɑ}}／{{Unicode|a}}”、“-{强／强}-”、“-{户／户／戸}-”。然而在[[汉字]]方面引起了一字多形的认定争议，詳见[[中日韓統一表意文字|中日韩统一表意文字]]。

在文字处理方面，统一碼为每一个字符而非字形定义唯一的代碼（即一个整数）。换句话说，统一碼以一种抽象的方式（即数字）来处理字符，并将视觉上的演繹工作（例如字体大小、外观形狀、字体形态、文体等）留給其他軟件来处理，例如网頁浏览器或是文字处理器。

目前，几乎所有电脑系统都支持基本拉丁字母，并各自支持不同的其他编碼方式。Unicode为了和它们相互兼容，其首256个字元保留給ISO 8859-1所定义的字元，使既有的西欧语系文字的转换不需特别考量；并且把大量相同的字元重复编到不同的字元碼中去，使得旧有紛杂的编碼方式得以和Unicode编碼间互相直接转换，而不会遺失任何资讯。举例来说，[[全形]]格式区段包含了主要的拉丁字母的全形格式，在中文、日文、以及韩文字形当中，这些字元以全形的方式来呈现，而不以常见的半形形式显示，这对豎排文字和等宽排列文字有重要作用。

目前，几乎所有电脑系统都支持基本拉丁字母，并各自支持不同的其他编碼方式。Unicode为了和它们相互兼容，其首256个字元保留給ISO 8859-1所定义的字元，使既有的西欧语系文字的转换不需特别考量；并且把大量相同的字元重复编到不同的字元碼中去，使得旧有紛杂的编碼方式得以和Unicode编碼间互相直接转换，而不会遺失任何资讯。举例来说，[[全角和半角|全形]]格式区段包含了主要的拉丁字母的全形格式，在中文、日文、以及韩文字形当中，这些字元以全形的方式来呈现，而不以常见的半形形式显示，这对豎排文字和等宽排列文字有重要作用。

在表示一个Unicode的字元时，通常会用“U+”然后緊接着一组十六进位的数字来表示这一个字元。在[[基本多文种平面]]裏的所有字元，要用四个数字（即2位元组，共16位元，例如U+4AE0，共支持六万多个字符）；在零号平面以外的字元则需要使用五或六个数字。旧版的Unicode标準使用相近的标记方法，但卻有些微小差异：在Unicode 3.0裏使用“U-”然后緊接着八个数字，而“U+”则必须随后緊接着四个数字。

=== 标準 ===

位于美国加州的Unicode组织允许任何愿意支付会费的公司和个人加入，其成员包含了主要的电脑軟硬体厂商，例如[[Adobe ~~Systems~~|Adobe系统]]、[[苹果公司]]、[[惠普]]、[[IBM]]、[[微軟]]、[[施乐]]等。

位于美国加州的Unicode组织允许任何愿意支付会费的公司和个人加入，其成员包含了主要的电脑軟硬体厂商，例如[[Adobe|Adobe系统]]、[[苹果公司]]、[[惠普]]、[[IBM]]、[[微軟]]、[[施乐]]等。

20世纪80年代末，组成Unicode组织的商业机构，和国际合作的[[国际标準化组织]]因为电脑普及和资讯国际化的前提下，分别各自成立了Unicode组织<ref>{{Cite web |url=http://www.unicode.org/ |title=Unicode |accessdate=2004-04-02 ~~|||~~}}</ref>和ISO-10646工作小组。他们不久便发现对方的存在，大家为著相同的目的而工作。1991年，Unicode Consortium与ISO/IEC JTC1/SC2同意保持Unicode碼-{表}-与ISO 10646标準保持兼容并密切协调各自标準进一步的扩展。虽然实际上两者的字集编碼相同，但实质上两者确实为两个不同的标準。Unicode 1.1对应于ISO 10646-1:1993，Unicode 3.0对应于ISO 10646-1:2000，Unicode 3.2对应于ISO 10646-2:2001，Unicode 4.0对应于ISO 10646:2003，Unicode 5.0对应于ISO 10646:2003及附录1–3。

20世纪80年代末，组成Unicode组织的商业机构，和国际合作的[[国际标準化组织]]因为电脑普及和资讯国际化的前提下，分别各自成立了Unicode组织<ref>{{Cite web |url=http://www.unicode.org/ |title=Unicode |accessdate=2004-04-02 }}</ref>和ISO-10646工作小组。他们不久便发现对方的存在，大家为著相同的目的而工作。1991年，Unicode Consortium与ISO/IEC JTC1/SC2同意保持Unicode碼-{表}-与ISO 10646标準保持兼容并密切协调各自标準进一步的扩展。虽然实际上两者的字集编碼相同，但实质上两者确实为两个不同的标準。Unicode 1.1对应于ISO 10646-1:1993，Unicode 3.0对应于ISO 10646-1:2000，Unicode 3.2对应于ISO 10646-2:2001，Unicode 4.0对应于ISO 10646:2003，Unicode 5.0对应于ISO 10646:2003及附录1–3。

Unicode自2.0版本开始保持了向后兼容，即新的版本仅仅增加字符，原有字符不会删除或更名。但从Unicode 14.0起，即有的区段可扩展或缩減，第一个扩展的即有区段为[[阿洪姆文]]（Ahom）。<ref>{{Cite web|title=BETA Unicode 14.0.0|url=https://www.unicode.org/versions/beta-14.0.0.html|access-date=2021-09-20|work=www.unicode.org}}</ref>

统一碼联盟在1991年首次发布了''The Unicode Standard''。Unicode的开发结合了[[国际标準化组织]]所制定的[[ISO/IEC 10646]]，即[[通用字符集]]。Unicode与ISO/IEC 10646在编碼的运作原理相同，但''The Unicode Standard''包含了更詳尽的实现资讯、涵盖了更細节的主题，诸如位元编碼（bitwise encoding）、校对以及呈现等。''The Unicode Standard''也列举了诸多的字元特性，例如必须支援两种閱读方向的字符（由左至右或由右至左的文字閱读方向，例如阿拉伯文是由右至左）。Unicode与ISO/IEC 10646两个标準在术语上的使用有些微的不同。<ref name="Unicode-technical-intro" />

统一碼联盟在1991年首次发布了''The Unicode Standard''。Unicode的开发结合了[[国际标準化组织]]所制定的[[通用字符集|ISO/IEC 10646]]，即[[通用字符集]]。Unicode与ISO/IEC 10646在编碼的运作原理相同，但''The Unicode Standard''包含了更詳尽的实现资讯、涵盖了更細节的主题，诸如位元编碼（bitwise encoding）、校对以及呈现等。''The Unicode Standard''也列举了诸多的字元特性，例如必须支援两种閱读方向的字符（由左至右或由右至左的文字閱读方向，例如阿拉伯文是由右至左）。Unicode与ISO/IEC 10646两个标準在术语上的使用有些微的不同。<ref name="Unicode-technical-intro" />

在2005年，Unicode的第十万个字元引入标準，该字元用于[[马拉雅拉姆语]]。

第60行：

}}</ref>。

{| class="wikitable"

{| class="wikitable sortable mw-collapsible"

|-

|+ Unicode版本

第80行：

| 24

| 7,161

| 最初包含的文字有：[[阿拉伯字母]]、[[亚美尼亚字母]]、[[孟加拉文]]、[[注音符号]]、[[西里尔字母]]、[[天城文]]、[[格鲁吉亚字母]]、[[希腊字母]]、[[古吉拉特文]]、[[古木基文]]、[[諺文]]、[[希伯来字母]]、[[平假名]]、[[卡纳达文]]、[[片假名]]、[[寮文字]]、[[拉丁字母]]、[[马拉雅拉姆文]]、[[奥里亚文]]、[[泰米尔文]]、[[泰卢固文]]、[[泰文字]]与[[藏文]]<ref>{{cite web |title = Unicode Data 1.0.0 |url = http://www.unicode.org/Public/reconstructed/1.0.0/UnicodeData.txt |access-date = 2010-03-16 ~~|||~~}}</ref>。

| 最初包含的文字有：[[阿拉伯字母]]、[[亞美尼亞字母|亚美尼亚字母]]、[[孟加拉文]]、[[注音符號|注音符号]]、[[西里尔字母]]、[[天城文]]、[[格鲁吉亚字母]]、[[希腊字母]]、[[古吉拉特文]]、[[古木基文]]、[[谚文|諺文]]、[[希伯来字母]]、[[平假名]]、[[卡纳达文]]、[[片假名]]、[[老撾文|寮文字]]、[[拉丁字母]]、[[马拉雅拉姆文]]、[[奥里亚文]]、[[泰米尔文]]、[[泰卢固文]]、[[泰文字]]与[[藏文]]<ref>{{cite web |title = Unicode Data 1.0.0 |url = http://www.unicode.org/Public/reconstructed/1.0.0/UnicodeData.txt |access-date = 2010-03-16 }}</ref>。

|-

| 1.0.1

第88行：

| 25

| 28,359

| 定义[[中日韩统一表意文字]]最初的20,902个字<ref>

| 定义[[中日韓統一表意文字|中日韩统一表意文字]]最初的20,902个字<ref>

{{cite web

| title = Unicode Data 1.0.1

第101行：

| 24

| 34,233

| 于原有2,350个[[諺文]]字母的基础上新增4,306个諺文字母。移除[[藏文]]<ref>{{cite web

| 于原有2,350个[[谚文|諺文]]字母的基础上新增4,306个諺文字母。移除[[藏文]]<ref>{{cite web

| title = Unicode Data 1995

| url = http://www.unicode.org/Public/1.1-Update/UnicodeData-1.1.5.txt

第113行：

| 25

| 38,950

| 移除原有的[[諺文]]字母设置，于新的编碼范围更换成11,172个新的諺文字母。[[藏文]]重新加入，但编碼位置更换。代理字符机制建立，并将第15与第16平面分配給私人使用区<ref>{{cite web

| 移除原有的[[谚文|諺文]]字母设置，于新的编碼范围更换成11,172个新的諺文字母。[[藏文]]重新加入，但编碼位置更换。代理字符机制建立，并将第15与第16平面分配給私人使用区<ref>{{cite web

| title = Unicode Data-2.0.14

| url = http://www.unicode.org/Public/2.0-Update/UnicodeData-2.0.14.txt

第125行：

| 25

| 38,952

| 新增[[欧元符号]]与[[对象替换字符]]<ref>{{cite web

| 新增[[歐元符號|欧元符号]]与[[对象替换字符]]<ref>{{cite web

| title = Unicode Data-2.1.2

| url = http://www.unicode.org/Public/2.1-Update/UnicodeData-2.1.2.txt

第137行：

| 38

| 49,259

| 新增[[切罗基文]]、[[吉茲字母]]、[[高棉字母]]、[[蒙古字母]]、[[缅文]]、[[欧甘字母]]、[[卢恩字母]]、[[僧伽罗文]]、[[叙利亚字母]]、[[它拿字母]]、[[加拿大原住民音节文字]]和[[彝文]]，以及部分[[盲文]]图案。<ref>{{cite web

| 新增[[切羅基語#書寫系統|切罗基文]]、[[吉茲字母]]、[[高棉文|高棉字母]]、[[传统蒙古文|蒙古字母]]、[[缅文]]、[[欧甘字母]]、[[盧恩字母|卢恩字母]]、[[僧伽羅文|僧伽罗文]]、[[叙利亚字母]]、[[它拿字母]]、[[加拿大原住民音节文字]]和[[彝文]]，以及部分[[盲文]]图案。<ref>{{cite web

| title = Unicode Data-3.0.0

| url = http://www.unicode.org/Public/3.0-Update/UnicodeData-3.0.0.txt

第150行：

| 41

| 94,205

| 新增{{tsl|en|Deseret alphabet|德瑟雷特字母}}、[[哥特字母]]、[[古意大利字母]]、[[音乐符号]]和[[拜占庭音乐符号]]，追加了42711个[[中日韩统一表意文字]]（[[中日韩统一表意文字扩展区B|CJK-B]]）。<ref>{{cite web

| 新增{{tsl|en|Deseret alphabet|德瑟雷特字母}}、[[哥德字母|哥特字母]]、[[古意大利字母]]、[[音乐符号]]和[[拜占庭音乐符号]]，追加了42711个[[中日韓統一表意文字|中日韩统一表意文字]]（[[中日韩统一表意文字扩展区B|CJK-B]]）。<ref>{{cite web

| title = Unicode Data-3.1.0

| url = http://www.unicode.org/Public/3.1-Update/UnicodeData-3.1.0.txt

第163行：

| 45

| 95,221

| 新增[[菲律宾]]文字[[布锡文]]、[[哈努诺文]]、[[他加禄文]]、[[塔格巴奴亚文]]。<ref>{{cite web

| 新增[[菲律宾]]文字[[布希德文|布锡文]]、[[哈努诺文]]、[[他加禄文]]、[[塔格巴奴亚文]]。<ref>{{cite web

| title = Unicode Data-3.2.0

| url = http://www.unicode.org/Public/3.2-Update/UnicodeData-3.2.0.txt

第175行：

| 52

| 96,447

| 新增[[塞浦路斯音节文字]]、[[林布字母]]、[[线形文字B]]、[[奥斯曼亚字母]]、[[萧伯纳字母]]、[[德宏傣文]]、[[乌加里特字母]]以及[[六十四卦]]。<ref>{{cite web

| 新增[[塞浦路斯音節文字|塞浦路斯音节文字]]、[[林布字母]]、[[线形文字B]]、[[奥斯曼亚字母]]、[[萧伯纳字母]]、[[傣那文|德宏傣文]]、[[乌加里特字母]]以及[[六十四卦]]。<ref>{{cite web

| title = Unicode Data-4.0.0

| url = http://www.unicode.org/Public/4.0-Update/UnicodeData-4.0.0.txt

第187行：

| 59

| 97,720

| 新增[[布吉文]]、[[格拉哥里字母]]、[[佉卢文]]、[[西双版纳傣文]]、[[古波斯文]]、[[锡尔赫特文]]和[[提非纳文]]。[[科普特字母]]从[[希腊文]]区段分离。新增了[[古希腊音乐符号]]。<ref>{{cite web

| 新增[[布吉文]]、[[格拉哥里字母]]、[[佉卢文]]、[[新傣仂文|西双版纳傣文]]、[[古波斯文]]、[[锡尔赫特文]]和[[提非纳文]]。[[科普特字母]]从[[希臘語正寫法|希腊文]]区段分离。新增了[[古希腊音乐符号]]。<ref>{{cite web

| title = Unicode Data

| url = http://www.unicode.org/Public/4.1.0/ucd/UnicodeData.txt

第199行：

| 64

| 99,089

| 新增[[巴厘文]]、[[楔形文字]]、[[西非书面文字]]、[[八思巴文]]和[[腓尼基字母]]。<ref>{{cite web

| 新增[[巴厘字母|巴厘文]]、[[楔形文字]]、[[西非書面字母|西非书面文字]]、[[八思巴字母|八思巴文]]和[[腓尼基字母]]。<ref>{{cite web

| title = Unicode Data 5.0.0

| url = http://www.unicode.org/Public/5.0.0/ucd/UnicodeData.txt

第211行：

| 75

| 100,713

| 新增[[卡利亚文]]、[[占婆字母]]、[[克耶黎文]]、[[绒巴文]]、[[利西亚文]]、[[吕底亚文]]、[[桑塔利文]]、[[拉让文]]、[[索拉什特拉文]]、[[巽他文]]和[[瓦伊文]]。同时增加了[[斐斯托斯圆盘]]、[[麻将]]和[[多米诺骨牌]]符号。对[[缅甸文]]做了重要的补充，追加了手抄缩写的额外字母，追加了[[大写ẞ]]。<ref>{{cite web

| 新增[[卡利亚文]]、[[占語字母|占婆字母]]、[[克耶黎文]]、[[绒巴文]]、[[利西亚文]]、[[吕底亚文]]、[[桑塔利文]]、[[拉让文]]、[[索拉什特拉文]]、[[巽他文]]和[[瓦伊文]]。同时增加了[[斐斯托斯圆盘]]、[[麻将]]和[[西洋骨牌|多米诺骨牌]]符号。对[[缅文|缅甸文]]做了重要的补充，追加了手抄缩写的额外字母，追加了[[大写ẞ]]。<ref>{{cite web

| title = Unicode Data 5.1.0

| url = http://www.unicode.org/Public/5.1.0/ucd/UnicodeData.txt

第223行：

| 90

| 107,361

| 新增[[阿维斯陀文]]、[[巴姆穆文字]]、[[埃及象形文字]]（[[加汀纳符号表]]，涵盖1071个符号）、[[亚拉姆文]]、[[巴拉维碑铭体]]、[[帕提亚碑铭体]]、[[爪哇文]]、[[凯提文]]、[[老傈僳文]]、[[曼尼普尔文]]、[[南阿拉伯字母]]、[[古突厥文]]、[[撒玛利亚字母]]、[[老傣文]]和[[傣黯语|傣越文]]。追加4,149个[[中日韩统一表意文字]]（[[中日韩统一表意文字扩展区C|CJK-C]]），同时扩展了[[古韩文]]和[[吠陀梵文]]的字符。<ref>{{cite web

| 新增[[阿维斯陀文]]、[[巴穆姆文字|巴姆穆文字]]、[[圣书体|埃及象形文字]]（[[加汀纳符号表]]，涵盖1071个符号）、[[亚拉姆文]]、[[巴拉维碑铭体]]、[[帕提亚碑铭体]]、[[爪哇字母|爪哇文]]、[[凯提文]]、[[老傈僳文]]、[[曼尼普尔文]]、[[南阿拉伯字母]]、[[突厥字母|古突厥文]]、[[撒玛利亚字母]]、[[老傣文]]和[[傣黯语|傣越文]]。追加4,149个[[中日韓統一表意文字|中日韩统一表意文字]]（[[中日韩统一表意文字扩展区C|CJK-C]]），同时扩展了[[古韩文]]和[[吠陀梵語|吠陀梵文]]的字符。<ref>{{cite web

| title = Unicode Data 5.2.0

| url = http://www.unicode.org/Public/5.2.0/ucd/UnicodeData.txt

第235行：

| 93

| 109,449

| 新增[[巴塔克字母]]、[[婆罗米文字]]、[[曼达字母]]、[[纸牌]]符号、[[交通标志]]、[[地图]]符号、[[炼金术符号]]、[[颜文字]]和[[绘文字]]。追加222个额外的[[中日韩统一表意文字]]（[[中日韩统一表意文字扩展区D|CJK-D]]）。<ref>{{cite web

| 新增[[巴塔克字母]]、[[婆罗米文|婆罗米文字]]、[[曼达字母]]、[[遊戲牌|纸牌]]符号、[[道路交通标志|交通标志]]、[[地图]]符号、[[炼金术符号]]、[[颜文字]]和[[繪文字|绘文字]]。追加222个额外的[[中日韓統一表意文字|中日韩统一表意文字]]（[[中日韩统一表意文字扩展区D|CJK-D]]）。<ref>{{cite web

| title = Unicode Data 6.0.0

| url = http://www.unicode.org/Public/6.0.0/ucd/UnicodeData.txt

第247行：

| 100

| 110,181

| 新增[[查克马字母]]、[[麦罗埃文]]、[[麦罗埃象形文字]]、[[柏格理苗文]]、[[夏拉达文]]、[[索拉僧平文字]]和[[泰克里文]]。<ref>{{cite web

| 新增[[查克马字母]]、[[麥羅埃字母|麦罗埃文]]、[[麦罗埃象形文字]]、[[柏格理苗文]]、[[夏拉达文]]、[[索拉僧平字母|索拉僧平文字]]和[[泰克里文]]。<ref>{{cite web

| title = Unicode Data 6.1.0

| url = http://www.unicode.org/Public/6.1.0/ucd/UnicodeData.txt

第283行：

| 123

| 113,021

| 新增[[巴萨字母]]、[[高加索阿尔巴尼亚字母]]、[[杜普雷严速记]]、[[爱尔巴桑字母]]、[[古兰塔文]]、[[可吉文]]、[[库达瓦迪文]]、[[线形文字A]]、[[马哈佳尼文]]、[[摩尼教字母]]、[[门得文字]]、[[莫迪字母]]、[[默文]]、[[纳巴泰字母]]、[[古北阿拉伯文]]、[[古彼尔姆文]]、[[杨松录苗文]]、[[帕米拉文字]]、[[袍清豪文]]、[[诗篇巴列维文]]、[[悉昙文字]]、[[底罗仆多文]]、[[瓦兰齐地文]]以及[[Dingbat|装饰符号]]。<ref>{{cite web

| 新增[[巴萨字母]]、[[高加索阿尔巴尼亚字母]]、[[杜普雷严速记]]、[[爱尔巴桑字母]]、[[古兰塔文]]、[[可吉文]]、[[库达瓦迪文]]、[[线形文字A]]、[[马哈佳尼文]]、[[摩尼字母|摩尼教字母]]、[[门得文字]]、[[莫迪字母]]、[[默文]]、[[纳巴泰字母]]、[[古北阿拉伯文]]、[[古彼尔姆文]]、[[救世苗文|杨松录苗文]]、[[帕米拉文字]]、[[袍清豪文]]、[[诗篇巴列维文]]、[[悉昙文字]]、[[底罗仆多文]]、[[瓦兰齐地文]]以及[[Dingbat|装饰符号]]。<ref>{{cite web

| title = Unicode Data 7.0.0

| url = http://www.unicode.org/Public/7.0.0/ucd/UnicodeData.txt

第292行：

| 2015年6月

| {{ISBN|978-1-936213-10-8}}

| ISO/IEC 10646:2014与其第1修订版，以及[[乔治亚拉里]]符号、9个中日韩统一表意文字与41个表情符号<ref>{{cite web | title = Unicode 8.0.0 | url = http://www.unicode.org/versions/Unicode8.0.0/ | publisher=Unicode Consortium | access-date=2015-06-17 ~~| | |~~ }}</ref>

| ISO/IEC 10646:2014与其第1修订版，以及[[乔治亚拉里]]符号、9个中日韩统一表意文字与41个表情符号<ref>{{cite web | title = Unicode 8.0.0 | url = http://www.unicode.org/versions/Unicode8.0.0/ | publisher=Unicode Consortium | access-date=2015-06-17 }}</ref>

| 129

| 120,737

| 增加[[阿洪姆文]]、[[安纳托利亚象形文字]]、[[哈坦文]]、[[穆尔塔尼文]]、[[古匈牙利字母]]、[[萨顿手语谱写]]、5,771个[[中日韩统一表意文字]]字符（[[中日韩统一表意文字扩展区E|CJK-E]]）、[[切罗基文]]小写字母，以及五种[[绘文字]][[肤色]]修改字符。<ref>{{cite web

| 增加[[阿洪姆文]]、[[安纳托利亚象形文字]]、[[哈坦文]]、[[穆尔塔尼文]]、[[古匈牙利字母]]、[[萨顿手语谱写]]、5,771个[[中日韓統一表意文字|中日韩统一表意文字]]字符（[[中日韩统一表意文字扩展区E|CJK-E]]）、[[切羅基語#書寫系統|切罗基文]]小写字母，以及五种[[繪文字|绘文字]][[肤色]]修改字符。<ref>{{cite web

| title = Unicode Data 8.0.0

| url = http://www.unicode.org/Public/8.0.0/ucd/UnicodeData.txt

第308行：

| 135

| 128,237

| 新增[[阿德拉姆字母]]、[[比奇舒奇文]]、[[象雄文]]、[[尼泊尔纽瓦字母]]、[[欧塞奇字母]]、[[西夏文]]以及74个绘文字<ref>{{cite web

| 新增[[阿德拉姆字母]]、[[比奇舒奇文]]、[[象雄语#文字|象雄文]]、[[尼泊尔纽瓦字母]]、[[欧塞奇字母]]、[[西夏文]]以及74个绘文字<ref>{{cite web

| title = Unicode Data 9.0.0

| url = http://www.unicode.org/Public/9.0.0/ucd/UnicodeData.txt

第317行：

| 2017年6月

| {{ISBN|978-1-936213-16-0}}

| ISO/IEC 10646:2017，新增56个[[绘文字]]符号、385个[[变体假名]]字符，和3个札那巴札尔字符<ref name="Unicode10.0">{{cite web | title=Unicode 10.0.0 | url = http://www.unicode.org/versions/Unicode10.0.0/ | publisher=Unicode Consortium | access-date=2017-06-20 ~~| | |~~ }}</ref>

| ISO/IEC 10646:2017，新增56个[[繪文字|绘文字]]符号、385个[[变体假名]]字符，和3个札那巴札尔字符<ref name="Unicode10.0">{{cite web | title=Unicode 10.0.0 | url = http://www.unicode.org/versions/Unicode10.0.0/ | publisher=Unicode Consortium | access-date=2017-06-20 }}</ref>

| 139

| 136,755

| [[蒙古文字|札那巴札尔]]、[[索永布文字]]、[[马萨拉姆贡德文字]]、[[女书]]、[[变体假名]]（非标准[[平假名]]）、7,494个[[中日韩统一表意文字]]（[[中日韩统一表意文字扩展区F|CJK-F]]）与56个[[绘文字]]<ref>{{cite web

| [[蒙古語文字|札那巴札尔]]、[[索永布字母|索永布文字]]、[[马萨拉姆贡德文字]]、[[女书]]、[[变体假名]]（非标准[[平假名]]）、7,494个[[中日韓統一表意文字|中日韩统一表意文字]]（[[中日韩统一表意文字扩展区F|CJK-F]]）与56个[[繪文字|绘文字]]<ref>{{cite web

| title = Unicode Data 10.0.0

| url = http://www.unicode.org/Public/10.0.0/ucd/UnicodeData.txt

第329行：

| 2018年6月

| {{ISBN|978-1-936213-19-1}}

| ISO/IEC 10646:2017与其第1修订版，新增145个[[绘文字]]符号、5个急用汉字，[[copyleft]]符号、[[中国象棋]]符号等<ref name="Unicode11.0">{{cite web | title=Unicode 11.0.0 | url = http://www.unicode.org/versions/Unicode11.0.0/ | publisher=Unicode Consortium | access-date=2018-06-06 }}</ref>

| ISO/IEC 10646:2017与其第1修订版，新增145个[[繪文字|绘文字]]符号、5个急用汉字，[[版权开放|copyleft]]符号、[[象棋|中国象棋]]符号等<ref name="Unicode11.0">{{cite web | title=Unicode 11.0.0 | url = http://www.unicode.org/versions/Unicode11.0.0/ | publisher=Unicode Consortium | access-date=2018-06-06 }}</ref>

| 146

| 137,374

| [[多格拉文]]、[[格鲁吉亚文]]骑士体大写字母、[[贡贾拉贡德文]]、[[哈乃斐罗兴亚文字]]、[[望加锡文]]、[[梅德法伊德林文]]、[[老粟特字母]]、[[粟特字母]]以及145个绘文字<ref>{{cite web

| [[多格拉文]]、[[格鲁吉亚文]]骑士体大写字母、[[贡贾拉贡德文]]、[[哈乃斐罗兴亚文字]]、[[望加锡文]]、[[梅德法伊德林文]]、[[粟特字母|老粟特字母]]、[[粟特字母]]以及145个绘文字<ref>{{cite web

| title = Unicode Data 11.0.0

| url = http://www.unicode.org/Public/11.0.0/ucd/UnicodeData.txt

第341行：

| 2019年3月

| {{ISBN|978-1-936213-22-1}}

| ISO/IEC 10646:2017与其第1、2修订版，新增61个[[绘文字]]符号、一些方言[[苗文]]字符、古日文用小型[[日文假名]]、[[泰米尔文]]的符号、[[圣书体]]控制字符等<ref name="Unicode12.0">{{cite web | title=Unicode 12.0.0 | url = http://www.unicode.org/versions/Unicode12.0.0/ | publisher=Unicode Consortium | access-date=2019-03-13

| ISO/IEC 10646:2017与其第1、2修订版，新增61个[[繪文字|绘文字]]符号、一些方言[[苗文]]字符、古日文用小型[[日語假名|日文假名]]、[[泰米尔文]]的符号、[[圣书体]]控制字符等<ref name="Unicode12.0">{{cite web | title=Unicode 12.0.0 | url = http://www.unicode.org/versions/Unicode12.0.0/ | publisher=Unicode Consortium | access-date=2019-03-13

}}</ref>

| 150

第357行：

| 150

| 137,929

| 只在U+32FF新增了一个字符，即日本新年号[[令和]]的合字。<ref>{{cite web |url = http://blog.unicode.org/2019/05/unicode-12-1-en.html |title = Unicode Version 12.1 released in support of the Reiwa Era |website=blog.unicode.org |access-date=2019-05-07 ~~|||~~}}</ref>

| 只在U+32FF新增了一个字符，即日本新年号[[令和]]的合字。<ref>{{cite web |url = http://blog.unicode.org/2019/05/unicode-12-1-en.html |title = Unicode Version 12.1 released in support of the Reiwa Era |website=blog.unicode.org |access-date=2019-05-07 }}</ref>

|-

| 13.0

第365行：

| 154

| 143,924

| [[花剌子模语]]、[[迪维西语]]的{{tsl|en|Dhives akuru|岛字母}}、[[契丹小字]]、[[库尔德语字母]]的[[库尔德语字母#雅茲迪文|雅茲迪文]]、4969个中日韩统一表意文字（4939个位于[[中日韩统一表意文字扩展区G|扩展区G]]（[[CJK-G]]））、书写[[豪萨语]]用的阿拉伯附加字母、[[沃洛夫语]]、其他非洲语言、在巴基斯坦书写{{tsl|en|Hindko|印德科语}}和[[旁遮普语]]的补充字元、[[粵语]]用的[[粵语注音符号|注音符号]]、[[共享创意]]授权符号、1970年代和1980年代电讯用图符、55个[[绘文字]]<ref>{{cite web |url = http://blog.unicode.org/2020/03/announcing-unicode-standard-version-130.html |title = Announcing The Unicode® Standard, Version 13.0 |website = blog.unicode.org |access-date=2020-03-11 }}</ref>

| [[花剌子模语]]、[[迪维希语|迪维西语]]的{{tsl|en|Dhives akuru|岛字母}}、[[契丹小字]]、[[库尔德语字母]]的[[库尔德语字母#雅茲迪文|雅茲迪文]]、4969个中日韩统一表意文字（4939个位于[[中日韩统一表意文字扩展区G|扩展区G]]（[[中日韓統一表意文字擴展區G|CJK-G]]））、书写[[豪萨语]]用的阿拉伯附加字母、[[沃洛夫语]]、其他非洲语言、在巴基斯坦书写{{tsl|en|Hindko|印德科语}}和[[旁遮普語|旁遮普语]]的补充字元、[[粵语]]用的[[粵语注音符号|注音符号]]、[[知识共享|共享创意]]授权符号、1970年代和1980年代电讯用图符、55个[[繪文字|绘文字]]<ref>{{cite web |url = http://blog.unicode.org/2020/03/announcing-unicode-standard-version-130.html |title = Announcing The Unicode® Standard, Version 13.0 |website = blog.unicode.org |access-date=2020-03-11 }}</ref>

|-

|14.0

第381行：

|161

|149,186

| 新增[[纳格蒙达里文字]]、[[克维文]]，增加4193个[[中日韩统一表意文字]]字符（4192个[[中日韩统一表意文字扩展区H|扩H]]、1个[[中日韩统一表意文字扩展区C|扩C]]）、20个[[绘文字]]等字符。 <ref>{{cite web |url = http://blog.unicode.org/2022/09/announcing-unicode-standard-version-150.html |title = Announcing The Unicode® Standard, Version 15.0 |website = blog.unicode.org |access-date = 2022-10-03}}</ref>

| 新增[[纳格蒙达里文字]]、[[克维文]]，增加4193个[[中日韓統一表意文字|中日韩统一表意文字]]字符（4192个[[中日韩统一表意文字扩展区H|扩H]]、1个[[中日韩统一表意文字扩展区C|扩C]]）、20个[[繪文字|绘文字]]等字符。 <ref>{{cite web |url = http://blog.unicode.org/2022/09/announcing-unicode-standard-version-150.html |title = Announcing The Unicode® Standard, Version 15.0 |website = blog.unicode.org |access-date = 2022-10-03}}</ref>

|-

|15.1

|2023年9月

|

|}

第400行：

第408行：

=== 编码方式 ===

统一碼的编碼方式与[[ISO 10646]]的[[通用字符集]]概念相对应。目前实际应用的统一碼版本对应于[[UCS-2]]，使用16[[位元|位]]的编码空间。也就是每个字符占用2个[[字节]]。这样理论上一共最多可以表示216（即65536）个字符。基本满足各种语言的使用。实际上目前版本的统一碼并未完全使用这16位编码，而是保留了大量空间以作为特殊使用或将来扩展。

统一碼的编碼方式与[[通用字符集|ISO 10646]]的[[通用字符集]]概念相对应。目前实际应用的统一碼版本对应于[[UTF-16|UCS-2]]，使用16[[位元|位]]的编码空间。也就是每个字符占用2个[[字节]]。这样理论上一共最多可以表示216（即65536）个字符。基本满足各种语言的使用。实际上目前版本的统一碼并未完全使用这16位编码，而是保留了大量空间以作为特殊使用或将来扩展。

上述16位统一碼字符构成[[基本多文种平面]]。最新（但未实际广泛使用）的统一碼版本定义了16个[[辅助平面]]，两者合起来至少需要占据21位的编码空间，比3字节略少。但事实上辅助平面字符仍然占用4字节编码空间，与[[UCS-4]]保持一致。未来版本会扩充到ISO 10646-1实现级别3，即涵盖UCS-4的所有字符。UCS-4是更大而尚未填充完全的31位字符集，加上恒为0的首位，共需占据32位，即4字节。理论上最多能表示231个字符，完全可以涵盖一切语言所用的符号。

上述16位统一碼字符构成[[基本多文种平面]]。最新（但未实际广泛使用）的统一碼版本定义了16个[[unicode字符平面映射|辅助平面]]，两者合起来至少需要占据21位的编码空间，比3字节略少。但事实上辅助平面字符仍然占用4字节编码空间，与[[UTF-32|UCS-4]]保持一致。未来版本会扩充到ISO 10646-1实现级别3，即涵盖UCS-4的所有字符。UCS-4是更大而尚未填充完全的31位字符集，加上恒为0的首位，共需占据32位，即4字节。理论上最多能表示231个字符，完全可以涵盖一切语言所用的符号。

基本多文种平面的字符的编码为U+hhhh，其中每个h代表一个[[十六进制]]数字，与UCS-2编码完全相同。而其对应的4字节UCS-4编码后两个字节一致，前两个字节则所有位均为0。

第411行：

第419行：

例如，如果一个仅包含基本7位[[ASCII]]字符的Unicode文件，如果每个字符都使用2字节的原Unicode编码传输，其第一字节的8位始终为0。这就造成了比较大的浪费。对于这种情况，可以使用UTF-8编码，这是变长编码，它将基本7位ASCII字符仍用7位编码表示，占用一个字节（首位补0）。而遇到与其他Unicode字符混合的情况，将按一定算法转换，每个字符使用1-3个字节编码，并利用首位为0或1识别。这样对以7位ASCII字符为主的西文文档就大幅节省了编码长度（具体方案参见[[UTF-8]]）。类似的，对未来会出现的需要4个字节的辅助平面字符和其他UCS-4扩充字符，2字节编码的[[UTF-16]]也需要通过一定的算法转换。

再如，如果直接使用与Unicode编码一致（仅限于BMP字符）的UTF-16编码，由于每个字符占用了两个字节，在[[麦金塔电脑]]（[[麦金塔电脑|Mac]]）机和[[个人电脑]]上，对字节顺序的理解不一致。这时同一字节流可能会解释为不同内容，如某字符为十六进制编码4E59，按两个字节拆分为4E和59，在Mac上读取时是从低字节开始，那么在Mac OS会认为此4E59编码为594E，找到的字符为“奎”，而在Windows上从高字节开始读取，则编码为U+4E59的字符为“乙”。就是说在Windows下以UTF-16编码保存一个字符“乙”，在Mac OS环境下开启会显示成“奎”。此类情况说明UTF-16的编码顺序若不加以人为定义就可能发生混淆，于是在UTF-16编码实现方式中使用了[[位元组序#大端序|大端序]]（Big-Endian，简写为UTF-16 BE）、[[位元组序#大端序|小端序]]（Little-Endian，简写为UTF-16 LE）的概念，以及可附加的[[位元组顺序记号]]解决方案，目前在个人电脑上的Windows系统和Linux系统对于UTF-16编码默认使用UTF-16 LE。（具体方案参见[[UTF-16]]）

再如，如果直接使用与Unicode编码一致（仅限于BMP字符）的UTF-16编码，由于每个字符占用了两个字节，在[[麦金塔|麦金塔电脑]]（[[麦金塔|Mac]]）机和[[个人电脑]]上，对字节顺序的理解不一致。这时同一字节流可能会解释为不同内容，如某字符为十六进制编码4E59，按两个字节拆分为4E和59，在Mac上读取时是从低字节开始，那么在Mac OS会认为此4E59编码为594E，找到的字符为“奎”，而在Windows上从高字节开始读取，则编码为U+4E59的字符为“乙”。就是说在Windows下以UTF-16编码保存一个字符“乙”，在Mac OS环境下开启会显示成“奎”。此类情况说明UTF-16的编码顺序若不加以人为定义就可能发生混淆，于是在UTF-16编码实现方式中使用了[[位元组序#大端序|大端序]]（Big-Endian，简写为UTF-16 BE）、[[位元组序#大端序|小端序]]（Little-Endian，简写为UTF-16 LE）的概念，以及可附加的[[位元组顺序记号]]解决方案，目前在个人电脑上的Windows系统和Linux系统对于UTF-16编码默认使用UTF-16 LE。（具体方案参见[[UTF-16]]）

此外Unicode的实现方式还包括[[UTF-7]]、[[Punycode]]、[[UTF-16的八位元相容编碼方案|CESU-8]]、[[统一碼标準压缩方案|SCSU]]、[[UTF-32]]、[[GB18030]]等，这些实现方式有些仅在一定的国家和地区使用，有些则属于未来的规划方式。目前通用的实现方式是UTF-16小端序（LE）、UTF-16大端序（BE）和UTF-8。在微软公司[[Windows XP]]附带的[[记事本]]（Notepad）中，“另存为”对话框可以选择的四种编码方式除去非Unicode编码的[[ANSI]]（对于英文系统即[[ASCII]]编码，中文系统则为[[GB2312]]或[[Big5]]编码）外，其余三种为“Unicode”（对应UTF-16 LE）、“Unicode big endian”（对应UTF-16 BE）和“UTF-8”。

此外Unicode的实现方式还包括[[UTF-7]]、[[国际化域名编码|Punycode]]、[[UTF-16的八位元相容编碼方案|CESU-8]]、[[统一碼标準压缩方案|SCSU]]、[[UTF-32]]、[[GB 18030|GB18030]]等，这些实现方式有些仅在一定的国家和地区使用，有些则属于未来的规划方式。目前通用的实现方式是UTF-16小端序（LE）、UTF-16大端序（BE）和UTF-8。在微软公司[[Windows XP]]附带的[[記事本|记事本]]（Notepad）中，“另存为”对话框可以选择的四种编码方式除去非Unicode编码的[[美國國家標準協會|ANSI]]（对于英文系统即[[ASCII]]编码，中文系统则为[[GB 2312|GB2312]]或[[Big5]]编码）外，其余三种为“Unicode”（对应UTF-16 LE）、“Unicode big endian”（对应UTF-16 BE）和“UTF-8”。

目前辅助平面的工作主要集中在第二和第三平面的[[中日韩统一表意文字]]，因此包括[[GBK]]、[[GB18030]]、[[Big5]]等[[简体中文]]、[[繁体中文]]、[[日文]]、[[韩文]]以及越南[[喃字]]的各种编码与Unicode的协调性受重点关注。考虑到Unicode最终要涵盖所有的字符。从某种意义而言，这些编码方式也可视作Unicode的出现于其之前的'''既成事实'''的实现方式，如同[[ASCII]]及其扩展[[Latin-1]]一样，后两者的字符在16位Unicode编码空间中的编码第一字节各位全为0，第二字节编码与原编码完全一致。但上述东亚语言编码与Unicode编码的对应关系要复杂得多。

=== Unicode字符平面映射 ===

第431行：

第439行：

== XML和Unicode ==

[[XML]]及其子集[[XHTML]]采用[[UTF-8]]作为标准[[字符编码|字符集]]，理论上我们可以在各种支持XML标准的浏览器上显示任何地区文字的网页，只要电脑本身安装有合适的字体即可。可以利用<code><nowiki>&#</nowiki></code><var>nnn</var><code><nowiki>;</nowiki></code>的格式显示特定的字符。<var>nnn</var>代表该字符的[[十进制]]Unicode代码。如果采用[[十六进制]]代码，在编码之前加上<code><nowiki>x</nowiki></code>字符即可。但部分旧版本的浏览器可能无法识别十六进制代码。

[[可扩展标记语言|XML]]及其子集[[可扩展超文本标记语言|XHTML]]采用[[UTF-8]]作为标准[[字符编码|字符集]]，理论上我们可以在各种支持XML标准的浏览器上显示任何地区文字的网页，只要电脑本身安装有合适的字体即可。可以利用<code><nowiki>&#</nowiki></code><var>nnn</var><code><nowiki>;</nowiki></code>的格式显示特定的字符。<var>nnn</var>代表该字符的[[十进制]]Unicode代码。如果采用[[十六进制]]代码，在编码之前加上<code><nowiki>x</nowiki></code>字符即可。但部分旧版本的浏览器可能无法识别十六进制代码。

过去电脑编码的8位标准，使每个国家都只按国家使用的字符而编定各自的编码系统；而对于部份字符系统比较复杂的语言，如[[越南语]]，又或者东亚国家的大型字符集，都不能在8位的环境下正常显示。

第451行：

第459行：

|align="right"|<code><nowiki>&#x0394;</nowiki></code>||大写[[希腊字母]]“Delta”||align="center"|Δ

|-

|align="right"|<code><nowiki>&#x0419;</nowiki></code>||大写[[斯拉夫字母]]“Short I”||align="center"|Й

|align="right"|<code><nowiki>&#x0419;</nowiki></code>||大写[[西里尔字母|斯拉夫字母]]“Short I”||align="center"|Й

|-

|align="right"|<code><nowiki>&#x05E7;</nowiki></code>||[[希伯来字母]]“Qof”||align="center"|ק

第465行：

第473行：

|align="right"|<code><nowiki>&#x30A2;</nowiki></code>||日语[[片假名]]“A”||align="center"|ア

|-

|align="right"|<code><nowiki>&#x53F6;</nowiki></code>||[[简~~体中文~~|简体]][[汉字]]“-{叶}-”||align="center"|-{叶}-

|align="right"|<code><nowiki>&#x53F6;</nowiki></code>||[[简化字|简体]][[汉字]]“-{叶}-”||align="center"|-{叶}-

|-

|align="right"|<code><nowiki>&#x8449;</nowiki></code>||[[繁体中文|~~-{zh-cn:~~繁体~~;zh-tw:正体;zh-hk:繁体;}-~~]]汉字“-{叶}-”||align="center"|-{叶}-

|align="right"|<code><nowiki>&#x8449;</nowiki></code>||[[繁体字|繁体]]汉字“-{叶}-”||align="center"|-{叶}-

|-

|align="right"|<code><nowiki>&#xC5FD;</nowiki></code>||[[谚文|韩国音节文字]]“Yeop”||align="center"|엽

|}

一些多语言支持的网页浏览器，比如[[Microsoft Windows]]系统的[[Internet Explorer]] 5.5及以上版本，以及跨平台的浏览器[[Mozilla]]/[[Netscape]] 6，可以在安裝时根据需要动态地使用相应的字符集，预先安装了合适的语言包，就可以同时显示页面上的各种Unicode字符。[[Internet Explorer]] 5.5还提出用户可以在需要新字体时，即装即用。另外的浏览器如[[Netscape Navigator]] 4.77，则只能显示跟页面编码相应字符集中的文字。当你使用后一种浏览器时，你不大可能预先安装所有的字体，即使有了字体，浏览器也不一定能将这些字体完全应用起来。可能遇到的情况是，这种浏览器只能够显示部分文字，因为它们是按照标准编码，尽管理论上在兼容的系统中，只要有了相应的[[Code2000]]字体，就可以正确显示。一种变通的办法，是将某些少见的字符，通过“名称实体引用”的方式来使用。

一些多语言支持的网页浏览器，比如[[Microsoft Windows]]系统的[[Internet Explorer]] 5.5及以上版本，以及跨平台的浏览器[[Mozilla]]/[[网景|Netscape]] 6，可以在安裝时根据需要动态地使用相应的字符集，预先安装了合适的语言包，就可以同时显示页面上的各种Unicode字符。[[Internet Explorer]] 5.5还提出用户可以在需要新字体时，即装即用。另外的浏览器如[[Netscape Navigator]] 4.77，则只能显示跟页面编码相应字符集中的文字。当你使用后一种浏览器时，你不大可能预先安装所有的字体，即使有了字体，浏览器也不一定能将这些字体完全应用起来。可能遇到的情况是，这种浏览器只能够显示部分文字，因为它们是按照标准编码，尽管理论上在兼容的系统中，只要有了相应的[[Code2000]]字体，就可以正确显示。一种变通的办法，是将某些少见的字符，通过“名称实体引用”的方式来使用。

== 输入方法 ==

不同的操作系统，各有直接输入Unicode字符的方法：

* 基于[[X Window System]]的[[Linux]]系统，如[[Ubuntu]]的Gnome Terminal，首先按下{{key press|[[控制键|Ctrl]]|[[换档键|Shift]]|U}}，然后输入16进制Unicode数，如[[间隔号|interpunct间隔符]]输入{{key press|0}}{{key press|0}}{{key press|b}}{{key press|7}}，最后按空格键；

* 基于[[X視窗系統|X Window System]]的[[Linux]]系统，如[[Ubuntu]]的Gnome Terminal，首先按下{{key press|[[控制键|Ctrl]]|[[换档键|Shift]]|U}}，然后输入16进制Unicode数，如[[间隔号|interpunct间隔符]]输入{{key press|0}}{{key press|0}}{{key press|b}}{{key press|7}}，最后按空格键；

* [[Microsoft Windows]]系统，按下{{key press|[[转换键|Alt]]|0}}{{key press|1}}{{key press|8}}{{key press|3}}表示[[间隔号|interpunct间隔符]]。

在[[SGML]]、[[HTML]]、[[XML]]的文本中，使用[[字符值引用]]或[[XML与HTML字符实体引用列表|字符实体引用]]表示一个Unicode字符。

在[[标准通用标记语言|SGML]]、[[HTML]]、[[可扩展标记语言|XML]]的文本中，使用[[字符值引用]]或[[XML与HTML字符实体引用列表|字符实体引用]]表示一个Unicode字符。

=== 中文输入法 ===

第486行：

第494行：

* [[仓頡输入法]]已为Unicode汉字、类汉字编碼，可以在仓頡输入法方式下通过仓頡碼输入方式输入Unicode内的中日韩汉字及韩文。以仓頡输入法第五代为例，例如[[汉字]]“㗎”输入“口大口木”，汉字“胥”输入“弓人月”，汉字“㿱”输入“手中木竹水”，朝鲜文字“닮”输入“-{尸}-卜-{尸}-女口”。由于[[朱邦复工作室]]使用的[[仓頡系统]]收字比Unicode还多，目前Unicode既有汉字皆已有仓頡编碼。

* [[郑碼]]已为Unicode汉字、类汉字编碼，可以在郑碼输入法方式下通过[[郑碼]]字碼输入方式输入Unicode内的中日韩汉字及韩文。例如[[汉字]]“㗎”输入“JYJF”，汉字“胥”输入“XIQ”，汉字“㿱”输入“DPXI”，朝鲜文字“길”输入“XIYY”。

* [[海峰五笔]]此输入法已经直接支持透过[[五笔]]碼输入方式输入Unicode内的任意中日韩汉字，但无法使用鍵入Unicode碼的方式输入。例如[[汉字]]（Unicode部分）“㗎”为“keks”，[[CJK]]扩展B区的“𣿱”为“iyho”和CJK扩展C区的“𫆦”为“muih”。

* [[海峰五笔]]此输入法已经直接支持透过[[五笔]]碼输入方式输入Unicode内的任意中日韩汉字，但无法使用鍵入Unicode碼的方式输入。例如[[汉字]]（Unicode部分）“㗎”为“keks”，[[中日韓統一表意文字|CJK]]扩展B区的“𣿱”为“iyho”和CJK扩展C区的“𫆦”为“muih”。

* 新[[注音输入法]]在输入法启动狀态时，打入鍵盘上的“多功能前导字元鍵”（即通用鍵盘上之“`”），第一次使用会弹出说明。输入Unicode字元“胥”则是在鍵盘上鍵入“`U5066”。而韩语中的“셅”，则输入“`UC145”。而要输入[[日本汉字|日语自制汉字]]“峠”，则是“`U5CE0”。

* [[VimIM]]在Vim环境中，可以直接鍵入十进制或十六进制Unicode碼。既不需要启动输入法，也不需要碼表。

* [[嘸蝦米输入法]]，支援Unicode，以26个[[英文]]字母为组字按鍵，可直接输入符号、[[日文汉字]]及[[平假名]]、[[片假名]]，但汉字部份一般只支援基本繁体中文、简体中文，[[中日韩统一表意文字扩展区A|扩展A区]]的汉字要另行扩充编碼才能输入，[[中日韩统一表意文字扩展区B|扩展B区]]的汉字尚无编碼。

* [[嘸蝦米输入法]]，支援Unicode，以26个[[英語正寫法|英文]]字母为组字按鍵，可直接输入符号、[[日本汉字|日文汉字]]及[[平假名]]、[[片假名]]，但汉字部份一般只支援基本繁体中文、简体中文，[[中日韩统一表意文字扩展区A|扩展A区]]的汉字要另行扩充编碼才能输入，[[中日韩统一表意文字扩展区B|扩展B区]]的汉字尚无编碼。

=== 日文输入法 ===

第510行：

第518行：

* [[Unicode字符列表]]

* [[Unicode数字]]

* [[中日韩统一表意文字]]（CJK/Unihan）

* [[中日韓統一表意文字|中日韩统一表意文字]]（CJK/Unihan）

* [[通用字符集]]

* [[宽字元]]

@@ 第13行： / 第13行： @@
 | lang = 全球性
 | status =
-| encodings = [[UTF-8]], [[UTF-16]], [[GB 18030|GB18030]]<br/>'''不常用''': <br/>[[UTF-32]], [[统一碼二进制有序压缩|BOCU]], [[统一碼标準压缩方案|SCSU]]<br/>'''已淘汰''': <br/>[[UTF-7]]
+| encodings = [[UTF-8]], [[UTF-16]], [[GB 18030|GB18030]]<br>'''不常用''': <br>[[UTF-32]], [[统一碼二进制有序压缩|BOCU]], [[统一碼标準压缩方案|SCSU]]<br>'''已淘汰''': <br>[[UTF-7]]
 | encodes =
 | extends =
@@ 第26行： / 第26行： @@
 '''Unicode'''，[[统一碼联盟|联盟]]官方中文名称为'''统一-{}-碼'''<ref>{{cite web |title=About Unicode Terminology |url=https://unicode.org/terminology/about_term.html |website=unicode.org |accessdate=2021-03-25}}</ref>，是[[电脑科学]]领域的业界标準。它整理、编碼了世界上大部分的[[文字系统]]，使得电脑可以用更为简单的方式来呈现和处理文字。
-Unicode伴随着[[通用字符集]]的标準而发展，同时也以书本的形式<ref>{{cite book |author= ||coauthors= |title=The Unicode Standard |year= |publisher=Addison-Wesley Professional |location= |isbn=0321480910 |edition=第五版}}</ref>对外发表。Unicode至今仍在不断增修，每个新版本都加入更多新的字符。目前最新的版本为2021年9月公布的14.0.0<ref>{{Cite web |url=https://unicode.org/versions/Unicode13.0.0/ |title=存档副本 |accessdate=2020-04-13 |||}}</ref>，已经收录超过14万个[[字符 (计算机科学)|字符]]（第十万个字符在2005年获采纳）。Unicode除了视觉上的字形、编碼方法、标準的[[字符编碼]]资料外，还包含了字符特性（如大小写字母）、书写方向、拆分标准等特性的资料库。
+Unicode伴随着[[通用字符集]]的标準而发展，同时也以书本的形式<ref>{{cite book |author= ||coauthors= |title=The Unicode Standard |year= |publisher=Addison-Wesley Professional |location= |isbn=0321480910 |edition=第五版}}</ref>对外发表。Unicode至今仍在不断增修，每个新版本都加入更多新的字符。目前最新的版本为2023年9月公布的15.1.0<ref>{{Cite web |url=https://unicode.org/versions/Unicode13.0.0/ |title=存档副本 |accessdate=2020-04-13 }}</ref>，已经收录将近15万个[[字符（计算机科学）|字符]]（第十万个字符在2005年获采纳）。Unicode除了视觉上的字形、编碼方法、标準的[[字符编碼]]资料外，还包含了字符特性（如大小写字母）、书写方向、拆分标准等特性的资料库。
 Unicode的发展由非营利机构统一碼联盟负责，该机构致力于让Unicode方案取代既有的字符编碼方案。因为既有的方案往往空间非常有限，亦不适用于[[多语]]环境。
-Unicode备受认可，并广泛地应用于电脑软件的[[国际化与本地化]]过程。有很多新科技，如[[可扩展置标语言]]（Extensible Markup Language，简称：XML）、[[Java|Java程式语言]]以及现代的[[作业系统]]，都采用Unicode编碼。Unicode也被[[ISO]]作为国际标准采纳于[[通用字符集]]，即 ISO/IEC 10646，且Unicode兼容ISO/IEC 10646且完整对应各个版本标准。<ref name="Unicode-technical-intro">{{cite web |title=Technical Introduction |url=https://www.unicode.org/standard/principles.html |website=www.unicode.org |accessdate=2021-10-03}}</ref><ref>{{cite web |title=FAQ - Unicode and ISO 10646 |url=https://www.unicode.org/faq/unicode_iso.html |website=www.unicode.org |accessdate=2021-10-03}}</ref>
+Unicode备受认可，并广泛地应用于电脑软件的[[国际化与本地化]]过程。有很多新科技，如[[可扩展标记语言|可扩展置标语言]]（Extensible Markup Language，简称：XML）、[[Java|Java程式语言]]以及现代的[[操作系统]]，都采用Unicode编碼。Unicode也被[[国际标准化组织|ISO]]作为国际标准采纳于[[通用字符集]]，即 ISO/IEC 10646，且Unicode兼容ISO/IEC 10646且完整对应各个版本标准。<ref name="Unicode-technical-intro">{{cite web |title=Technical Introduction |url=https://www.unicode.org/standard/principles.html |website=www.unicode.org |accessdate=2021-10-03}}</ref><ref>{{cite web |title=FAQ - Unicode and ISO 10646 |url=https://www.unicode.org/faq/unicode_iso.html |website=www.unicode.org |accessdate=2021-10-03}}</ref>
 == 起源与发展 ==
 Unicode为解决传统[[字元编碼]]方案的侷限而产生，例如[[ISO/IEC 8859|ISO 8859-1]]所定义的字元虽然在不同的国家中广泛地使用，可是在不同国家间卻经常出现不相容的情況。很多传统的编碼方式都有共同的问题，即容许电脑处理双语环境（通常使用[[拉丁字母]]以及其本地语言），但卻无法同时支援多语言环境（指可同时处理多种语言混合的情況）。
-Unicode编碼包含了不同写法的字，如“{{Unicode|ɑ}}／{{Unicode|a}}”、“-{强／强}-”、“-{户／户／戸}-”。然而在[[汉字]]方面引起了一字多形的认定争议，詳见[[中日韩统一表意文字]]。
+Unicode编碼包含了不同写法的字，如“{{Unicode|ɑ}}／{{Unicode|a}}”、“-{强／强}-”、“-{户／户／戸}-”。然而在[[汉字]]方面引起了一字多形的认定争议，詳见[[中日韓統一表意文字|中日韩统一表意文字]]。
 在文字处理方面，统一碼为每一个字符而非字形定义唯一的代碼（即一个整数）。换句话说，统一碼以一种抽象的方式（即数字）来处理字符，并将视觉上的演繹工作（例如字体大小、外观形狀、字体形态、文体等）留給其他軟件来处理，例如网頁浏览器或是文字处理器。
-目前，几乎所有电脑系统都支持基本拉丁字母，并各自支持不同的其他编碼方式。Unicode为了和它们相互兼容，其首256个字元保留給ISO 8859-1所定义的字元，使既有的西欧语系文字的转换不需特别考量；并且把大量相同的字元重复编到不同的字元碼中去，使得旧有紛杂的编碼方式得以和Unicode编碼间互相直接转换，而不会遺失任何资讯。举例来说，[[全形]]格式区段包含了主要的拉丁字母的全形格式，在中文、日文、以及韩文字形当中，这些字元以全形的方式来呈现，而不以常见的半形形式显示，这对豎排文字和等宽排列文字有重要作用。
+目前，几乎所有电脑系统都支持基本拉丁字母，并各自支持不同的其他编碼方式。Unicode为了和它们相互兼容，其首256个字元保留給ISO 8859-1所定义的字元，使既有的西欧语系文字的转换不需特别考量；并且把大量相同的字元重复编到不同的字元碼中去，使得旧有紛杂的编碼方式得以和Unicode编碼间互相直接转换，而不会遺失任何资讯。举例来说，[[全角和半角|全形]]格式区段包含了主要的拉丁字母的全形格式，在中文、日文、以及韩文字形当中，这些字元以全形的方式来呈现，而不以常见的半形形式显示，这对豎排文字和等宽排列文字有重要作用。
 在表示一个Unicode的字元时，通常会用“U+”然后緊接着一组十六进位的数字来表示这一个字元。在[[基本多文种平面]]裏的所有字元，要用四个数字（即2位元组，共16位元，例如U+4AE0，共支持六万多个字符）；在零号平面以外的字元则需要使用五或六个数字。旧版的Unicode标準使用相近的标记方法，但卻有些微小差异：在Unicode 3.0裏使用“U-”然后緊接着八个数字，而“U+”则必须随后緊接着四个数字。
 === 标準 ===
-位于美国加州的Unicode组织允许任何愿意支付会费的公司和个人加入，其成员包含了主要的电脑軟硬体厂商，例如[[Adobe Systems|Adobe系统]]、[[苹果公司]]、[[惠普]]、[[IBM]]、[[微軟]]、[[施乐]]等。
+位于美国加州的Unicode组织允许任何愿意支付会费的公司和个人加入，其成员包含了主要的电脑軟硬体厂商，例如[[Adobe|Adobe系统]]、[[苹果公司]]、[[惠普]]、[[IBM]]、[[微軟]]、[[施乐]]等。
-世纪80年代末，组成Unicode组织的商业机构，和国际合作的[[国际标準化组织]]因为电脑普及和资讯国际化的前提下，分别各自成立了Unicode组织<ref>{{Cite web |url=http://www.unicode.org/ |title=Unicode |accessdate=2004-04-02 |||}}</ref>和ISO-10646工作小组。他们不久便发现对方的存在，大家为著相同的目的而工作。1991年，Unicode Consortium与ISO/IEC JTC1/SC2同意保持Unicode碼-{表}-与ISO 10646标準保持兼容并密切协调各自标準进一步的扩展。虽然实际上两者的字集编碼相同，但实质上两者确实为两个不同的标準。Unicode 1.1对应于ISO 10646-1:1993，Unicode 3.0对应于ISO 10646-1:2000，Unicode 3.2对应于ISO 10646-2:2001，Unicode 4.0对应于ISO 10646:2003，Unicode 5.0对应于ISO 10646:2003及附录1–3。
+世纪80年代末，组成Unicode组织的商业机构，和国际合作的[[国际标準化组织]]因为电脑普及和资讯国际化的前提下，分别各自成立了Unicode组织<ref>{{Cite web |url=http://www.unicode.org/ |title=Unicode |accessdate=2004-04-02 }}</ref>和ISO-10646工作小组。他们不久便发现对方的存在，大家为著相同的目的而工作。1991年，Unicode Consortium与ISO/IEC JTC1/SC2同意保持Unicode碼-{表}-与ISO 10646标準保持兼容并密切协调各自标準进一步的扩展。虽然实际上两者的字集编碼相同，但实质上两者确实为两个不同的标準。Unicode 1.1对应于ISO 10646-1:1993，Unicode 3.0对应于ISO 10646-1:2000，Unicode 3.2对应于ISO 10646-2:2001，Unicode 4.0对应于ISO 10646:2003，Unicode 5.0对应于ISO 10646:2003及附录1–3。
 Unicode自2.0版本开始保持了向后兼容，即新的版本仅仅增加字符，原有字符不会删除或更名。但从Unicode 14.0起，即有的区段可扩展或缩減，第一个扩展的即有区段为[[阿洪姆文]]（Ahom）。<ref>{{Cite web|title=BETA Unicode 14.0.0|url=https://www.unicode.org/versions/beta-14.0.0.html|access-date=2021-09-20|work=www.unicode.org}}</ref>
-统一碼联盟在1991年首次发布了''The Unicode Standard''。Unicode的开发结合了[[国际标準化组织]]所制定的[[ISO/IEC 10646]]，即[[通用字符集]]。Unicode与ISO/IEC 10646在编碼的运作原理相同，但''The Unicode Standard''包含了更詳尽的实现资讯、涵盖了更細节的主题，诸如位元编碼（bitwise encoding）、校对以及呈现等。''The Unicode Standard''也列举了诸多的字元特性，例如必须支援两种閱读方向的字符（由左至右或由右至左的文字閱读方向，例如阿拉伯文是由右至左）。Unicode与ISO/IEC 10646两个标準在术语上的使用有些微的不同。<ref name="Unicode-technical-intro" />
+统一碼联盟在1991年首次发布了''The Unicode Standard''。Unicode的开发结合了[[国际标準化组织]]所制定的[[通用字符集|ISO/IEC 10646]]，即[[通用字符集]]。Unicode与ISO/IEC 10646在编碼的运作原理相同，但''The Unicode Standard''包含了更詳尽的实现资讯、涵盖了更細节的主题，诸如位元编碼（bitwise encoding）、校对以及呈现等。''The Unicode Standard''也列举了诸多的字元特性，例如必须支援两种閱读方向的字符（由左至右或由右至左的文字閱读方向，例如阿拉伯文是由右至左）。Unicode与ISO/IEC 10646两个标準在术语上的使用有些微的不同。<ref name="Unicode-technical-intro" />
 在2005年，Unicode的第十万个字元引入标準，该字元用于[[马拉雅拉姆语]]。
@@ 第60行： / 第60行： @@
 }}</ref>。
-{| class="wikitable"
+{| class="wikitable sortable mw-collapsible"
 |-
 |+ Unicode版本
@@ 第80行： / 第80行： @@
 | 24
 | 7,161
-| 最初包含的文字有：[[阿拉伯字母]]、[[亚美尼亚字母]]、[[孟加拉文]]、[[注音符号]]、[[西里尔字母]]、[[天城文]]、[[格鲁吉亚字母]]、[[希腊字母]]、[[古吉拉特文]]、[[古木基文]]、[[諺文]]、[[希伯来字母]]、[[平假名]]、[[卡纳达文]]、[[片假名]]、[[寮文字]]、[[拉丁字母]]、[[马拉雅拉姆文]]、[[奥里亚文]]、[[泰米尔文]]、[[泰卢固文]]、[[泰文字]]与[[藏文]]<ref>{{cite web |title = Unicode Data 1.0.0 |url = http://www.unicode.org/Public/reconstructed/1.0.0/UnicodeData.txt |access-date = 2010-03-16 |||}}</ref>。
+| 最初包含的文字有：[[阿拉伯字母]]、[[亞美尼亞字母|亚美尼亚字母]]、[[孟加拉文]]、[[注音符號|注音符号]]、[[西里尔字母]]、[[天城文]]、[[格鲁吉亚字母]]、[[希腊字母]]、[[古吉拉特文]]、[[古木基文]]、[[谚文|諺文]]、[[希伯来字母]]、[[平假名]]、[[卡纳达文]]、[[片假名]]、[[老撾文|寮文字]]、[[拉丁字母]]、[[马拉雅拉姆文]]、[[奥里亚文]]、[[泰米尔文]]、[[泰卢固文]]、[[泰文字]]与[[藏文]]<ref>{{cite web |title = Unicode Data 1.0.0 |url = http://www.unicode.org/Public/reconstructed/1.0.0/UnicodeData.txt |access-date = 2010-03-16 }}</ref>。
 |-
 | 1.0.1
@@ 第88行： / 第88行： @@
 | 25
 | 28,359
-| 定义[[中日韩统一表意文字]]最初的20,902个字<ref>
+| 定义[[中日韓統一表意文字|中日韩统一表意文字]]最初的20,902个字<ref>
 {{cite web
 | title = Unicode Data 1.0.1
@@ 第101行： / 第101行： @@
 | 24
 | 34,233
-| 于原有2,350个[[諺文]]字母的基础上新增4,306个諺文字母。移除[[藏文]]<ref>{{cite web
+| 于原有2,350个[[谚文|諺文]]字母的基础上新增4,306个諺文字母。移除[[藏文]]<ref>{{cite web
 | title = Unicode Data 1995
 | url = http://www.unicode.org/Public/1.1-Update/UnicodeData-1.1.5.txt
@@ 第113行： / 第113行： @@
 | 25
 | 38,950
-| 移除原有的[[諺文]]字母设置，于新的编碼范围更换成11,172个新的諺文字母。[[藏文]]重新加入，但编碼位置更换。代理字符机制建立，并将第15与第16平面分配給私人使用区<ref>{{cite web
+| 移除原有的[[谚文|諺文]]字母设置，于新的编碼范围更换成11,172个新的諺文字母。[[藏文]]重新加入，但编碼位置更换。代理字符机制建立，并将第15与第16平面分配給私人使用区<ref>{{cite web
 | title = Unicode Data-2.0.14
 | url = http://www.unicode.org/Public/2.0-Update/UnicodeData-2.0.14.txt
@@ 第125行： / 第125行： @@
 | 25
 | 38,952
-| 新增[[欧元符号]]与[[对象替换字符]]<ref>{{cite web
+| 新增[[歐元符號|欧元符号]]与[[对象替换字符]]<ref>{{cite web
 | title = Unicode Data-2.1.2
 | url = http://www.unicode.org/Public/2.1-Update/UnicodeData-2.1.2.txt
@@ 第137行： / 第137行： @@
 | 38
 | 49,259
-| 新增[[切罗基文]]、[[吉茲字母]]、[[高棉字母]]、[[蒙古字母]]、[[缅文]]、[[欧甘字母]]、[[卢恩字母]]、[[僧伽罗文]]、[[叙利亚字母]]、[[它拿字母]]、[[加拿大原住民音节文字]]和[[彝文]]，以及部分[[盲文]]图案。<ref>{{cite web
+| 新增[[切羅基語#書寫系統|切罗基文]]、[[吉茲字母]]、[[高棉文|高棉字母]]、[[传统蒙古文|蒙古字母]]、[[缅文]]、[[欧甘字母]]、[[盧恩字母|卢恩字母]]、[[僧伽羅文|僧伽罗文]]、[[叙利亚字母]]、[[它拿字母]]、[[加拿大原住民音节文字]]和[[彝文]]，以及部分[[盲文]]图案。<ref>{{cite web
 | title = Unicode Data-3.0.0
 | url = http://www.unicode.org/Public/3.0-Update/UnicodeData-3.0.0.txt
@@ 第150行： / 第150行： @@
 | 41
 | 94,205
-| 新增{{tsl|en|Deseret alphabet|德瑟雷特字母}}、[[哥特字母]]、[[古意大利字母]]、[[音乐符号]]和[[拜占庭音乐符号]]，追加了42711个[[中日韩统一表意文字]]（[[中日韩统一表意文字扩展区B|CJK-B]]）。<ref>{{cite web
+| 新增{{tsl|en|Deseret alphabet|德瑟雷特字母}}、[[哥德字母|哥特字母]]、[[古意大利字母]]、[[音乐符号]]和[[拜占庭音乐符号]]，追加了42711个[[中日韓統一表意文字|中日韩统一表意文字]]（[[中日韩统一表意文字扩展区B|CJK-B]]）。<ref>{{cite web
 | title = Unicode Data-3.1.0
 | url = http://www.unicode.org/Public/3.1-Update/UnicodeData-3.1.0.txt
@@ 第163行： / 第163行： @@
 | 45
 | 95,221
-| 新增[[菲律宾]]文字[[布锡文]]、[[哈努诺文]]、[[他加禄文]]、[[塔格巴奴亚文]]。<ref>{{cite web
+| 新增[[菲律宾]]文字[[布希德文|布锡文]]、[[哈努诺文]]、[[他加禄文]]、[[塔格巴奴亚文]]。<ref>{{cite web
 | title = Unicode Data-3.2.0
 | url = http://www.unicode.org/Public/3.2-Update/UnicodeData-3.2.0.txt
@@ 第175行： / 第175行： @@
 | 52
 | 96,447
-| 新增[[塞浦路斯音节文字]]、[[林布字母]]、[[线形文字B]]、[[奥斯曼亚字母]]、[[萧伯纳字母]]、[[德宏傣文]]、[[乌加里特字母]]以及[[六十四卦]]。<ref>{{cite web
+| 新增[[塞浦路斯音節文字|塞浦路斯音节文字]]、[[林布字母]]、[[线形文字B]]、[[奥斯曼亚字母]]、[[萧伯纳字母]]、[[傣那文|德宏傣文]]、[[乌加里特字母]]以及[[六十四卦]]。<ref>{{cite web
 | title = Unicode Data-4.0.0
 | url = http://www.unicode.org/Public/4.0-Update/UnicodeData-4.0.0.txt
@@ 第187行： / 第187行： @@
 | 59
 | 97,720
-| 新增[[布吉文]]、[[格拉哥里字母]]、[[佉卢文]]、[[西双版纳傣文]]、[[古波斯文]]、[[锡尔赫特文]]和[[提非纳文]]。[[科普特字母]]从[[希腊文]]区段分离。新增了[[古希腊音乐符号]]。<ref>{{cite web
+| 新增[[布吉文]]、[[格拉哥里字母]]、[[佉卢文]]、[[新傣仂文|西双版纳傣文]]、[[古波斯文]]、[[锡尔赫特文]]和[[提非纳文]]。[[科普特字母]]从[[希臘語正寫法|希腊文]]区段分离。新增了[[古希腊音乐符号]]。<ref>{{cite web
 | title = Unicode Data
 | url = http://www.unicode.org/Public/4.1.0/ucd/UnicodeData.txt
@@ 第199行： / 第199行： @@
 | 64
 | 99,089
-| 新增[[巴厘文]]、[[楔形文字]]、[[西非书面文字]]、[[八思巴文]]和[[腓尼基字母]]。<ref>{{cite web
+| 新增[[巴厘字母|巴厘文]]、[[楔形文字]]、[[西非書面字母|西非书面文字]]、[[八思巴字母|八思巴文]]和[[腓尼基字母]]。<ref>{{cite web
 | title = Unicode Data 5.0.0
 | url = http://www.unicode.org/Public/5.0.0/ucd/UnicodeData.txt
@@ 第211行： / 第211行： @@
 | 75
 | 100,713
-| 新增[[卡利亚文]]、[[占婆字母]]、[[克耶黎文]]、[[绒巴文]]、[[利西亚文]]、[[吕底亚文]]、[[桑塔利文]]、[[拉让文]]、[[索拉什特拉文]]、[[巽他文]]和[[瓦伊文]]。同时增加了[[斐斯托斯圆盘]]、[[麻将]]和[[多米诺骨牌]]符号。对[[缅甸文]]做了重要的补充，追加了手抄缩写的额外字母，追加了[[大写ẞ]]。<ref>{{cite web
+| 新增[[卡利亚文]]、[[占語字母|占婆字母]]、[[克耶黎文]]、[[绒巴文]]、[[利西亚文]]、[[吕底亚文]]、[[桑塔利文]]、[[拉让文]]、[[索拉什特拉文]]、[[巽他文]]和[[瓦伊文]]。同时增加了[[斐斯托斯圆盘]]、[[麻将]]和[[西洋骨牌|多米诺骨牌]]符号。对[[缅文|缅甸文]]做了重要的补充，追加了手抄缩写的额外字母，追加了[[大写ẞ]]。<ref>{{cite web
 | title = Unicode Data 5.1.0
 | url =  http://www.unicode.org/Public/5.1.0/ucd/UnicodeData.txt
@@ 第223行： / 第223行： @@
 | 90
 | 107,361
-| 新增[[阿维斯陀文]]、[[巴姆穆文字]]、[[埃及象形文字]]（[[加汀纳符号表]]，涵盖1071个符号）、[[亚拉姆文]]、[[巴拉维碑铭体]]、[[帕提亚碑铭体]]、[[爪哇文]]、[[凯提文]]、[[老傈僳文]]、[[曼尼普尔文]]、[[南阿拉伯字母]]、[[古突厥文]]、[[撒玛利亚字母]]、[[老傣文]]和[[傣黯语|傣越文]]。追加4,149个[[中日韩统一表意文字]]（[[中日韩统一表意文字扩展区C|CJK-C]]），同时扩展了[[古韩文]]和[[吠陀梵文]]的字符。<ref>{{cite web
+| 新增[[阿维斯陀文]]、[[巴穆姆文字|巴姆穆文字]]、[[圣书体|埃及象形文字]]（[[加汀纳符号表]]，涵盖1071个符号）、[[亚拉姆文]]、[[巴拉维碑铭体]]、[[帕提亚碑铭体]]、[[爪哇字母|爪哇文]]、[[凯提文]]、[[老傈僳文]]、[[曼尼普尔文]]、[[南阿拉伯字母]]、[[突厥字母|古突厥文]]、[[撒玛利亚字母]]、[[老傣文]]和[[傣黯语|傣越文]]。追加4,149个[[中日韓統一表意文字|中日韩统一表意文字]]（[[中日韩统一表意文字扩展区C|CJK-C]]），同时扩展了[[古韩文]]和[[吠陀梵語|吠陀梵文]]的字符。<ref>{{cite web
 | title = Unicode Data 5.2.0
 | url = http://www.unicode.org/Public/5.2.0/ucd/UnicodeData.txt
@@ 第235行： / 第235行： @@
 | 93
 | 109,449
-| 新增[[巴塔克字母]]、[[婆罗米文字]]、[[曼达字母]]、[[纸牌]]符号、[[交通标志]]、[[地图]]符号、[[炼金术符号]]、[[颜文字]]和[[绘文字]]。追加222个额外的[[中日韩统一表意文字]]（[[中日韩统一表意文字扩展区D|CJK-D]]）。<ref>{{cite web
+| 新增[[巴塔克字母]]、[[婆罗米文|婆罗米文字]]、[[曼达字母]]、[[遊戲牌|纸牌]]符号、[[道路交通标志|交通标志]]、[[地图]]符号、[[炼金术符号]]、[[颜文字]]和[[繪文字|绘文字]]。追加222个额外的[[中日韓統一表意文字|中日韩统一表意文字]]（[[中日韩统一表意文字扩展区D|CJK-D]]）。<ref>{{cite web
 | title = Unicode Data 6.0.0
 | url = http://www.unicode.org/Public/6.0.0/ucd/UnicodeData.txt
@@ 第247行： / 第247行： @@
 | 100
 | 110,181
-| 新增[[查克马字母]]、[[麦罗埃文]]、[[麦罗埃象形文字]]、[[柏格理苗文]]、[[夏拉达文]]、[[索拉僧平文字]]和[[泰克里文]]。<ref>{{cite web
+| 新增[[查克马字母]]、[[麥羅埃字母|麦罗埃文]]、[[麦罗埃象形文字]]、[[柏格理苗文]]、[[夏拉达文]]、[[索拉僧平字母|索拉僧平文字]]和[[泰克里文]]。<ref>{{cite web
 | title = Unicode Data 6.1.0
 | url = http://www.unicode.org/Public/6.1.0/ucd/UnicodeData.txt
@@ 第283行： / 第283行： @@
 | 123
 | 113,021
-| 新增[[巴萨字母]]、[[高加索阿尔巴尼亚字母]]、[[杜普雷严速记]]、[[爱尔巴桑字母]]、[[古兰塔文]]、[[可吉文]]、[[库达瓦迪文]]、[[线形文字A]]、[[马哈佳尼文]]、[[摩尼教字母]]、[[门得文字]]、[[莫迪字母]]、[[默文]]、[[纳巴泰字母]]、[[古北阿拉伯文]]、[[古彼尔姆文]]、[[杨松录苗文]]、[[帕米拉文字]]、[[袍清豪文]]、[[诗篇巴列维文]]、[[悉昙文字]]、[[底罗仆多文]]、[[瓦兰齐地文]]以及[[Dingbat|装饰符号]]。<ref>{{cite web
+| 新增[[巴萨字母]]、[[高加索阿尔巴尼亚字母]]、[[杜普雷严速记]]、[[爱尔巴桑字母]]、[[古兰塔文]]、[[可吉文]]、[[库达瓦迪文]]、[[线形文字A]]、[[马哈佳尼文]]、[[摩尼字母|摩尼教字母]]、[[门得文字]]、[[莫迪字母]]、[[默文]]、[[纳巴泰字母]]、[[古北阿拉伯文]]、[[古彼尔姆文]]、[[救世苗文|杨松录苗文]]、[[帕米拉文字]]、[[袍清豪文]]、[[诗篇巴列维文]]、[[悉昙文字]]、[[底罗仆多文]]、[[瓦兰齐地文]]以及[[Dingbat|装饰符号]]。<ref>{{cite web
 | title = Unicode Data 7.0.0
 | url = http://www.unicode.org/Public/7.0.0/ucd/UnicodeData.txt
@@ 第292行： / 第292行： @@
 | 2015年6月
 | {{ISBN|978-1-936213-10-8}}
-| ISO/IEC 10646:2014与其第1修订版，以及[[乔治亚拉里]]符号、9个中日韩统一表意文字与41个表情符号<ref>{{cite web | title = Unicode 8.0.0 | url = http://www.unicode.org/versions/Unicode8.0.0/ | publisher=Unicode Consortium | access-date=2015-06-17 | | | }}</ref>
+| ISO/IEC 10646:2014与其第1修订版，以及[[乔治亚拉里]]符号、9个中日韩统一表意文字与41个表情符号<ref>{{cite web | title = Unicode 8.0.0 | url = http://www.unicode.org/versions/Unicode8.0.0/ | publisher=Unicode Consortium | access-date=2015-06-17 }}</ref>
 | 129
 | 120,737
-| 增加[[阿洪姆文]]、[[安纳托利亚象形文字]]、[[哈坦文]]、[[穆尔塔尼文]]、[[古匈牙利字母]]、[[萨顿手语谱写]]、5,771个[[中日韩统一表意文字]]字符（[[中日韩统一表意文字扩展区E|CJK-E]]）、[[切罗基文]]小写字母，以及五种[[绘文字]][[肤色]]修改字符。<ref>{{cite web
+| 增加[[阿洪姆文]]、[[安纳托利亚象形文字]]、[[哈坦文]]、[[穆尔塔尼文]]、[[古匈牙利字母]]、[[萨顿手语谱写]]、5,771个[[中日韓統一表意文字|中日韩统一表意文字]]字符（[[中日韩统一表意文字扩展区E|CJK-E]]）、[[切羅基語#書寫系統|切罗基文]]小写字母，以及五种[[繪文字|绘文字]][[肤色]]修改字符。<ref>{{cite web
 | title = Unicode Data 8.0.0
 | url = http://www.unicode.org/Public/8.0.0/ucd/UnicodeData.txt
@@ 第308行： / 第308行： @@
 | 135
 | 128,237
-| 新增[[阿德拉姆字母]]、[[比奇舒奇文]]、[[象雄文]]、[[尼泊尔纽瓦字母]]、[[欧塞奇字母]]、[[西夏文]]以及74个绘文字<ref>{{cite web
+| 新增[[阿德拉姆字母]]、[[比奇舒奇文]]、[[象雄语#文字|象雄文]]、[[尼泊尔纽瓦字母]]、[[欧塞奇字母]]、[[西夏文]]以及74个绘文字<ref>{{cite web
 | title = Unicode Data 9.0.0
 | url = http://www.unicode.org/Public/9.0.0/ucd/UnicodeData.txt
@@ 第317行： / 第317行： @@
 | 2017年6月
 | {{ISBN|978-1-936213-16-0}}
-| ISO/IEC 10646:2017，新增56个[[绘文字]]符号、385个[[变体假名]]字符，和3个札那巴札尔字符<ref name="Unicode10.0">{{cite web | title=Unicode 10.0.0 | url = http://www.unicode.org/versions/Unicode10.0.0/ | publisher=Unicode Consortium | access-date=2017-06-20 | | | }}</ref>
+| ISO/IEC 10646:2017，新增56个[[繪文字|绘文字]]符号、385个[[变体假名]]字符，和3个札那巴札尔字符<ref name="Unicode10.0">{{cite web | title=Unicode 10.0.0 | url = http://www.unicode.org/versions/Unicode10.0.0/ | publisher=Unicode Consortium | access-date=2017-06-20 }}</ref>
 | 139
 | 136,755
-| [[蒙古文字|札那巴札尔]]、[[索永布文字]]、[[马萨拉姆贡德文字]]、[[女书]]、[[变体假名]]（非标准[[平假名]]）、7,494个[[中日韩统一表意文字]]（[[中日韩统一表意文字扩展区F|CJK-F]]）与56个[[绘文字]]<ref>{{cite web
+| [[蒙古語文字|札那巴札尔]]、[[索永布字母|索永布文字]]、[[马萨拉姆贡德文字]]、[[女书]]、[[变体假名]]（非标准[[平假名]]）、7,494个[[中日韓統一表意文字|中日韩统一表意文字]]（[[中日韩统一表意文字扩展区F|CJK-F]]）与56个[[繪文字|绘文字]]<ref>{{cite web
 | title = Unicode Data 10.0.0
 | url = http://www.unicode.org/Public/10.0.0/ucd/UnicodeData.txt
@@ 第329行： / 第329行： @@
 | 2018年6月
 | {{ISBN|978-1-936213-19-1}}
-| ISO/IEC 10646:2017与其第1修订版，新增145个[[绘文字]]符号、5个急用汉字，[[copyleft]]符号、[[中国象棋]]符号等<ref name="Unicode11.0">{{cite web | title=Unicode 11.0.0 | url = http://www.unicode.org/versions/Unicode11.0.0/ | publisher=Unicode Consortium | access-date=2018-06-06 }}</ref>
+| ISO/IEC 10646:2017与其第1修订版，新增145个[[繪文字|绘文字]]符号、5个急用汉字，[[版权开放|copyleft]]符号、[[象棋|中国象棋]]符号等<ref name="Unicode11.0">{{cite web | title=Unicode 11.0.0 | url = http://www.unicode.org/versions/Unicode11.0.0/ | publisher=Unicode Consortium | access-date=2018-06-06 }}</ref>
 | 146
 | 137,374
-| [[多格拉文]]、[[格鲁吉亚文]]骑士体大写字母、[[贡贾拉贡德文]]、[[哈乃斐罗兴亚文字]]、[[望加锡文]]、[[梅德法伊德林文]]、[[老粟特字母]]、[[粟特字母]]以及145个绘文字<ref>{{cite web
+| [[多格拉文]]、[[格鲁吉亚文]]骑士体大写字母、[[贡贾拉贡德文]]、[[哈乃斐罗兴亚文字]]、[[望加锡文]]、[[梅德法伊德林文]]、[[粟特字母|老粟特字母]]、[[粟特字母]]以及145个绘文字<ref>{{cite web
 | title = Unicode Data 11.0.0
 | url = http://www.unicode.org/Public/11.0.0/ucd/UnicodeData.txt
@@ 第341行： / 第341行： @@
 | 2019年3月
 | {{ISBN|978-1-936213-22-1}}
-| ISO/IEC 10646:2017与其第1、2修订版，新增61个[[绘文字]]符号、一些方言[[苗文]]字符、古日文用小型[[日文假名]]、[[泰米尔文]]的符号、[[圣书体]]控制字符等<ref name="Unicode12.0">{{cite web | title=Unicode 12.0.0 | url = http://www.unicode.org/versions/Unicode12.0.0/ | publisher=Unicode Consortium | access-date=2019-03-13
+| ISO/IEC 10646:2017与其第1、2修订版，新增61个[[繪文字|绘文字]]符号、一些方言[[苗文]]字符、古日文用小型[[日語假名|日文假名]]、[[泰米尔文]]的符号、[[圣书体]]控制字符等<ref name="Unicode12.0">{{cite web | title=Unicode 12.0.0 | url = http://www.unicode.org/versions/Unicode12.0.0/ | publisher=Unicode Consortium | access-date=2019-03-13
 }}</ref>
 | 150
@@ 第357行： / 第357行： @@
 | 150
 | 137,929
-| 只在U+32FF新增了一个字符，即日本新年号[[令和]]的合字。<ref>{{cite web |url = http://blog.unicode.org/2019/05/unicode-12-1-en.html |title = Unicode Version 12.1 released in support of the Reiwa Era |website=blog.unicode.org |access-date=2019-05-07 |||}}</ref>
+| 只在U+32FF新增了一个字符，即日本新年号[[令和]]的合字。<ref>{{cite web |url = http://blog.unicode.org/2019/05/unicode-12-1-en.html |title = Unicode Version 12.1 released in support of the Reiwa Era |website=blog.unicode.org |access-date=2019-05-07 }}</ref>
 |-
 | 13.0
@@ 第365行： / 第365行： @@
 | 154
 | 143,924
-| [[花剌子模语]]、[[迪维西语]]的{{tsl|en|Dhives akuru|岛字母}}、[[契丹小字]]、[[库尔德语字母]]的[[库尔德语字母#雅茲迪文|雅茲迪文]]、4969个中日韩统一表意文字（4939个位于[[中日韩统一表意文字扩展区G|扩展区G]]（[[CJK-G]]））、书写[[豪萨语]]用的阿拉伯附加字母、[[沃洛夫语]]、其他非洲语言、在巴基斯坦书写{{tsl|en|Hindko|印德科语}}和[[旁遮普语]]的补充字元、[[粵语]]用的[[粵语注音符号|注音符号]]、[[共享创意]]授权符号、1970年代和1980年代电讯用图符、55个[[绘文字]]<ref>{{cite web |url = http://blog.unicode.org/2020/03/announcing-unicode-standard-version-130.html |title = Announcing The Unicode® Standard, Version 13.0 |website = blog.unicode.org |access-date=2020-03-11 }}</ref>
+| [[花剌子模语]]、[[迪维希语|迪维西语]]的{{tsl|en|Dhives akuru|岛字母}}、[[契丹小字]]、[[库尔德语字母]]的[[库尔德语字母#雅茲迪文|雅茲迪文]]、4969个中日韩统一表意文字（4939个位于[[中日韩统一表意文字扩展区G|扩展区G]]（[[中日韓統一表意文字擴展區G|CJK-G]]））、书写[[豪萨语]]用的阿拉伯附加字母、[[沃洛夫语]]、其他非洲语言、在巴基斯坦书写{{tsl|en|Hindko|印德科语}}和[[旁遮普語|旁遮普语]]的补充字元、[[粵语]]用的[[粵语注音符号|注音符号]]、[[知识共享|共享创意]]授权符号、1970年代和1980年代电讯用图符、55个[[繪文字|绘文字]]<ref>{{cite web |url = http://blog.unicode.org/2020/03/announcing-unicode-standard-version-130.html |title = Announcing The Unicode® Standard, Version 13.0 |website = blog.unicode.org |access-date=2020-03-11 }}</ref>
 |-
 |14.0
@@ 第381行： / 第381行： @@
 |161
 |149,186
-| 新增[[纳格蒙达里文字]]、[[克维文]]，增加4193个[[中日韩统一表意文字]]字符（4192个[[中日韩统一表意文字扩展区H|扩H]]、1个[[中日韩统一表意文字扩展区C|扩C]]）、20个[[绘文字]]等字符。 <ref>{{cite web |url = http://blog.unicode.org/2022/09/announcing-unicode-standard-version-150.html |title = Announcing The Unicode® Standard, Version 15.0 |website = blog.unicode.org |access-date = 2022-10-03}}</ref>
+| 新增[[纳格蒙达里文字]]、[[克维文]]，增加4193个[[中日韓統一表意文字|中日韩统一表意文字]]字符（4192个[[中日韩统一表意文字扩展区H|扩H]]、1个[[中日韩统一表意文字扩展区C|扩C]]）、20个[[繪文字|绘文字]]等字符。 <ref>{{cite web |url = http://blog.unicode.org/2022/09/announcing-unicode-standard-version-150.html |title = Announcing The Unicode® Standard, Version 15.0 |website = blog.unicode.org |access-date = 2022-10-03}}</ref>
+|-
+|15.1
+|2023年9月
+|
+|
+|
+|
+|
 |}
@@ 第400行： / 第408行： @@
 === 编码方式 ===
-统一碼的编碼方式与[[ISO 10646]]的[[通用字符集]]概念相对应。目前实际应用的统一碼版本对应于[[UCS-2]]，使用16[[位元|位]]的编码空间。也就是每个字符占用2个[[字节]]。这样理论上一共最多可以表示2<sup>16</sup>（即65536）个字符。基本满足各种语言的使用。实际上目前版本的统一碼并未完全使用这16位编码，而是保留了大量空间以作为特殊使用或将来扩展。
+统一碼的编碼方式与[[通用字符集|ISO 10646]]的[[通用字符集]]概念相对应。目前实际应用的统一碼版本对应于[[UTF-16|UCS-2]]，使用16[[位元|位]]的编码空间。也就是每个字符占用2个[[字节]]。这样理论上一共最多可以表示2<sup>16</sup>（即65536）个字符。基本满足各种语言的使用。实际上目前版本的统一碼并未完全使用这16位编码，而是保留了大量空间以作为特殊使用或将来扩展。
-上述16位统一碼字符构成[[基本多文种平面]]。最新（但未实际广泛使用）的统一碼版本定义了16个[[辅助平面]]，两者合起来至少需要占据21位的编码空间，比3字节略少。但事实上辅助平面字符仍然占用4字节编码空间，与[[UCS-4]]保持一致。未来版本会扩充到ISO 10646-1实现级别3，即涵盖UCS-4的所有字符。UCS-4是更大而尚未填充完全的31位字符集，加上恒为0的首位，共需占据32位，即4字节。理论上最多能表示2<sup>31</sup>个字符，完全可以涵盖一切语言所用的符号。
+上述16位统一碼字符构成[[基本多文种平面]]。最新（但未实际广泛使用）的统一碼版本定义了16个[[unicode字符平面映射|辅助平面]]，两者合起来至少需要占据21位的编码空间，比3字节略少。但事实上辅助平面字符仍然占用4字节编码空间，与[[UTF-32|UCS-4]]保持一致。未来版本会扩充到ISO 10646-1实现级别3，即涵盖UCS-4的所有字符。UCS-4是更大而尚未填充完全的31位字符集，加上恒为0的首位，共需占据32位，即4字节。理论上最多能表示2<sup>31</sup>个字符，完全可以涵盖一切语言所用的符号。
 基本多文种平面的字符的编码为U+hhhh，其中每个h代表一个[[十六进制]]数字，与UCS-2编码完全相同。而其对应的4字节UCS-4编码后两个字节一致，前两个字节则所有位均为0。
@@ 第411行： / 第419行： @@
 例如，如果一个仅包含基本7位[[ASCII]]字符的Unicode文件，如果每个字符都使用2字节的原Unicode编码传输，其第一字节的8位始终为0。这就造成了比较大的浪费。对于这种情况，可以使用UTF-8编码，这是变长编码，它将基本7位ASCII字符仍用7位编码表示，占用一个字节（首位补0）。而遇到与其他Unicode字符混合的情况，将按一定算法转换，每个字符使用1-3个字节编码，并利用首位为0或1识别。这样对以7位ASCII字符为主的西文文档就大幅节省了编码长度（具体方案参见[[UTF-8]]）。类似的，对未来会出现的需要4个字节的辅助平面字符和其他UCS-4扩充字符，2字节编码的[[UTF-16]]也需要通过一定的算法转换。
-再如，如果直接使用与Unicode编码一致（仅限于BMP字符）的UTF-16编码，由于每个字符占用了两个字节，在[[麦金塔电脑]]（[[麦金塔电脑|Mac]]）机和[[个人电脑]]上，对字节顺序的理解不一致。这时同一字节流可能会解释为不同内容，如某字符为十六进制编码4E59，按两个字节拆分为4E和59，在Mac上读取时是从低字节开始，那么在Mac OS会认为此4E59编码为594E，找到的字符为“奎”，而在Windows上从高字节开始读取，则编码为U+4E59的字符为“乙”。就是说在Windows下以UTF-16编码保存一个字符“乙”，在Mac OS环境下开启会显示成“奎”。此类情况说明UTF-16的编码顺序若不加以人为定义就可能发生混淆，于是在UTF-16编码实现方式中使用了[[位元组序#大端序|大端序]]（Big-Endian，简写为UTF-16 BE）、[[位元组序#大端序|小端序]]（Little-Endian，简写为UTF-16 LE）的概念，以及可附加的[[位元组顺序记号]]解决方案，目前在个人电脑上的Windows系统和Linux系统对于UTF-16编码默认使用UTF-16 LE。（具体方案参见[[UTF-16]]）
+再如，如果直接使用与Unicode编码一致（仅限于BMP字符）的UTF-16编码，由于每个字符占用了两个字节，在[[麦金塔|麦金塔电脑]]（[[麦金塔|Mac]]）机和[[个人电脑]]上，对字节顺序的理解不一致。这时同一字节流可能会解释为不同内容，如某字符为十六进制编码4E59，按两个字节拆分为4E和59，在Mac上读取时是从低字节开始，那么在Mac OS会认为此4E59编码为594E，找到的字符为“奎”，而在Windows上从高字节开始读取，则编码为U+4E59的字符为“乙”。就是说在Windows下以UTF-16编码保存一个字符“乙”，在Mac OS环境下开启会显示成“奎”。此类情况说明UTF-16的编码顺序若不加以人为定义就可能发生混淆，于是在UTF-16编码实现方式中使用了[[位元组序#大端序|大端序]]（Big-Endian，简写为UTF-16 BE）、[[位元组序#大端序|小端序]]（Little-Endian，简写为UTF-16 LE）的概念，以及可附加的[[位元组顺序记号]]解决方案，目前在个人电脑上的Windows系统和Linux系统对于UTF-16编码默认使用UTF-16 LE。（具体方案参见[[UTF-16]]）
-此外Unicode的实现方式还包括[[UTF-7]]、[[Punycode]]、[[UTF-16的八位元相容编碼方案|CESU-8]]、[[统一碼标準压缩方案|SCSU]]、[[UTF-32]]、[[GB18030]]等，这些实现方式有些仅在一定的国家和地区使用，有些则属于未来的规划方式。目前通用的实现方式是UTF-16小端序（LE）、UTF-16大端序（BE）和UTF-8。在微软公司[[Windows XP]]附带的[[记事本]]（Notepad）中，“另存为”对话框可以选择的四种编码方式除去非Unicode编码的[[ANSI]]（对于英文系统即[[ASCII]]编码，中文系统则为[[GB2312]]或[[Big5]]编码）外，其余三种为“Unicode”（对应UTF-16 LE）、“Unicode big endian”（对应UTF-16 BE）和“UTF-8”。
+此外Unicode的实现方式还包括[[UTF-7]]、[[国际化域名编码|Punycode]]、[[UTF-16的八位元相容编碼方案|CESU-8]]、[[统一碼标準压缩方案|SCSU]]、[[UTF-32]]、[[GB 18030|GB18030]]等，这些实现方式有些仅在一定的国家和地区使用，有些则属于未来的规划方式。目前通用的实现方式是UTF-16小端序（LE）、UTF-16大端序（BE）和UTF-8。在微软公司[[Windows XP]]附带的[[記事本|记事本]]（Notepad）中，“另存为”对话框可以选择的四种编码方式除去非Unicode编码的[[美國國家標準協會|ANSI]]（对于英文系统即[[ASCII]]编码，中文系统则为[[GB 2312|GB2312]]或[[Big5]]编码）外，其余三种为“Unicode”（对应UTF-16 LE）、“Unicode big endian”（对应UTF-16 BE）和“UTF-8”。
-目前辅助平面的工作主要集中在第二和第三平面的[[中日韩统一表意文字]]，因此包括[[GBK]]、[[GB18030]]、[[Big5]]等[[简体中文]]、[[繁体中文]]、[[日文]]、[[韩文]]以及越南[[喃字]]的各种编码与Unicode的协调性受重点关注。考虑到Unicode最终要涵盖所有的字符。从某种意义而言，这些编码方式也可视作Unicode的出现于其之前的'''既成事实'''的实现方式，如同[[ASCII]]及其扩展[[Latin-1]]一样，后两者的字符在16位Unicode编码空间中的编码第一字节各位全为0，第二字节编码与原编码完全一致。但上述东亚语言编码与Unicode编码的对应关系要复杂得多。
+目前辅助平面的工作主要集中在第二和第三平面的[[中日韓統一表意文字|中日韩统一表意文字]]，因此包括[[汉字内码扩展规范|GBK]]、[[GB 18030|GB18030]]、[[Big5]]等[[简化字|简体中文]]、[[繁体字|繁体中文]]、[[日語書寫系統|日文]]、[[谚文|韩文]]以及越南[[喃字]]的各种编码与Unicode的协调性受重点关注。考虑到Unicode最终要涵盖所有的字符。从某种意义而言，这些编码方式也可视作Unicode的出现于其之前的'''既成事实'''的实现方式，如同[[ASCII]]及其扩展[[ISO/IEC 8859-1|Latin-1]]一样，后两者的字符在16位Unicode编码空间中的编码第一字节各位全为0，第二字节编码与原编码完全一致。但上述东亚语言编码与Unicode编码的对应关系要复杂得多。
 === Unicode字符平面映射 ===
@@ 第431行： / 第439行： @@
 == XML和Unicode ==
-[[XML]]及其子集[[XHTML]]采用[[UTF-8]]作为标准[[字符编码|字符集]]，理论上我们可以在各种支持XML标准的浏览器上显示任何地区文字的网页，只要电脑本身安装有合适的字体即可。可以利用<code><nowiki>&#</nowiki></code><var>nnn</var><code><nowiki>;</nowiki></code>的格式显示特定的字符。<var>nnn</var>代表该字符的[[十进制]]Unicode代码。如果采用[[十六进制]]代码，在编码之前加上<code><nowiki>x</nowiki></code>字符即可。但部分旧版本的浏览器可能无法识别十六进制代码。
+[[可扩展标记语言|XML]]及其子集[[可扩展超文本标记语言|XHTML]]采用[[UTF-8]]作为标准[[字符编码|字符集]]，理论上我们可以在各种支持XML标准的浏览器上显示任何地区文字的网页，只要电脑本身安装有合适的字体即可。可以利用<code><nowiki>&#</nowiki></code><var>nnn</var><code><nowiki>;</nowiki></code>的格式显示特定的字符。<var>nnn</var>代表该字符的[[十进制]]Unicode代码。如果采用[[十六进制]]代码，在编码之前加上<code><nowiki>x</nowiki></code>字符即可。但部分旧版本的浏览器可能无法识别十六进制代码。
 过去电脑编码的8位标准，使每个国家都只按国家使用的字符而编定各自的编码系统；而对于部份字符系统比较复杂的语言，如[[越南语]]，又或者东亚国家的大型字符集，都不能在8位的环境下正常显示。
@@ 第451行： / 第459行： @@
 |align="right"|<code><nowiki>&amp;#x0394;</nowiki></code>||大写[[希腊字母]]“Delta”||align="center"|Δ
 |-
-|align="right"|<code><nowiki>&amp;#x0419;</nowiki></code>||大写[[斯拉夫字母]]“Short I”||align="center"|Й
+|align="right"|<code><nowiki>&amp;#x0419;</nowiki></code>||大写[[西里尔字母|斯拉夫字母]]“Short I”||align="center"|Й
 |-
 |align="right"|<code><nowiki>&amp;#x05E7;</nowiki></code>||[[希伯来字母]]“Qof”||align="center"|ק
@@ 第465行： / 第473行： @@
 |align="right"|<code><nowiki>&amp;#x30A2;</nowiki></code>||日语[[片假名]]“A”||align="center"|ア
 |-
-|align="right"|<code><nowiki>&amp;#x53F6;</nowiki></code>||[[简体中文|简体]][[汉字]]“-{叶}-”||align="center"|-{叶}-
+|align="right"|<code><nowiki>&amp;#x53F6;</nowiki></code>||[[简化字|简体]][[汉字]]“-{叶}-”||align="center"|-{叶}-
 |-
-|align="right"|<code><nowiki>&amp;#x8449;</nowiki></code>||[[繁体中文|-{zh-cn:繁体;zh-tw:正体;zh-hk:繁体;}-]]汉字“-{叶}-”||align="center"|-{叶}-
+|align="right"|<code><nowiki>&amp;#x8449;</nowiki></code>||[[繁体字|繁体]]汉字“-{叶}-”||align="center"|-{叶}-
 |-
 |align="right"|<code><nowiki>&amp;#xC5FD;</nowiki></code>||[[谚文|韩国音节文字]]“Yeop”||align="center"|엽
 |}
-一些多语言支持的网页浏览器，比如[[Microsoft Windows]]系统的[[Internet Explorer]] 5.5及以上版本，以及跨平台的浏览器[[Mozilla]]/[[Netscape]] 6，可以在安裝时根据需要动态地使用相应的字符集，预先安装了合适的语言包，就可以同时显示页面上的各种Unicode字符。[[Internet Explorer]] 5.5还提出用户可以在需要新字体时，即装即用。另外的浏览器如[[Netscape Navigator]] 4.77，则只能显示跟页面编码相应字符集中的文字。当你使用后一种浏览器时，你不大可能预先安装所有的字体，即使有了字体，浏览器也不一定能将这些字体完全应用起来。可能遇到的情况是，这种浏览器只能够显示部分文字，因为它们是按照标准编码，尽管理论上在兼容的系统中，只要有了相应的[[Code2000]]字体，就可以正确显示。一种变通的办法，是将某些少见的字符，通过“名称实体引用”的方式来使用。
+一些多语言支持的网页浏览器，比如[[Microsoft Windows]]系统的[[Internet Explorer]] 5.5及以上版本，以及跨平台的浏览器[[Mozilla]]/[[网景|Netscape]] 6，可以在安裝时根据需要动态地使用相应的字符集，预先安装了合适的语言包，就可以同时显示页面上的各种Unicode字符。[[Internet Explorer]] 5.5还提出用户可以在需要新字体时，即装即用。另外的浏览器如[[Netscape Navigator]] 4.77，则只能显示跟页面编码相应字符集中的文字。当你使用后一种浏览器时，你不大可能预先安装所有的字体，即使有了字体，浏览器也不一定能将这些字体完全应用起来。可能遇到的情况是，这种浏览器只能够显示部分文字，因为它们是按照标准编码，尽管理论上在兼容的系统中，只要有了相应的[[Code2000]]字体，就可以正确显示。一种变通的办法，是将某些少见的字符，通过“名称实体引用”的方式来使用。
 == 输入方法 ==
 不同的操作系统，各有直接输入Unicode字符的方法：
-* 基于[[X Window System]]的[[Linux]]系统，如[[Ubuntu]]的Gnome Terminal，首先按下{{key press|[[控制键|Ctrl]]|[[换档键|Shift]]|U}}，然后输入16进制Unicode数，如[[间隔号|interpunct间隔符]]输入{{key press|0}}{{key press|0}}{{key press|b}}{{key press|7}}，最后按空格键；
+* 基于[[X視窗系統|X Window System]]的[[Linux]]系统，如[[Ubuntu]]的Gnome Terminal，首先按下{{key press|[[控制键|Ctrl]]|[[换档键|Shift]]|U}}，然后输入16进制Unicode数，如[[间隔号|interpunct间隔符]]输入{{key press|0}}{{key press|0}}{{key press|b}}{{key press|7}}，最后按空格键；
 * [[Microsoft Windows]]系统，按下{{key press|[[转换键|Alt]]|0}}{{key press|1}}{{key press|8}}{{key press|3}}表示[[间隔号|interpunct间隔符]]。
-在[[SGML]]、[[HTML]]、[[XML]]的文本中，使用[[字符值引用]]或[[XML与HTML字符实体引用列表|字符实体引用]]表示一个Unicode字符。
+在[[标准通用标记语言|SGML]]、[[HTML]]、[[可扩展标记语言|XML]]的文本中，使用[[字符值引用]]或[[XML与HTML字符实体引用列表|字符实体引用]]表示一个Unicode字符。
 === 中文输入法 ===
@@ 第486行： / 第494行： @@
 * [[仓頡输入法]]已为Unicode汉字、类汉字编碼，可以在仓頡输入法方式下通过仓頡碼输入方式输入Unicode内的中日韩汉字及韩文。以仓頡输入法第五代为例，例如[[汉字]]“㗎”输入“口大口木”，汉字“胥”输入“弓人月”，汉字“㿱”输入“手中木竹水”，朝鲜文字“닮”输入“-{尸}-卜-{尸}-女口”。由于[[朱邦复工作室]]使用的[[仓頡系统]]收字比Unicode还多，目前Unicode既有汉字皆已有仓頡编碼。
 * [[郑碼]]已为Unicode汉字、类汉字编碼，可以在郑碼输入法方式下通过[[郑碼]]字碼输入方式输入Unicode内的中日韩汉字及韩文。例如[[汉字]]“㗎”输入“JYJF”，汉字“胥”输入“XIQ”，汉字“㿱”输入“DPXI”，朝鲜文字“길”输入“XIYY”。
-* [[海峰五笔]]此输入法已经直接支持透过[[五笔]]碼输入方式输入Unicode内的任意中日韩汉字，但无法使用鍵入Unicode碼的方式输入。例如[[汉字]]（Unicode部分）“㗎”为“keks”，[[CJK]]扩展B区的“𣿱”为“iyho”和CJK扩展C区的“𫆦”为“muih”。
+* [[海峰五笔]]此输入法已经直接支持透过[[五笔]]碼输入方式输入Unicode内的任意中日韩汉字，但无法使用鍵入Unicode碼的方式输入。例如[[汉字]]（Unicode部分）“㗎”为“keks”，[[中日韓統一表意文字|CJK]]扩展B区的“𣿱”为“iyho”和CJK扩展C区的“𫆦”为“muih”。
 * 新[[注音输入法]]在输入法启动狀态时，打入鍵盘上的“多功能前导字元鍵”（即通用鍵盘上之“`”），第一次使用会弹出说明。输入Unicode字元“胥”则是在鍵盘上鍵入“`U5066”。而韩语中的“셅”，则输入“`UC145”。而要输入[[日本汉字|日语自制汉字]]“峠”，则是“`U5CE0”。
 * [[VimIM]]在Vim环境中，可以直接鍵入十进制或十六进制Unicode碼。既不需要启动输入法，也不需要碼表。
-* [[嘸蝦米输入法]]，支援Unicode，以26个[[英文]]字母为组字按鍵，可直接输入符号、[[日文汉字]]及[[平假名]]、[[片假名]]，但汉字部份一般只支援基本繁体中文、简体中文，[[中日韩统一表意文字扩展区A|扩展A区]]的汉字要另行扩充编碼才能输入，[[中日韩统一表意文字扩展区B|扩展B区]]的汉字尚无编碼。
+* [[嘸蝦米输入法]]，支援Unicode，以26个[[英語正寫法|英文]]字母为组字按鍵，可直接输入符号、[[日本汉字|日文汉字]]及[[平假名]]、[[片假名]]，但汉字部份一般只支援基本繁体中文、简体中文，[[中日韩统一表意文字扩展区A|扩展A区]]的汉字要另行扩充编碼才能输入，[[中日韩统一表意文字扩展区B|扩展B区]]的汉字尚无编碼。
 === 日文输入法 ===
@@ 第510行： / 第518行： @@
 * [[Unicode字符列表]]
 * [[Unicode数字]]
-* [[中日韩统一表意文字]]（CJK/Unihan）
+* [[中日韓統一表意文字|中日韩统一表意文字]]（CJK/Unihan）
 * [[通用字符集]]
 * [[宽字元]]