SC-TC Convension
Last-modified: 02:00AM, Feb 21, 2002 CST
#####
##### Variants:(Pair)對、(Group)組
#####
Pair(對)是談兩個字,可能有順序,Group(組)是談兩個或以上的字。
之前談的繁簡對照多是1-1 Pair的 (簡, 繁) 對。但在Unicode的
Variants中:
Pair 1: A B kSimplifiedVariant
跟 Pair 2: B A kTraditionalVariant
及 Pair 3: A B kZVariant
是不一樣的三個Pairs。所以 Unihan-3.1.1.txt中,原始有 10087 Pairs。
若將這三個Pairs視為一樣的 (A, B) Pair,則有 4124 Pairs。
Unicode中,也有可能:
Pair 1: A B
Pair 2: C D
Pair 3: B C
則這三個Pairs可形成一個 "Group" (組):
A B C D
有互為Variants的關係,順序不重要了。所以在:
http://www.iis.sinica.edu.tw/~wuch/idn/variants/variants.htm
最後第四步var-group後的表,其 Pairs數應該是指 Groups數:
Variants數 Groups數
2 2583
3 464
4 107
:
即有 2583 Groups是有2 Variants (A B),464 Groups有 3 Variants
(L M N),107 Groups有4 Variants (P Q R S),……
看 http://www.iis.sinica.edu.tw/~wuch/idn/variants/var-group-rawlong.htm
每一列就是一個 Group,可能有 2~9個字(Variants)。
#####
##### 目前有八大類的表
#####
1. 簡化字總表 (大陸):2271 個(簡、繁)對
1956年國務院公布的「漢字簡化方案」中的全部簡化字,分成三個表:
表一: 350個不作偏旁用的簡化字
表二: 146個,其中
132個可作偏旁用的簡化字,
14個簡化偏旁不能單獨使用。
除此 146個簡化字和簡化偏旁外,不得任意將某一
簡化字的部份結構當作簡化偏旁使用。
表三:1753個,應用第二表的簡化字和簡化偏旁作為偏旁
得出來的簡化字。
附錄有 39個,從「第一批簡體字整理表」摘錄出來(3個重複)。
計有 350 + 132 + 1753 + 39 - 3 = 2271 個。
TWNIC版:2306
http://cdns.twnic.net.tw/cjktable/simtab.html
曾老師舊版:2322
http://www.iis.sinica.edu.tw/~wuch/idn/tslist/NV42S.u8
曾老師新版:(PENDING)
2. TSConv3 (IETF Draft): 2096
http://cdns.twnic.net.tw/cjktable/tsconv03.html
以簡化字總表為基礎
3. Unihan.txt 的Variants 表 (Unicode): 4124 Pairs,3205 Groups
http://www.iis.sinica.edu.tw/~wuch/idn/variants/variants.htm
是用 Unihan-3.1.1.txt。在 Unihan-3.2 Beta 2中有一些增刪。
4. CCCII 的對照表 (台灣): 2418 Groups
http://www.iis.sinica.edu.tw/~wuch/idn/cccii/cccii-var.htm
用的是 Unihan-3.1.1.txt內的 Unicode-to-CCCII 資料,共有 2418 Groups
Variants數 Groups數
2 2248
3 159
4 10
5 1
編碼結構見:http://www.iis.sinica.edu.tw/~wuch/idn/cccii/cccii.htm
5. Windows 2000的對照表 (Microsoft): 2473
我用曾老師給我的版本:
http://www.iis.sinica.edu.tw/~wuch/idn/tslist/B5MS22S.u8
6. Yasuoka 的 Variants.Z 及 UniVariants.Z (日本)
http://kanji.zinbun.kyoto-u.ac.jp/~yasuoka/ftp/CJKtable/
7. 教育部「異體字字典」(民國九十年十一月正式版第三版)
http://140.111.1.40/
"編輯略例" (http://140.111.1.40/bian/liueli.htm):
總收字為106,094字,其中正字29,866字,異體字76,228字 (含待考之附錄字)。
8. 漢語大字典
http://www.iis.sinica.edu.tw/~wuch/idn/unihan32/unihan32-note.htm
Unihan-3.2d2.txt 提及,有 54728 字。
#####
##### 對照比較表
#####
### 利用五個 Source Tables
tslist-twnic.txt 有2306對,簡化字總表,
TWNIC 來自 http://cdns.twnic.net.tw/cjktable/simtab.html
tslist-tsconv.txt 有2096對,TSConv3,
Tsconv 來自 http://cdns.twnic.net.tw/cjktable/tsconv03.html
tslist-tseng.txt 有2322對,簡化字總表,
Tseng 來自曾老師的 NV42S.u8
tslist-win2k.txt 有2473對,win2k繁簡表,
win2k 來自曾老師的 B5MS22S.u8 (扣掉頭尾的符號:4+9=13個)
tslist-unicode.txt 有10087對,Unicode Variants,來自 Unihan.txt
0Var 原 kzVariant
1Simp 原 kSimplifiedVariant
2Trad 原 kTraditionalVariant
3Semantic 原 kSemanticVariant
4SpecSem 原 kSpecializedSemanticVariant
### 產生:總對照表
tslist.txt 有7782對,總對照表
有字型顯示、方便檢查的表:
由 tslist-pre.c 程式產生 tslist-pre.htm 、 tslist-pre-u8.txt
由 tslist.c 程式產生 tslist.htm 、 tslist-u8.txt
### 其它
利用:
% grep win2k tslist.txt | grep -v Tseng
即可列出 win2k 有,但 NV42S.u8 (Tseng) 沒有的對照Pairs。