SC-TC Convension

Last-modified: 02:00AM, Feb 21, 2002 CST
#####
##### Variants:(Pair)對、(Group)組
#####

Pair(對)是談兩個字,可能有順序,Group(組)是談兩個或以上的字。
之前談的繁簡對照多是1-1 Pair的 (簡, 繁) 對。但在Unicode的
Variants中:
      Pair 1:    A    B        kSimplifiedVariant
跟    Pair 2:    B    A        kTraditionalVariant
及    Pair 3:    A    B        kZVariant
是不一樣的三個Pairs。所以 Unihan-3.1.1.txt中,原始有 10087 Pairs。
若將這三個Pairs視為一樣的 (A, B) Pair,則有 4124 Pairs。
Unicode中,也有可能:
        Pair 1:    A    B
        Pair 2:    C    D
        Pair 3:    B    C
則這三個Pairs可形成一個 "Group" (組):
        A    B    C    D
有互為Variants的關係,順序不重要了。所以在:
        http://www.iis.sinica.edu.tw/~wuch/idn/variants/variants.htm
最後第四步var-group後的表,其 Pairs數應該是指 Groups數:
        Variants數        Groups數
            2               2583
            3                464
            4                107
            :
即有 2583 Groups是有2 Variants (A B),464 Groups有 3 Variants
(L M N),107 Groups有4 Variants (P Q R S),……
看 http://www.iis.sinica.edu.tw/~wuch/idn/variants/var-group-rawlong.htm
每一列就是一個 Group,可能有 2~9個字(Variants)。

#####
##### 目前有八大類的表
#####

1. 簡化字總表 (大陸):2271 個(簡、繁)對
   1956年國務院公布的「漢字簡化方案」中的全部簡化字,分成三個表:
	表一: 350個不作偏旁用的簡化字
        表二: 146個,其中
                   132個可作偏旁用的簡化字,
                    14個簡化偏旁不能單獨使用。
                   除此 146個簡化字和簡化偏旁外,不得任意將某一
                   簡化字的部份結構當作簡化偏旁使用。
	表三:1753個,應用第二表的簡化字和簡化偏旁作為偏旁
                      得出來的簡化字。
	附錄有  39個,從「第一批簡體字整理表」摘錄出來(3個重複)。 
        計有 350 + 132 + 1753 + 39 - 3 = 2271 個。

    TWNIC版:2306
	http://cdns.twnic.net.tw/cjktable/simtab.html
    曾老師舊版:2322
	http://www.iis.sinica.edu.tw/~wuch/idn/tslist/NV42S.u8
    曾老師新版:(PENDING)

2. TSConv3 (IETF Draft): 2096
    http://cdns.twnic.net.tw/cjktable/tsconv03.html
    以簡化字總表為基礎

3. Unihan.txt 的Variants 表 (Unicode): 4124 Pairs,3205 Groups
    http://www.iis.sinica.edu.tw/~wuch/idn/variants/variants.htm
    是用 Unihan-3.1.1.txt。在 Unihan-3.2 Beta 2中有一些增刪。

4. CCCII 的對照表 (台灣): 2418 Groups
   http://www.iis.sinica.edu.tw/~wuch/idn/cccii/cccii-var.htm
   用的是 Unihan-3.1.1.txt內的  Unicode-to-CCCII 資料,共有 2418 Groups
	Variants數      Groups數
	        2       2248
	        3        159
	        4         10
	        5          1
   編碼結構見:http://www.iis.sinica.edu.tw/~wuch/idn/cccii/cccii.htm

5. Windows 2000的對照表 (Microsoft): 2473
   我用曾老師給我的版本:
   http://www.iis.sinica.edu.tw/~wuch/idn/tslist/B5MS22S.u8

6. Yasuoka 的 Variants.Z 及 UniVariants.Z (日本)
   http://kanji.zinbun.kyoto-u.ac.jp/~yasuoka/ftp/CJKtable/

7. 教育部「異體字字典」(民國九十年十一月正式版第三版)
   http://140.111.1.40/
   "編輯略例" (http://140.111.1.40/bian/liueli.htm):
    總收字為106,094字,其中正字29,866字,異體字76,228字 (含待考之附錄字)。 

8. 漢語大字典
   http://www.iis.sinica.edu.tw/~wuch/idn/unihan32/unihan32-note.htm
   Unihan-3.2d2.txt 提及,有 54728 字。


#####
##### 對照比較表
#####

### 利用五個 Source Tables
tslist-twnic.txt	有2306對,簡化字總表,
	TWNIC		來自 http://cdns.twnic.net.tw/cjktable/simtab.html

tslist-tsconv.txt	有2096對,TSConv3,
	Tsconv		來自 http://cdns.twnic.net.tw/cjktable/tsconv03.html

tslist-tseng.txt	有2322對,簡化字總表,
	Tseng		來自曾老師的 NV42S.u8 

tslist-win2k.txt	有2473對,win2k繁簡表,
	win2k		來自曾老師的 B5MS22S.u8 (扣掉頭尾的符號:4+9=13個)

tslist-unicode.txt 有10087對,Unicode Variants,來自 Unihan.txt
	0Var		原 kzVariant
	1Simp		原 kSimplifiedVariant
	2Trad		原 kTraditionalVariant
	3Semantic	原 kSemanticVariant
	4SpecSem		原 kSpecializedSemanticVariant

### 產生:總對照表
tslist.txt		有7782對,總對照表

有字型顯示、方便檢查的表:
	由 tslist-pre.c 程式產生 tslist-pre.htmtslist-pre-u8.txttslist.c 程式產生 tslist.htmtslist-u8.txt


### 其它
利用:
    % grep win2k tslist.txt | grep -v Tseng
即可列出 win2k 有,但  NV42S.u8 (Tseng) 沒有的對照Pairs。