4 Byte的編碼輸入有AP支援限定喔,目前測試確定NotePad和Word都可以的,但很多軟體不支援4 Byte編碼


簡單的講一下Unicode 4 Byte的規則

high Surrogate 參數的數值之範圍是從 U+D800 到 U+DBFF

Low Surrogate 參數的數值之範圍是從 U+DC00 到 U+DFFF 

 

4 Byte Unicode輸入方式:

輸入法請切換到 "單碼輸入法" ,可直接輸入Unicode ("內碼輸入法"是輸入Big5編碼用的,兩種不一樣)

單碼輸入法一次可輸 入四個數值,分兩次連續敲入 D85A DF12,如果有裝ExtB字集者,應該可看到這個字 " 𦬒 "

 

4 Byte Unicode表示法轉換算法:

High surrogate 定義為U+D800 到 U+DBFF,共有1024個字元,High Surrogate共分為16個字面,剛好除起來,每個字面有64 byte ,第15和16字面為4 Byte自造字區

這定的定義,對應到 Low surrogate 1024 個byte

剛好每字面可定義 64*1024 = 65536字,剛好是2的16次方,也完整對應到2 Byte的字碼空間

 

接下來說表示法的轉 換,4 Byte經常看到此種表示法 27410 (可看CNS 11643網頁中都是此種表示方式)

 

那如何將 Unicode 4 Byte表示法,轉換成可輸入的內碼呢?

 High surrogate的字面為:

1    D800

2    D840

3    D880

4    D8C0

.......................

15    DB80

16    DBC0 

 

以26B12為例, 應拆開來看,是第2字面的字型的6B12,換算十進位為27410

27410(0x6B12) / 1024(0x40) = 26 餘 786(0x0312)

26B12 => D840 +26 , DC00 + 312

26B12 => D85A DF12 

 

就可用單碼輸入法輸 入了^^

 

創作者介紹
創作者 miggo 的頭像
miggo

麥克的學習紀錄

miggo 發表在 痞客邦 留言(0) 人氣()