倉頡輸入法/漢字分割

 輔助字形 倉頡輸入法
漢字分割
基本取碼 

倉頡輸入法是按照漢字的結構特徵取碼,因此要清楚瞭解分割漢字的位置,才能正確取碼。

分割漢字的核心概念是以視覺(而非字義或筆順)判斷漢字能否分割,不能分割者為「整體字」,能分割者為「組合字[1],並將其分割為「字首」、「字身」二部分;「字身」若還能分割,則按相同方式再分割為「次字首」、「次字身」二部分。[2]分割完後再對各部分分別取碼。

組合字编辑

以視覺判斷漢字能否分割,能分割者為「組合字」(或稱「分體字」)。

字首與字身编辑

組合字可將第一部分分離為「字首」,其餘部分則為「字身」。視組合形態不同,大略可分為以下兩種分割方式:[3]

基本分割编辑

可縱向或橫向「一刀分離」者,其「最左側」或「最上方」的部分定義為字首。

基本分割字例[4]
分類 圖例 字例
左右形 左右形 肌江綠俎觀鄰語撫韻鏈
框澹個烟條滌謝辯順州
上下形 上下形 昌吉字想變產煎爰萌巓
盆合祭券喬冠旁憂囊孛

延伸分割编辑

一些字典上慣用且位置固定的字形,會有一部分向右或向下延伸(下方向右延伸左方向下延伸右方向下延伸),或以三面、四面包住另一字形(三面缺右包圍三面缺下包圍三面缺上包圍山形包圍四面包圍),為取碼方便,亦視為字首。

延伸分割字例
圖例 字例
下方向右延伸 旭尬延迎爬瓞毯瓩起颱魅鼴
左方向下延伸 雁麻屁房危詹眉病産差
右方向下延伸 司可句式武哉韱或彧飛
三面缺右包圍 匡區
三面缺下包圍 同向周凰戚臧開鬧间
三面缺上包圍 凶凼
山形包圍 幽豳
四面包圍 回國

練習编辑

按此進行漢字分割練習(一)

次字首與次字身编辑

組合字的字身若可分割,則比照分割整個漢字的方法分割為「次字首」與「次字身」。

字身分割範例(字首為紅色、次字首為藍色、次字身為綠色)
分類 圖例 字例
字身為左右形 多列形下方左右形
右上左右形右下左右形
右內左右形框內左右形
謝條滌順州萌巓前寢养
迎巡逃雁麻屁履匑氘氚
匯匪囮圝閥闞鬭鬪网幽
字身為上下形 右旁上下形多層形
右上上下形右下上下形
右內上下形框內上下形
撫韻語優橋答憂盆參喬
颱毯尬趫詹屬疹貳司鿫
區匿凰圈圐圓同閻閤𩰟
字身為延伸形 右旁下右延伸形右旁四面包圍形
下旁下右延伸形下旁四面包圍形
右上包圍形下方四面包圍形
鏈澹媚銅框汹佩鐦個烟
蓮筵產苟筐齒藏奩嵐画
庭屆廜闼閫國廻迥鼴匈

按此,有些字的異體寫法,例如「广」末筆向下延伸的長度,會導致不同的分割方式:

基本分割型 上下形懬 上下形垕
延伸分割型 左下延伸懬 左下延伸垕

此外,請留意幾個初學者常見的錯誤:

錯誤:試圖從字首分割出次字首编辑

次字首與次字身是對字身的分割,與字首無關。例如「哲」的字首是「折」、字身是「口」,「口」為連體字不能再分割;若分割成字首「扌」、次字首「斤」、次字身「口」,就屬錯誤。

正確分割 哲 導 頒 盔 頲
錯誤分割 哲 導 頒 盔 頲

錯誤:沒有在最左側或最上方分割编辑

初學者分割漢字往往會受「部首」或「常見偏旁」影響,例如把「順」分割成「川」和「頁」。按規則應於最左側分離出「丿」作為字首,接著將字身於最左側分離出「丨」作為次字首,最後剩下「⿰丨頁」為次字身。

先分字首 念 盆 麗 剪 黿 鵬 順 條 彬 頫
字身再分 念 盆 麗 剪 黿 鵬 順 條 彬 頫
錯誤分割 念 盆 麗 剪 黿 鵬 順 條 彬 頫

採用這種分割規則是為了方便視覺辨識,因為部首是根據「字義」決定,沒有固定位置,導致某些漢字難以判斷部首所在,例如「鳴」看似「口」部實為「鳥」部。倉頡輸入法的設計與過去習慣不一致,但熟悉以後便能提高檢索漢字的效率。

練習编辑

按此進行漢字分割練習(二)

整體字编辑

非組合字的字稱為「整體字」(又稱「連體字」),包括以下三類:[5]

  1. 筆劃彼此相連,無法分割者。如:更、才、韭、重等。
  2. 筆劃雖非全部交連,但形勢上為一完整個體者。如:烏、來、噩、坐等。
  3. 例外字〉一節談及的複合字首、複合字、難字、特殊字等,皆視爲整體,不再分割。[6]如:「頨」字以「羽」為字首,「頁」為字身,而非以「习」為字首、「⿰习頁」為字身,因為「羽」是複合字,不可進一步分割。

字形是否相連的判斷编辑

一些漢字筆劃,有些人會寫成相連,有些人則否,不易判斷是否相連,以下為一些歸納的判斷原則,用於處理模稜兩可的情況:[7]

  • 上方或右上方的點(丶)視為與整個字形相連。[8]
如:……等字皆視爲整體字。
※但如……等字的「丶」則不視為與下相連。[9]
  • 附屬於整個字形的點(丶),在五代倉頡視為相連,三代倉頡則否。[8]
如:「」字在三代視為組合字,字首為「免」(向右下延伸),字身為「丶」,類似「勉」的結構;五代則把「兔」視為整體字。
如:「」字,五代明確定為相連,三代未明確提及,但相關字形結構通常在實際取碼上沒有差異。
  • 撇與下面筆劃視為相連。[10]
如:……等字皆視爲整體字。
  • 單純性橫筆與其下之單純性縱、斜向筆畫視為相連。[11]
如:……等字皆視爲整體字。
※但如……等字則視為組合字。[12]
  • Cjrm-c5.svg」、「Cjrm-c3.svg」、「Cjrm-c6.svg」、「Cjwm-hu.svg」與其上的橫向筆劃視爲相連。[13]
如:西……等字皆視爲整體字。
又如:……等字的字首皆包含了「Cjrm-c6.svg」、「Cjrm-c3.svg」、「Cjrm-c5.svg」。
同理,……等字的次字首皆包含了「Cjrm-c5.svg」或「Cjrm-c3.svg」。
視爲整體字 六 其 共 允 兇 兜
八歸入字首 袞 基 恭 夋 㚇 空 養 夔
八歸入次字首 囂 釁 寡
  • Cjrm-y1.svg」、「龴」、「Cjrm-n2.svg」、「Cjrm-n4.svg」與其下部視為相連。[14]
如:、……等字皆視為整體字。
視爲整體字 鹵 甬 承 角
  • 「撇捺形狀」或「蓋子形狀」(即「Cjrm-c5.svg」、「Cjrm-c3.svg」、「Cjrm-o3.svg」、「Cjrm-o4.svg」、「Cjrm-k0.svg」、「Cjrm-e4.svg」、「Cjwm-niho.svg」、「Cjwm-bno.svg」、「Cjrm-b11.svg」、「Cjrm-j2.svg」等),通常視爲可和下方部件「一刀分離」。[15]
如:、……等字,字首與字身都視爲一刀橫向分離。
八形、冖形與下分離 會 兌 全 秦 脊 祭 冗 字 學 孛 憂
※「蓋子形狀」下接「撇捺形狀」時,因前述撇捺與上方相連的原則,「蓋子形狀」不視為與下分離。如、……等字上方的「Cjwm-bc.svg」、「Cjwm-jc.svg」視爲整體而不切開。
  • Cjrm-y2.svg」、「Cjrm-y3.svg」、「Cjrm-y4.svg」、「Cjrm-b16.svg」、「Cjrm-i3.svg」通常視爲可和下部「一刀分離」。[16]
如:等字,皆以「亠」、「爫」、或「厶」為字首。
亠、厶與下分離 雍 玄 畜 率 矣 牟
※但Cjh6m-yb2.svgCjwm-yslb.svgCjwm-ic.svgCjwm-ik.svg、……等字形皆視爲整體。[17]
亠黏他形者 斍 產 恋 巟 袞 音 産 旁 帝 𠅘 髙
厶黏他形者 夋 軬
  • 尚有一些無法套用前述幾項,但形勢上爲完整個體者,亦視爲整體字。[18]
此類字可大致歸納為二小類:
  • 一是字形交錯無法作前述「基本分割」或「延伸分割」者,如:……等;
  • 一是僅能勉強視作「延伸分割」者,如:……等。這些字的「字首」多半佔了大部分空間或筆畫繁複,以致整個字看來更像一個整體。
在五代倉頡不視為整體字。[19]

練習编辑

按此進行漢字分割練習(三)

附註编辑

  1. 《第五代倉頡輸入法手冊》稱為「整體字」、「組合字」;二代及三代手冊稱為「連體字」、「分體字」。
  2. 《第五代倉頡輸入法手冊》第二章第二節提到:「整體字本無字首、字身之分,為統一取碼觀念,特以其第一碼為字首,其餘部份為字身,故整體字取1—4碼。」第二章第一節介紹漢字分割時亦未提及整體字需要分割。按此發明人原意當是整體字不須分割,惟取碼時「假定」分割,以套用類似組合字的取碼方式。本教科書於取碼說明時會以「.」區分字首與字身及次字首與次字身,例如「木.一一.口」表示「木」為字首、其後為字身,又其中「一一」為次字首、「口」為次字身。為避免混淆,本教科書於解說時一律不分割整體字,例如「其」的編碼標示為「廿一一金」而非「廿.一一金」,以免讀者難以分辨是整體字或組合字。
  3. 《第五代倉頡輸入法手冊》〈第二章·第一節·一、字首〉。
  4. 有些組合字的左右或上下部件略有交錯、看似無法直線切開,如字例中的「滌」、「祭」等,為規則統一,皆視為可以「一刀分離」。亦參見〈整體字〉及〈忽略書法變形或變位〉等節之說明。
  5. 五代手冊〈整體字〉
  6. 五代手冊〈整體字〉:「3.在第四節中的複合字、難字、特殊字等例外字,均視為整體字。」
  7. 五代手冊已言「中文字形體各異,筆畫複雜,很難用簡單清楚的文句定義『整體字』」,其就此部分描述,與實際碼表比對,亦非百分之百完備。以下內容除五代手冊,亦參酌三代手冊、實際編碼字例、及其他倉頡教材增補。
  8. 8.0 8.1 五代手冊〈整體字〉:「3.丶附屬於整個字形,視為一整體字。如:寸、永、兔、甫、犬等。」1994年版三代手冊〈連體字〉:「(2)斜、點與其下面字形筆劃相接。如良、自、乖。」「(6)點(丶)皆視為與該字體相連,凡點在上方,均視為最高位。如犬、甫、尤。」
  9. 三代、五代手冊未明確提及,但由手冊字例可確定這些字皆視為「上中下」形組合字,其中的「丶」不視為與下部或上部相連。例如「倉」取碼「人.戈.日口」而非「人.戈竹.口」,顯示點並非與下相連;「貪」取碼「人.戈.弓金」而非「人弓.月山金」,顯示點並非同時與上下相連。其理由可能是「點與下相連」(及下述的「點附屬於整體」)只適用於「整體字形+點」的結構,這些字為「整體字形+點+整體字形」,故不適用。
  10. 1994年版三代手冊〈連體字〉:「(2)斜、點與其下面字形筆劃相接。如良、自、乖。」點的規則已於前面提及,故在此省略。五代雖無明確提及此原則,但並無相關編碼異動,故仍視為適用。
  11. 五代手冊〈整體字〉:「1.單純之丨、丿筆畫與其上的字形相連。如:干、黃、焉、歹、刀、卑等。」1994年版三代手冊〈連體字〉:「(1)橫向筆畫與縱、斜向視為相連。如亡、正、步。」1984年版三代手冊〈連體字取碼〉:「1.橫向筆畫與縱、斜向筆畫,視為相連。如:焉、步、乖」。又網友去信詢問「阜」、「枼」何以不視為整體字,並推測上方的橫筆須為「單純性橫筆」方適用此規則,沈答是,故按此補。
  12. 三代、五代手冊未對「單純性」做詳細定義,按這些實際字例歸納,應是將「𠃊」、「凵」、「厂」、「尸」、「武-止」、「韱-韭」、「戚-尗」等形狀下方的橫筆視為非「單純性」。此外三代手冊第二章第一節介紹字首時提及「3.戈、戊、𢦏、㦰、产、……等,為便於取碼,亦視為字首。」,亦可參考。「堊」、「汞」之分割方式目前尚無明確解釋。
  13. 五代手冊〈整體字〉:「2.八、Cjrm-c6.svg、儿等形狀與其上部相連。如:真、貝、興、夔、西、見、兀等。」1994年版三代手冊〈連體字〉:「(4)儿、八視為與上相連。如兒、免、兇、頁、貝、與、興。」
  14. 五代手冊〈整體字〉:「4.Cjrm-n2.svgCjrm-n4.svg與其下的形狀相連。如:甬、矛、及、角、龜、色等。」1994年版三代手冊〈連體字〉:「(3)凡Cjrm-y1.svg、龴、Cjrm-n4.svgCjrm-t12.svg等字形與下相連,如桌、甬、角、色、業。」
  15. 1984年版三代手冊〈字首〉:「2.八、人、父、𡗗、⿱十冖、𦥯、⿳十中冖、龹、龸等,當作上下分離的字首。」
  16. 1994年版三代手冊:「亠、八、爫、𠆢等字形視作與下面分離,皆屬單字首。如:畜字首為“亠”不為“玄”;盆字首為“八”不為“分”。」
  17. 三代、五代手冊未明確提及這些字形,稍有關係的只有三代手冊第二章第一節介紹字首時提及「3.戈、戊、𢦏、㦰、产、麻、厭、厤、鴈、雁、辰、厥、羽、府、鹿、君等,為便於取碼,亦視為字首。」有提到「产」字形。此按三代、五代手冊實際取碼規納。 其中「六」、「Cjwm-ic.svg」可用前述「Cjrm-c6.svg」、「Cjrm-c3.svg」與上相連的原則解釋;「文」、「亦」、「亡」、「Cjwm-yslb.svg」可能是一般書寫皆是相連,並無模稜兩可,故不套用此原則;「立」、「产」、「辛」、「Cjh6m-yb2.svg」、「Cjwm-ik.svg」未有明確解釋,可暫且將「立」型及「Cjwm-ik.svg」視為相連的特例記憶。
  18. 五代手冊〈整體字〉:「2.字形筆畫雖非完全全部交連,但形勢上為一完整個體者。如:島、烏、焉、來、乘、乖、噩、坐、禺、离等。」1994年版三代手冊〈連體字〉:「(5)鳥、烏、馬、裊、島‥等字亦視為連體字。」
  19. 官方並未明確說明原因,可能是把「鬼」、「羗」看作類似「勉」的結構所致。三代倉頡把「鬼」定義為複合字;「羗」則未見於官方三代手冊的編碼表。


 輔助字形 倉頡輸入法
漢字分割
基本取碼 
取自“”