首页> 中国专利> 《中日韩统一汉字》字形操作码

《中日韩统一汉字》字形操作码

摘要

《中日韩统一汉字》字形操作码是一种汉字编码电脑键盘输入技术。它是发明专利《汉字自然部件编码》键盘输入技术进一步与汉字排序、汉字检出、汉字教学、汉字信息化相统一的一个具体实施方案。它选择638个部件,27个附标数字,部件按起笔、起笔续笔特征、起笔部件分族,附标数字分主码、辅码,放在一个具有直角坐标性质的二维表格中,使部件与主码、辅码对应,形成部件的复代码。单字按部件复代码排列主码补充辅码的规则进行编码,形成《中日韩统一汉字》20902字符部件拼复率为100%,编码重码率为0%的汉字线性操作系统。实现了国际标准中文汉字的信息化。

著录项

  • 公开/公告号CN101339466A

    专利类型发明专利

  • 公开/公告日2009-01-07

    原文格式PDF

  • 申请/专利权人 曹述交;

    申请/专利号CN200810212411.1

  • 发明设计人 曹述交;

    申请日2008-08-18

  • 分类号G06F3/023;

  • 代理机构

  • 代理人

  • 地址 422000 湖南省邵阳市大祥区宝庆中路505号

  • 入库时间 2023-12-17 21:15:08

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-10-14

    未缴年费专利权终止 IPC(主分类):G06F3/023 授权公告日:20140226 终止日期:20140818 申请日:20080818

    专利权的终止

  • 2014-02-26

    授权

    授权

  • 2009-02-25

    实质审查的生效

    实质审查的生效

  • 2009-01-07

    公开

    公开

说明书

本发明属于汉字编码电脑键盘输入技术。

本发明是专利号为ZL94111115.6《汉字自然部件编码》键盘输入技术进 一步与汉字排序、汉字检出、汉字教学、汉字信息化相统一的一个具体实施方 案。

《中日韩统一汉字》就是《CJK统一汉字》。它包含了中日韩各自有关标 准字集,是现在收字量最多(20902字符),已进行了统一编码与二进制数相 连的一个国际标准字集。《中日韩统一汉字》的统一编码叫“信息交换码”。它 是一种单字排队编码,用于电脑与电脑之间的信息交换。《中日韩统一汉字》 字形操作码,是一种部件随机编码,用于人脑与电脑之间的信息交换。

一、汉字编码变成了汉字输入

上个世纪80年代,国家科委推广“五笔字型”,中国人对汉字编码进行了 第一次全面的实践。汉字成为国家法定文字是21世纪的第一年发生的。20世 纪80年代,汉字的法律地位并不明确,学术的土壤还没有培育出政界“汉字 拼形”的理想,国家明确提出“汉字编码是走向汉字拼形的阳光大道”条件尚 未具备,相应的技术也没有及时发明。历史长河行舟,进退相伴而生。今天, “汉字输入法”无声地主宰着电脑键盘输入技术的全局,编码的起步字集不能 采用国际标准,部件不能全部拼复被拆单字,编码之间不能完全消除重码,“汉 字编码”的几个硬指标被完全搁置。互联网里“北大中文论坛”还只有一个“中 文信息处理”的板块和“输入法讨论专区”。“中文信息化”的概念尚未形成。 “中文信息处理”的出路是“中文信息化”,“中文信息化”的关键是“汉字 信息化”,“汉字信息化”的基础是“汉字编码”。输入法不等于汉字编码。汉 字编码作为最基础的信息化技术,连一个讨论的地方都不存在,人们的奋斗完 全偏离了推广“五笔字型”原来理想的目标!

形成今天这种局面的原因是多方面的。重新阐明“编码技术”与“输入技 术”的主次关系,可能为汉字编码带来一线新的生机。在“汉字编码键盘输入 技术”中,汉字编码是技术的前提,技术的条件,技术的基础;键盘输入是编 码的应用,编码的检验。汉字编码键盘输入技术,其本质就是一种汉字编码的 技术。从“汉字编码键盘输入技术”中抽掉“编码”二字,变成“汉字键盘输 入技术”,技术的前提、条件、基础等的限制都不存在了。这种处理手法,虽 然绕过了汉字编码的技术难题,但完全改变了技术创新的本质内容,是汉字技 术创新一种逃跑主义的表现。积重难返,政界、学界、技术界、投资者、媒体 重新明确汉字编码的目标、任务和意义,是当前中国信息化的一件大事。

二、汉字编码远景目标的宣示

汉字编码分为整字排队编码和部件随机编码。汉字部件随机编码的远景目 标,就是要建立一套可以线性操作的代码符号作为汉字的影子,实现中文汉字 的信息化。

1、编码是汉字信息化基础工程

什么是汉字的信息化?先看看什么是“信息”。“信息”在《现代汉语词典》 中有两个义项:“①音信;消息。②信息论中指用符号传送的报道,报道的 内容是接收符号者预先不知道的”。中文汉字信息化的“信息”,当然是指用符 号传送接收者预先不知道的报道,指令,声音,图片、数字等。

信息化的“符号传送”是一个十分复杂的过程。因为“音”的符号是瞬时 的,传送距离十分有限。信息化的“传送符号”一般采用字形符号→(数字 或字母)代码符号→(二进制)数字符号→(电位正负)状态符号。它们 形成一条信息化的“传送符号链”。讲汉语的人传送语言信息使用的是字形符 号,称作中文。讲英语的人传送语言信息使用的是(字母)代码符号,称作英 文。电子软件编写程序使用的是代码符号,数字符号;电子硬件,通讯线路工 作过程中使用的是状态符号。由此可见,中文汉字要成为信息化“传送符号链” 的“终端符号”,它和英文相比,多出了一道程序,即汉字先要转化为代码符 号。汉字随机编码就是为汉字转化为统一的代码符号创造条件。汉字有了自己 统一的代码符号与(二进制)数字符号相连,汉字就实现了信息化。

2、汉字应走完发展的第三阶段

上个世纪的汉字“拉丁化”与“一语双文”都被本世纪第一年的语言文字 法否定了。但汉字拉丁化并不是“空穴来风”。汉字到底存在什么问题?国人 必须重新睁大眼睛,探个究竟!

世界上古代四种自源文字,初期都是象形文字,用图画表意。人类用“语 言”进行思想表达交流。这个时期的思想表达交流分为音表达交流与形表达交 流,也就是“语言分为音表达交流与形表达交流”。那时的音表达交流与形表 达交流是否沟通对应,没有肯定或否定的根据。音表达交流与形表达交流各自 的发达水平,也无法进行考证。这是语言发展的初始阶段,时间是十分漫长的。

后来在文字中渐渐分化出“意符”(类符)和“声符”,表明音表达交流与 形表表达交流开始对应沟通,文字开始表音。这是语言发展的第二阶段,时间 应以千年为单位来计算。

到公元前两千年左右,闪米特(塞姆)人撇开当时的传统文字形式,开始 用字母记录讲话的辅音(不单独记录元音),音表达交流(讲话)的单词出现 了形代码,形代码的内部是以字母为单位线性排列。从信息“传送符号链”的 角度看,传统的文字分化出一种“代码符号文字”(属于“传送符号链”的第 二个环节)。代码符号文字的内部单位可以线性操作,成为文字的第三种重要 属性。表意、表音与内部单位线性操作又称作文字的三大功能。

英文是世界流行的文字,汉语要走出中国。中文的汉字与英文的单词在三 大功能上作一番对比是有益的。表意,中文的象形字,指事字,会意字,百分 之八十以上的形声字“类符”都是表意的。英文的单词中只存在一些性数等变 化表意。可以看出,中文汉字只是从完全表意退缩为部分表意,英文单词基本 上靠音表达词表意,形表意萎缩了。表音,中文单字用“声符”表音,汉语词 典需要用汉语拼音注音;英文单词用“字母”表音,英语词典需要用国际音标 注音(俄文等不要注音)。线性操作,中文单字内部单位是面性排列,无法线 性操作。英文单词内部单位是线性排列,可以线性操作。

从上面的文字发展和对比可知,对于“字形符号文字”,表意是文字发展 的第一阶段,表音是文字发展的第二阶段,内部单位能够线性操作,特别是电 脑时代,是属于字形符号文字——汉字还未发展成熟的第三阶段。所以,汉字 现在只缺内部单位的线性操作。对于“代码符号文字”,字母表音与内部单位 线性操作两者同步而来,不存在第二阶段和第三阶段。所谓“表意-表音-拼 音(也是表音)”文字发展三阶段论,纯粹是“传送符号链”上字形符号与代 码符号串接的两类文字中表音一种属性嫁接的结论,是一种主观愿望。文字的 本质是符号。字形符号文字与代码符号文字,各有自己发展的形式。汉字完成 了内部单位线性操作的第三阶段发展,它比代码符号(拼音)文字更胜一筹。

三、汉字编码方案的部件建设

汉字编码电脑键盘输入方案的技术设计,大致分为四个步骤:部件建设, 代码建设,部件与代码对应,单字按部件代码编码。四个步骤的每一个步骤都 有技巧可施,各个步骤所施技巧数量的多少和质量的高低,合起来就是汉字编 码电脑键盘输入方案技术的优劣。

汉字编码用键盘输入电脑,不是所有汉字(包括尚未发现的汉字)都要进 行随机编码。随机编码字集的选择,最大以五万多字的《汉语大字典》,最小 以二万多字的《中日韩统一汉字》两个字集为目标比较切合实际。《汉语大字 典》以外的字,解决的办法可使用“插入”与“信息交换码”。

1、字集的选择

汉字随机编码,首先应该选取可能是最大的字集。因为部件和部件的代码 是随机编码的依据。最大字集的部件选准了:能拼复全部被拆单字,能保证没 有重码。比最大字集小的不同字集,所选的部件及单字的编码也就都包含在最 大字集的成果之中。如果选取的字集不是最大,比如选的是国家标准6763字, 随机编码时,国际标准20902字的部件就不一定内含6763字的部件。当国际 标准字集随机编码成功了,为了统一汉字编码,国家标准字集随机编码成功就 没有意义了。这是致力于汉字编码的专家学者,必须坚持的一种“战略思考”。

本方案选择《中日韩统一汉字》字集作为随机编码的起步目标。但部件代 码表的设计,部件的选择都是从《汉语大字典》字集做起的,留有升级的余地。

2、部件的定义

部件的定义,有人说部件是大于笔画,小于成字的笔画结构块,有人又说 部件是相离、相交、相接等的笔画结构块,莫衷一是。这种思考,是在为部件 而定义部件。本方案采用为汉字信息化的目标而定义部件:

部件是承担表意、表音、线性操作三项任务的汉字内部单位。

这样,中文汉字的表意、表音、线性操作功能,完全由内部单位——表意、 表音、保证线性操作的部件来实现,而汉字则是具有若干义项的一种载义体。

3、部件的拆分

本方案根据部件的上述定义,单字尽量按照指事、象形、会意与形声的造 字规律,拆分为成字,左右偏旁,字头字底,字省构件和辅助笔画五种部件, 即部件具有五种身份。象形字指事字一般不拆。具体的拆分方法如下:

“到”。《说文》:“到,至也。从至,刀声。”——《汉语大字典》缩印本 141页。“到”拆分为“至刂”两个部件。“五笔字型”拆分为“一厶土刂”。

“嬴”。《说文》:“嬴,少昊氏之姓。从女,羸省声。”——《汉语大字典》 缩印本886页。“嬴”拆分为“女”两个部件。“”是“羸”省出来的构件。 部件的字省构件身份由此而来。“五笔字型”把“嬴”拆分为“亠口丶”。

“含”。“含,口嗛也。从口,今声”,形声字。“今,是时也。从亼(变形 为亽),从フ。フ,古文及”。“含”拆分为“亽フ口”三个部件。“五笔字型” 拆分为“人丶フ口”。

“藏”。“藏,匿也。从艸,臧声”,形声字。“臧,善也。从臣,戕声”, 形声字。“戕,槍也。他国臣来弑君曰戕。从戈,爿声”,形声字。“藏”拆为 “艹臣戈爿”四个部件。“五笔字型”拆分为“艹厂 丿”。

“舔”。“舔,以舌擦拭。从舌,忝声”,形声字。“舌,所以言也。从千, 从口,千亦声”。“忝,辱也。从天,心(变形为)声”。“天,颠也。至高无 上。从一、大”。“舔”拆为“千口一大”五个部件。“五笔字型”拆分为“丿 古一”。(本方案汉字最多拆分为五个部件。这是汉字部件总表、部件主码辅 码表选择与设计好的)。

成字,左右偏旁,字头字底,字省构件和辅助笔画,成为本方案汉字编码 部件建设的特征,也成为汉字教学、汉字规范的一条新思路。

在这里作一特别说明,部件选择成字有特殊的意义。成字在层次上大于部 件。部件中的成字是被矮化了的成字。它并不与“汉字有笔画——部件——成 字三个层次”相矛盾,而是一种实事求是的解决办法。成字成为第一位的部件, 理由是汉字多数字除了部首还有余部,有的余部又可分为部首和余部,多数余 部是成字。部首的数量依赖于分类的详略,成字的数量决定于单字的余部。部 件中多数部件是成字也就理所当然。实践证明,部件的成字选得越多,部件的 总量就要得越少。它是本方案攻克《中日韩统一汉字》两万多字部件拼复率为 百分之百的关键。本方案部件的成字约占67%,它也是本方案的重要特征。

4、拆分与拼复

部件有造字部件和拆分部件之分。造字部件发明在先,拆分部件发明在后。 造字部件拼复出来的是一个汉字。拆分部件,在此之前,还没有人提出在设定 字集内拼复全部被拆单字的要求。但汉字的拆分与拼复,是创新汉字过程中相 互依存的两个方面。如果汉字没有拆分,拼复的问题就不会出现;如果汉字没 有拼复,拆分就没有了充足的理由。有拆分就要有拼复,这也算辩证法里的一 种对立统一规律。只拆分,乱拆分,不拼复,不符合创新思维。

拼复是保证汉字“客观形态”与“主观形态”统一的原则措施。刻画的, 写出的,印刷的,显示的汉字是一种客观形态,脑子里映象的汉字是一种主观 形态,两种形态是汉字相互依存的两个方面。使用玛雅文字的民族被殖民者消 灭了,玛雅文字的主观形态不存在了,玛雅文字也就消亡了。字形信息不能达 到百分之百的编码过程,在脑子里形成一个缺笔少画的映象(主观形态),不 但会引起“慢性消亡之道”的嫌疑,还违反了汉字规范的要求,直接影响书写 学习与汉字使用的态度。

本方案选定的部件,对《中日韩统一汉字》中被拆单字的拼复率为百分之 百。其中,部件拼复字量最多的顺序是:口2164字,艹1378字,氵1198 字,923字,日849字等,有12个部件拼复字量是一个字。

5、部件的总量

本方案部件的总量是可以论证的。以《汉语大字典》为例,它所收的字有 五万多,使用的部首是两百多。“水氵”可算作一个部首,但形体和身份不同, 应算作两个部件。这样,《汉语大字典》作为部首的部件就有三百二三十个。 假设“部首”与“余部”半对半,在《汉语大字典》字集内,能拼复全部被拆 单字的部件,应该是六百多个。六百多个部件算不算多?如果与许慎《说文解 字》九千多字使用的起步部首字540个相比,《中日韩统一汉字》字集二万多 字,使用六百多个部件,作为“汉字信息化”的起步部件并不算多!

本方案最后选定的部件是638个。它们按起笔和各自身份排列如下:

(一)、成字

(1)、《现代汉语词典》选收字(329个)

一二三示亏云豆更可鬲王玉干馬雨兩爾酉两工正贡丁耳長匿臣比不万石頁页百而面至 兀五豕歹瓦死夒平牙厂辰厭十丰車车韦甫声臺士鼓土青直古專本木末耒來麥束囊東未走赤 七屯寸在大夫夷犬左友龙戊戌戍弋戈或戋革葱萬華蓋蘭共其黄廿井昔世(107)少小光黨业 卝非韭山豐上卜止齒齿鹵虎此北冉婁冊冄央四鬥門冏骨曰曷口品足只是日旦目鼎蜀里黑 回邑田黽昇且皿貝贝中内肉由曲虫巾申电曳見见(65)火心必行儿川豸爲八分系谷我禾秉 千夭手重毛缶气乍矢欠牛片生先多月風殳几夕各角魚鱼兔勿鳥鸟匕旨九丸的隹段丘身 白自卑鬼卯臼人入僉倉金食乎斤斥瓜爪舟愛(71)六主亡言京方亦交亥广慶鹿麻之户永衣 立辛产音章龍文齊韲充牽门為羊前米斗头寅賓憲寧穴(40)敢了子予矛疋马乙胥又飛羽民 己巳巴尸尹艮尋丑弓弔刀力夬韋隶聿弗皮也爿丱出水能乡鄉厶幺母毋毌女奴(46)。

(2)、《汉语大字典》选收字(98个)

丅丂髟匸匚丌豖旡壴坴朿夌尢兂廾(24) 攴貞歺丄 冋冎昜囗內禸豊(19)彡彳厃勹乂ㄨ眞冖冡軍乑侌亼采(26)廌疒咅屰宀(9)叕ㄋ廴癶卩刄凵丩屮ㄥ糸 く巛彑(20)。

(二)、左右偏旁(41个)

镸扌刂忄攵牜月犭亻釒钅飠饣訁讠衤礻冫氵孑 阝糹纟。

(三)、字头字底(32个)

艹虍罒灬ハ亽爫亠丷辶

(四)、字省构件(124个)

(34)(36)(27) (9)(18)。

(五)、辅助笔画(19个)

丨丿丶フ乛乚 亅

6、部件的类别

部件一般用四种方式进行分类。

(一)、部件以“起笔”作为标识进行分类。部件和字一样,也有“横竖 撇点折”五种起笔,相应地也有“横竖撇点折”五种起笔部件。“豆”是横起 笔部件,“田”是竖起笔部件,“矢”是撇起笔部件,“音”是点起笔部件,“矛” 是折起笔部件等。部件以“起笔”作为标识进行分类,是部件分配到九个数字 上与之对应的根据。但它还有不足之处:除了点起笔外,“横竖撇折”对应的 数字是双歧的,还要继续寻找窍门使之成为单一对应。

(二)、部件以“起笔续笔特征”作为标识进行分类。起笔是第一笔,续 笔是第一笔以后的各笔。起笔续笔特征就是起笔与续笔的相对位置与相互连接 关系。部件以“起笔续笔特征”作为标识,如横起笔部件还可以分出两个层次。 以“豆 工 石 十 大 其”等部件为例:第一个层次,“豆 工 石”是横不出头 部件(对应一);“十 大 其”是横出头部件(对应二)。这一层次使部件分配 到数字实现了单一化。第二个层次,“豆”是横不出头相离部件,“工”是横不 出头竖接部件,“石”是横不出头撇接部件,“十”是横出头竖交部件,“大” 是横出头撇交部件,“其”是横出头多交部件等。这一层次是部件分配到27 个键位(形成27个族)与之单一对应的重要手段。

(三)、部件以“起笔”按书写顺序标识进行分类。部件分为起笔续笔兼 用部件,续笔专用部件。起笔续笔兼用部件,如“革”是鞍(革宀女)字的起 笔部件,是霸(雨革月)字的第一续笔部件,是鞗(夂革)字的第二续笔部 件,是鞏(工几丶革)字的第三续笔部件。续笔专用型部件,如“攵”不做任 何字的起笔部件,它是政(正攵)字的第一续笔部件,是教(子攵)字的第 二续笔部件,是激(氵白方攵)字的第三续笔部件,是薇(艹彳几攵)字的 第四续笔部件等。在638个部件中有175个是续笔专用部件,有463个是起笔 续笔兼用部件。

本方案的部件,按起笔、起笔续笔特征、起笔部件形成部件族,分配给九 个数字所产生的27个主码,使汉字部件、汉字具有“横起一二竖三四,撇始 五六点在七,折画八九数相替,续笔还论接交离”的起笔对应规律,为汉字按 部件进行数字编码打下了基础。

7、部件的认证

汉字编码,国家标准6763字,国际标准20902字,《汉语大字典》5万多 字,不同的编码专家,完成上面三大字集的编码,可能各有一套不同的部件, 到底选哪位专家的哪套部件为好?应该说,只有经过几个方面的检验认证才能 使选出是客观的,高标准的。

(一)、理据认证。

汉字的造字部件大多数是有理据的。汉字的拆分部件追求与造字部件的一 致,应该是汉字编码的一个原则。汉字造字部件的理据,在《汉语大字典》“解 形”条目中多有讲述,许慎的《说文解字》是讲述部件理据的主要典籍。

理据认证的直接结果是部件有了五种身份。即部件应选自被矮化了的成 字,左右偏旁,字头字底,字省构件和辅助笔画。它是本方案部件选择的主要 特征。

本方案对全部638个部件进行了理据论证,并对部件拼复的单字进行了排 列。排列的“起笔部件字”用于编制“起笔部件字库”。排列的“续笔部件字”, 用于表达部件的拼字能力,显示部件的造字规律。下面节选《中日韩统一汉字 字形操作码》书稿中的二个部件,用以说明论证的形式与内容。其中“(2)、(3)” 两项中的“12、13、14”等的含义是这样的:主数字“1”,表示部件是拼字中的 第一个部件,右下标“2、3、4”表示该字的部件总数。“22”,主数字“2”表示部 件是拼字中的第二个部件,右下标“2”表示该字的部件总数。其余类推。

126  北(běi)

(1)选择原因:

《说文》:“背。从肉,北声”。“北”是背等字的表音部件。“驥、骥” 等已经是以“北”为部件的四部件字。按一般不拆笔画相连结构的原则, “北”最多只能拆为两个部件。这时的“骥驥”已是五部件五码重码字。 “北”应选为部件字。

(2)起笔部件字:

12邶丠背軰13鄁冀14(7字)。

(3)续笔部件字:

22鉳苝乖乘23揹偝褙禙剩兠24懻骥驥33騬溗塖嵊34(19字)。

482[人(rén)字头]

(1)选择原因:

《说文》:“厃。从人在厂上”。“負。从人守貝有所恃也”。“臽。从人 在臼上”。“色。从人,从卪”。“夐。从,从人在穴上”。《積微居小學 述林》:“久,即灸之初字也。从卧人。末画象以物灼体之形”。考察字头是 “”的字,尽管并非全然从人,但大部分从人。近代字典部首目录都把 “”作为“刀”的变体,“”应正名为“人字头”,更有利于字义的理 解。

(2)起笔部件字:

12久亇負负臽灸粂色刍免争象龜麁13玺覙迩奂奐龟亀烉勨欿鵮鹐急雏 邹皱燄勉14煞夐夐15觰觴(37字)。

(3)续笔部件字:

23琤碀埩静棦挣峥踭睁狰錚铮诤諍竫净浄婙鬇筝珎趂称狝你鉨祢沵弥 妳輡埳掐啗蜭焰惂錎餡馅諂谄淊陷萏窞閻阎玖镹杦畂汣奺疚匛羑輓梚挽鞔 晚晚悗脕鮸俛鋔凂浼絻娩莬艳靘栬赩艷艶脃铯銫艴絶绝橡嶑蟓鱌像鐌襐潒 豫賴蝜偩媍萯赖趋诌驺绉24瑍換喚煥愌渙寏瘓换唤焕涣痪搀馋谗喼稳隐嫓 嬎葂衡穐您阄陥25矎觼讂瓊藑晚繺34瓎櫴攋懶獺襰瀨嬾懶藾籟癩獭濑籁 癞壛櫩嚪爓讇撧蕝艵濪灧灔滟柩畝櫲猕瀞湵畞羐冕35蘒蘅寳瘾(180字)。

(二)、拼复认证

汉字编码方案,首先应有自己的编码数值字库,或编码字母顺序字库。这 是使中文汉字的代码符号与英文单词代码符号媲美的一个基本保证。汉字编码 方案应在自己的编码数值字库,或编码字母顺序字库的每一个单字后面,注明 拆分与拼复的部件,以表示被拆单字的拼复率是百分之百。本编码方案的拼复 认证,详见后面的编码数值字库。

(三)、编码认证

汉字为什么要拆分为部件?部件是为编码服务的:部件给定一个代码,单 字就可以按部件的代码进行编码。编码认证是部件的目标认证。理据认证、拼 复认证只是部件的功能认证。

如果在编码方案中,所选择的部件理据认证、拼复认证都过关了,但编码 认证没有过关,在指定的字集里编码有重码,所选的部件就不能完成随机编码 的任务。即使有一张许多人认可的部件表,它的存在也没有实用意义。这和一 枚发射卫星的火箭一样,它的零部件通过检验都符合设计要求,工作人员都满 意。但卫星送不上天,零部件还没有接受最后的一次实践检验,两者是同一道 理。本方案编码之间的重码率为为百分之零,详见后面的编码数值字库。

四、汉字编码方案的代码建设

代码的选择对汉字随机编码的成功也是一个关键。编码专家为什么对汉字 随机编码总是毫不犹豫地使用线性排列的字母?如果当年的化学专家也只使 用线性排列的字母,不越雷池一步,今天的学生就没有分子式来表示物质的结 构!同样,如果今天的编码专家也只使用线性排列的字母,不越雷池一步,明 天的学生就没有编码来表示汉字内部的线性操作!

1、代码的起源

约四千年前,闪米特(塞姆)人用“表示”辅音的字母线性排列,“记录” 讲话时的音表达词,线性排列的字母便成为音表达词的代码,或叫单词代码。 这是人类使用代码的开始。

单词代码通过语法的组合便形成“代码文字”。“代码文字”后来分化为用 字母表示元音与在辅音字母上加附标表示元音的两种形式。代码文字开始形成 线性系列和附标系列。英文属线性系列代码文字,阿拉伯文属附标系列代码文 字。如果把字母代表讲话时音表达词的音素叫“一次代码”,英语中的“d”、 “o”就是“一次代码”。讲话时的音表达词“do”,“dog”就是“二次代码”。 缩略词“爱滋病”就是“三次代码”。

2、代码的形式

代码并不属于拼音文字专用,它的身影遍及文理各科。数学里的“代数”, 实际是一门代码数学。α+b=c,可以是2+3=5,也可以是3+4=7。化学里的分子 式:K2O3三氧化二钾、KNO3硝酸钾也是一种代码。由此可知:

代码的形式是由代码事物的实际需要设计的。

3、本方案的代码

本方案选用数字码。四位数字码最多只有9999个整数,对于有20902个 字符的《中日韩统一汉字》,进行排队编码也是不够用的。本方案对普通数字 进行了“扩容”和“层次”的设计。

(一)整数的容量

数字在起源阶段是一二三四五六七八九十。它们叫“基数字”。当古人掌 握进位后,数字出现了十一十二……形成了自然数。数字用数轴图象表示后, 基数字改为0123456789,在图象上称为“分格数字”。图象继续发展,便有了 (二维)平面坐标→(三维)立体坐标→(四维)时空坐标。因为数字只 用于计算,坐标中不同数轴的分格数字只能统一,不能区分。否则,数字计 算就不能进行。这样的数字用于表序时,二维、三维、四维数字全部变为一 维数轴上的数字。从数字表序的需要出发,扩容设计的措施就是把(四维)时 空坐标四根数轴的分格数字用附标进行标记,形成附标数字码元,如图1所示:

标记方法是四根数轴的分格数字分别加上()、(-)、(∨)、(∧)“无横钩帽” 顺序的附标,形成37个附标数字:零 是坐标图象的原点,加附标没有数学意义。附标数字的读音与汉语四声一致:

0           1        2        3         4        5        6         7        8        9

零[líng]   依[yī]  □[ēr]  毵[sān]  私[sī]  屋[wū]  熘[liū]  妻[qī]  巴[bā]  鸠[jiū]

1           2        3        4         5        6        7         8        9

夷[yí]    而[ér]  □[sán]  □[sí]  毋[wú]   流[liú] 期[qí]   拔[bá]  □[jiú]

以[yǐ]    耳[ěr]  伞[sǎn]  死[sǐ]  舞[wǔ]   柳[liǔ] 起[qǐ]   把[bǎ]  酒[jiǔ]

意[yì]    刵[èr]  散[sàn]  似[sì]  物[wù]   鹨[liù] 气[qì]   霸[bà]  舅[jiù]

这样,原来一位数的整数,“0”除外,总共只有9个。通过“扩容”之后, 四根数轴上表序的整数就有了36个。原来二位数的整数是10——99,总共是 90个。通过“扩容”之后,“1”与“1”,“1”与“”,“1”与“”,“1” 与“2”,“1”与“”,“1”与“”等等,都可以组合为二位数表序的整数, 数量由90个猛增至1332个。

在X数轴上,从1——4位,整数的容量是9999个,从1——5位,整数 的容量是99999个,属万级容量。在XYZT坐标系,从1——4位,整数的容 量是1823508个。从1——5位,整数的容量是67469796个,属亿级容量。整 数“扩容”达到了空前的水平。

汉字编码用26个字母作代码,可以看作数字在数轴上的“扩容”,分格数 字由9个扩大到25个,进位由“十进制”扩大到“二十六进制”。但“扩容” 的效果,许多编码专家都试过了,解决不了汉字编码的重码问题。

本编码方案在37个附标数字中选择作为部件的代码,总共27个,比用26个字母作代码的容量大得多。

(二)数字的层次

汉字五种起笔,如果像“五笔字型”那样分配给25个字母代表,部件起 笔代码的确定,至少是一种五项选择。起笔分配给9个数字代表,部件起笔代 码的确定,最多是一种两项选择。五项选择正确的概率是20%。两项选择正 确的概率是50%。如果是一项选择,正确的概率就是100%。

在部件的类别中,本方案以起笔、起笔续笔特征为层次。为了使部件对应 数字都是一项选择,数字也分为不带附标与带附标的两个层次:

第一层次:    0 1 2 3 4 5 6 7 8 9。

第二层次:

(三)代码的码元

本编码方案代码的码元,如图2“汉字部件主码辅码表”所示,是在第二 个层次的数字中选取的27个附标数字:

26个字母所形成的代码和编码,只是字母数轴上一个区间的整数点。本 方案这些码元所形成的代码和编码,都是四维坐标空间的点、线、面、体。它 们是本方案使重码率变为0%的重要技术措施。代码系统的码元,是四维坐标 系四根数轴用附标进行了区别的分格数字,成为区别所有编码方案的特征。

五、部件与代码对应

本方案部件与代码对应的特点是

1、部件形成部件族与代码对应

部件按起笔、起笔续笔特征、起笔部件三个层次分为27个族(见图2)。 它们是左表眉:“横竖撇折” 四种起笔对应的数字是二歧的,如“横起一二”,细分为起笔续笔特征“横不 出头”()、起笔续笔特征“横出头”(),消除了数字的二歧对应。 其中“”再细分为横离“1”族,横竖接“1”族,横撇接“”族。保证 了每一族部件与第二层数字单一对应。如图2中所示,横离“1”族的部件是: “一示二亏云豆更可鬲王玉干馬雨兩爾酉两”。横竖接 “1”族是:“工正贡丁丂耳長髟匸匿匚臣比”等。

每一个族的部件又按部件的“形近”形成联想结构(见图2)。横离“1” 族中的“二亏云”、“王玉”等是联想结构。部件联想结构有两个用途。直接 用途是帮助记忆部件的代码。间接用途是扩大部件族的部件容量。

本方案部件族的部件容纳最多是27个。每一个部件都有它自己单一的代 码。例如,“金”(矮化成字)的代码是“”,“釒”(左右偏旁)的代码是“”, “钅”(左右偏旁)的代码是“”。(字省构件)的代码是“67”,夕的代 码是“”等(见图2)。部件与部件的代码,比部首检字区别细致得多,完 全准确到与课堂讲课的每一个细小的区别。这是本方案的一个特征。

每一个部件都有它自己单一的代码。它的第一个好处是,部件与代码的对 应是单一的,可逆的。知道了部件“金”,就可以确定代码是“”。知道了 代码“”,就可以确定部件是“金”。它的第二个好处是,编码的技术细节, 都限定在“单字、部件”各自的层面内,与拼音文字的音素拼音相当。这也是 本方案的一个特征。

“五笔字型”的字根总表,一个键位的字根,有十多个的不少。例如,键 位Q代表的字根是金钅勹夕……Q到底代表谁?不能确定,一开始就进 入了模糊状态。“五笔字型”的字根没有确定的代码,只有确定的键位。这样, 单字只是按字根击键,单字不是按字根编码。“五笔字型”虽然也有编码,在 技术上,字根的“击键码”,单字的“字型识别码”,单字的“末笔识别码”等 等,凑合而来,在编码的过程中不存在单字与字根两个层次的区别,时而是字 根提供的根据,时而是单字提供的根据,难免增加学习上的困难。

2、代码分主码和辅码与部件对应

代码按它的功用分为主码和辅码,形成部件的复代码(见图2)。左表眉 是主码,上表眉:是辅码。复代码的形成方法,与看表的方法是 一致的。以横竖接“1”族表芯内的部件“丁”为例,“丁”的复代码是先向 左取“1”,再向上取“2”,合起来就是“丁”的复代码“12”。其余类推。横 起笔各族部件的复代码已都推出在表上。

复代码的主码代表“部件族”对单字进行编码,复代码的辅码代表“部件 序”消除单字编码的重码,形成在部件层次有多个选择的消除重码机制,大大 提高了消除重码机制的效率,从而保证了单字编码之间不会产生重码。具体地 说,因为复代码是数学平面上的一个点,两个部件构成的字,单字编码绝对无 重码(单字编码方法见后面说明)。三个部件构成的字,补充辅码可以有三个 选择。例如,“霭”拆为“雨讠曷”,《中日韩统一汉字》中还有“靄”,拆为“雨 訁曷”。如果它们都补充第一个部件的辅码,便产生了重码。“靄”,补充第一 个部件“雨”的辅码,编码为“1747”。“霭”,改为补充第二个部件的辅码: 编码为“174”。如果再有重码,还可以补充第三个部件的辅码,留有选择的 余地。

复代码使部件与代码之间的转换具有唯一性和可逆性。

复代码在部件升级为成字层次时,代码也随之升级为编码层次(“五笔字 型”是连敲四下键),形成成字层次的“代码字”(见编码数值字库横离“1” 族:“0——1”,如1一,10十,11示,祘[2示]等)。

本方案正是因为有补充辅码的多种选择,轻而易举地实现了《中日韩统一 汉字》的重码率为百分之零。

3、代码码元与键位对应

(一)台式标准键盘:

右手操作区键位:N——1,M——1,H——2,J——2,L——[<,],Y——3,U——3,O——4,P——4

左手操作区键位:B——5,G——5,V——6,F——6,C——7,D——7,X——8,S——8,Z——9,A——9

上排数字键:

汉字按部件随机编码输入,总共使用27个键,其中只有一个“”键,安 排在上排数字键,其余都是原打字键。汉字按声韵双拼加起笔部件(或再加第 一续笔部件)起笔码输入,才会全部使用。

(二)手持标准键盘

手持标准键盘,对于附标数字,比如:字[宀子]型[一廾 刂土],可化为7∨882-字[宀子]  12∧32型[一廾刂土],数字与附标分开 输入。因为编码数字有连续输入,而附标符号没有连续输入,三个附标键可以 与功能键共键。手持标准键盘输入,虽然击键的次数有所增加,但可以不需要 用屏幕拣字。

六、单字按部件代码编码

单字按部件代码编码,本方案只设计了一张表和一条规则,单字就可以按 部件代码进行编码。一张表就是“部件主码辅码表”,它是需要记住的。一条 规则就是“排列主码,补充辅码”。

部件代码是单字编码直接的唯一根据。单字编码成为汉字信息化“传送符 号链”第二个环节直接与二进制数符号相连的代码符号,将来也可能是汉字代 码的唯一形式。

本方案单字按部件代码的具体编码方法如下:

1、一部件字

一部件字就是“部件主码辅码表”里的字,又叫表内字或部件字。一部件 字的编码就是表内的复代码。比如“臣”部件的代码(见图2)是“18”,“臣” 字的编码也是“18”。这是部件主码辅码表确定的,字与码之间是可逆的。

2、二部件字

“设”拆分为“讠殳”两个部件。“设”就是二部件字。“设”第一个部件 “讠”的代码(见图2)是“”,第二个部件“殳”的代码是“”。前面 的是主码,排列主码就是“”。后面的是辅码,补充两个辅码为四码。“设” 的编码就是“”。二部件字的编码,相当于一个平面上两个点确定的一条 线段,是确定的,绝对无重码。二部件字,包括下面的三四五部件字叫编码字。

3、三部件字

“编”拆分为“纟户”三个部件。“编”就是三部件字。“编”的第一 个部件“纟”的代码(见图2)是“”,第二个部件“户”的代码是“71”, 第三个部件“”的代码是“”。排列主码是“974”。补充辅码,一般补 充第一个部件的辅码。“编”的编码就是“

“紇”拆分为三个部件“糹乙”。第一个部件“糹”的代码(见图2) 是“92”,第二个部件“”的代码是“54”,第三个部件“乙”的代码是“85”。 排列主码是“958”。如果补充第一个部件的辅码“2”,编码为“9582”。它 与“綎”的编码“9582”是重码。“紇”的编码只能补充第二个部件的辅码“4”。 于是有“9584紇[糹*乙]”。“*”是非一般补充辅码的标记。

4、四部件字

“输”拆分为“车亼刂”四个部件。“输”就是四部件字。《中日韩统 一汉字》中还有“輸”字,拆分为四个部件“車亼刂”。它们是简体与繁体 的差别。在电脑里有简体与繁体之间的相互转换,简体与繁体可以共一个编码。 但它属于二次性操作。在字库里排序,只能使用一次性操作,每个字必须有一 个编码作坐位。汉字编码才不限于只作键盘输入之用。四部件字一般只排列主 码,成为四码编码。如有重码时,再补充一个部件的辅码消除重码。一般补充 第一个部件的辅码,成为五码编码。“输”与“輸”的具体编码方法如下:

“输”,部件“车”的代码(见图2)是“22”,“亼”的代码是“”, “”的代码是“43”,“刂”的代码是“32”。排列主码是“”。因“车” 在部件主码辅码表中排在“車”的后面,取补充辅码为编码。于是有“输[车亼]刂”。

“輸”,部件“車”的代码(见图2)是“22”,“亼”的代码是“”, “”的代码是“43”,“刂”的代码是“32”。排列主码是“”。于是有 “输[車亼]刂”。

由此可知,汉字编码完全选择为4码出字并不切合实际。本方案选择从1 ——5码出字。

5、五部件字

“乌蒙磅礴走泥丸”中有一个“礴”字,拆分为五个部件“石艹氵甫寸”, “石”的代码(见图2)是“”,“艹”的代码是“”,“氵”的代码是“”, “甫”的代码是“24”,“寸”的代码是“29”。五部件字的编码只排列主码。 在《中日韩统一汉字》字集中,五部件字所有的重码,都在设计“部件主码辅 码表”时,在部件分布位置上作了统一处理。“礴”排列主码是“”。 于是有“礴[石艹氵甫寸]”。

6、部件重复字

“瓔”拆分为“2貝女”三个部件。“瓔”就是部件“貝”的重复字。 “瓔”的第一个部件“”的代码是“”,第二个部件“貝”的代码是“49”, 第三个部件“女”的代码是“98”。排列主码是“149”。因为“貝”有两个, 取“貝”重复一次的意思,在“4”上加一点为“”。排列主码变为“”, 补充辅码,一般补充第一个部件的辅码。于是有“瓔[2貝女]”。

“孁”拆分为三个部件“雨3口女”,“雨”的代码是“17”,“口”的代 码是“48”,“女”的代码是“98”。因为“口”有三个,取“口”重复二次的 意思,在“4”上加二点为“”。排列主码是“”。补充辅码,一般补充 第一个部件的辅码。于是有“孁[雨3口女]”。

代码字的部件重复按上面形式处理,如“哥[2可]”、“驫[3馬]”。

部件代码最多只加二点。字内有四个部件重复的,在设计“部件主码辅码 表”时全部选作了表内部件,如,叕。

字本身是四个部件重复的,如《说文解字》148部部首字“(zhàn)”, 在《中日韩统一汉字》中没有以“”为部件的字,而在《汉语大字典》中有 以“”为部件的“”(zhàn)字。《说文》:“,(古代王后)丹縠(细绢) 衣也。从衣,声”。本方案处理为[2工2工]。但在“部件主码辅码 表”的“1”族中,留有放置部件“”的空格,为字集升级留有余地。

本方案单字按部件的代码进行编码,实现了部件拼复被拆单字的拼复率为 百分之百,单字编码之间的重码率为百分之零。单字按编码数值排序,自然 形成与单字按汉语拼音排列相似的《中日韩统一汉字》编码数值字库。单字 按起笔部件排序,自然形成与单字按部首笔画排列相似的《中日韩统一汉字》 起笔部件字库。最后特节选《中日韩统一汉字字形操作码》书稿中的《编码数 值字库》(简称《编码字库》)与《起笔部件字库》(简称《起笔字库》)的首尾 部分于下页,用以对照图2“部件主码辅码表”,检查《中日韩统一汉字》编 码完成的实际情况。字库中右上角带“△”号的字是《说文解字》的部首字)。

《中日韩(CJK)统一汉字》编码数值字库

《中日韩(CJK)统一汉字》起笔部件字库

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号