首页> 中国专利> 计算机字母化中文输入法

计算机字母化中文输入法

摘要

本发明公开一种计算机字母化中文输入法,是根据汉字的偏旁部首,将汉字拆分为26个中文表形字符作为键码,并对应的设置在计算机输入键盘上的26个英文字母的键位上,计算机“字母化”中文输入法只要求你掌握26个键码,10条取码规则,便能上机工作。由于键码的灵活性,你无须记住太多的东西。它的重码率低(实际操作重码率仅为万分之一),输入效率高(单是“一、二击简码表”就占有67.6%的使用领率)。计算机“字母化”中文输入法是一种有广阔发展前途的计算机中文输入法,它从根本上解决了中文方块字在计算机上输入难的问题。

著录项

  • 公开/公告号CN1334504A

    专利类型发明专利

  • 公开/公告日2002-02-06

    原文格式PDF

  • 申请/专利权人 熊汝康;

    申请/专利号CN01128542.7

  • 发明设计人 熊汝康;

    申请日2001-08-13

  • 分类号G06F3/023;

  • 代理机构长沙市专利事务所;

  • 代理人颜勇

  • 地址 518049 广东省深圳市下梅林碧云天云字楼602室

  • 入库时间 2023-12-17 14:10:59

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2005-10-12

    专利权的终止未缴年费专利权终止

    专利权的终止未缴年费专利权终止

  • 2004-05-19

    授权

    授权

  • 2002-02-06

    公开

    公开

  • 2001-12-19

    实质审查的生效

    实质审查的生效

说明书

技术领域。

本发明涉及一种计算机中文输入法。

背景技术。

目前,计算机中文输入法有很多,但大多输入方法复杂,难懂难学,输入速度慢,有的虽然较简单,但重码率高,因此,也有输入速度慢的缺点。

发明内容。

本发明的目的在于提供方法简单、重码率低,输入速度快的计算机中文输入法。

本发明的目的是通过如下途径实现的:一种计算机字母化中文输入法,根据汉字的偏旁部首,设定26个中文表形字符,这26个中文表形字符分别为:一、厂、、十、土、木、、、小、山、口、日、冂、丿、、人、八、乂、ク、丶、亠、广、之、フ、∠,这26个中文表形字符分别设在计算机键盘上的26个英文字母键上,其取码规则为:1):每字4码,不足4码的补虚码或击空格键,虚码有3个,即:常规附加码、特别码、综合结构码;2):取码要循笔顺;3):变形还原规则-规定:小变形还原,大变形不还原;4):主题—汉字分成26部,每部都将笔画数最多的一个偏旁设为主题,以减少重码,“主题”只取单码(首码),又分为两类:A):始终只取首码的主题(18个):扌、土、木、艹、忄、山、口、日、月、竹、亻、钅、犭、氵、讠、疒、宀、纟,B):只在左偏旁位置时才取单码(首码)的主题(10个):王、石、车、虫、彳、金、火、鱼、言、阝(在左);5):单元字(由一个部件组成的字即为单元字)的取码;单元字应拆分为更低一级的基础零件,然后结合键码循笔顺连取3码,再加底码;6):上下结构的取码:上下结构包括“单叠式”和“复叠式”,在不足4码时,单叠式用空格键,复叠式用特别码,上下结构的取码,除部分典型结构按本条的D点取码外,其余按下述方法取码:A):分层—上下结构是由多个部件竖叠而成,在一般情况下可根据部件来分层,但如果在结构中含有成字部件(或者说含有一个“子字”),成字部件就应取为一层,而且应取“最大成字部件”为一层(即它也含有“子字”);B):分段—在正确分层的基础上,从字的最底层处将字分为上、下两段;C):取码,按一列4种情况取码:a)上段是一个单码“子字”则下段取首、底两码,第四码虚码;b)上段只有一个单码,“字符”,下段应取足3码;c)在一般情况下,上下两段各取首、底码,共4码;d)三元完全相同的“品”字结构,下段均取各元的底码;D):典型结构依笔顺取码;7):左右结构,左右结构包括并列式和3列式,3列式应看作一个结构加偏旁,所以与并列式的取码规则相同,只是并列式在不足4码时,加常规附加码,而3列式加综合结构码,当并列结构的左偏旁是主题时,主题取单码,右列取3码;8)减码规则:A)先虚后实一有虚码的字应先弃去虚码;B):先内后外—先减内形码,后减外形码;先减靠里的代码,后减靠外的代码;C):先减非首、底码,最后才减首底码;D):与对比字仅有微小差别的字,减码时要保留“特征码”;9)例外规定:A)凡左右结构的右列为“中、冘、力、乃”者均加虚码特别码;B)下列16字是应记住的最低限度二击简码(它们在其它结构中也只取首、底两码):见以太里  水已受用思其角族掏西凉货;C)以下10字一律取首、底码,再加“常规附加码或空格键”;永(之小)州(丶)勾(丿フ)巴(冂フ)臼(丿凵)曷(日フ)言(亠口)韋(フ十)贝(日八)田(冂凵);D)列入重码字表的重码字,可以按下列方式改码以避开重码:a)4码字减去第3码加空格;B)原加虚码常规附加码、综合结构码或空格的3码字,改用特别码,原用特别码的字改用空格;C)右列为“刂”的字虚码由特别码改空格;10)构词规则一每词4码,从各字的首、底码中取码,首字两码,首字若为单码字,则应补以相应虚码,词末的“儿”、“子”均取单码“儿”、“フ”。这26个中文表形字符在计算机键盘上所对应的键为一→Y、厂→F、→T、十→S、土→L、木→M、→I、→Q、小→O、山→W、口→K、日→E、冂→H、丿→X、→J、亻→R、人→A、八→B、乂→C、ク→V、丶→D、亠→U、广→Z、之→N、フ→P、∠→G。常规附加码设在“F”键,特别码设在“T”键,综合结构码设在“Z”键。

本发明具有输入方法简单,易懂易学,重码率低,输入速度快的特点。

具体实施方式1.概述

“字母化中文输入法”是从《汉字字母化研究》这一课题中衍生出来的一种中文输入法。通过《汉字字母化研究》,建立起了一组由26个表形中文字符组成的字符集,由于该字符集正好和标准键盘的26个键有一一对应的关系,所以被定名为“镀码”。因此“字母化中文输入法”也可叫“键码输入法”。

汉字实现“字母化”一直是汉字研究领域的一个理想。汉字通过键码实现“字母化”以后,在汉字的应用领域将产生深远影响,其中最突出的便是汉字检索法的现代化和汉字输入法的字母化。汉字实现“字母化”,是中文走向现代化的一项系统工程,而“字母化中文输入法”的推广,便是其中的一个重要环节。2,键码字符集

键码,是一组由26个中文表形字符组成的字符集。这个字符集的特点是:1.是一组中文表形字母:2.有序性——字母的排列顺序是严格规定的;3.与标准键盘有一一对应性;4.每个字母都有上、下形之分。但大部分字母的上、下形是相同的,只有少数字母的上、下形不同。下面是这个字符集的全貌:一、厂、、十、土、木、、小、山、口、日、冂、丿、、人、八、乂、ク、丶、亠、广、之、フ、∠3.键码字母介绍

下面对26个键码字母逐一作详细介绍,一(yī)上、下形均为“一”上形字例:耳西两巨无武万歹兀 醒珲下形字例:立金止血且巫应当说明1)字的顶部(或左右结构左列的顶部)为一横(而且一横没有“出头”)的字被分配在“一”、“厂”两字母内,两者区别在第二笔。在一横之下紧接着写一撇的,除“兀、歹”外均归“厂”,其余则统归“一”。(“万”字第二笔为“フ”,故“万”归“一”。)请比较两字母字例。说明2)字的底部(或左右结构的右列的底部)为一横的字,其下形被看成“一”或“土”。凡从下向上看具“土”形者归“土”,余均归“一”,请比较两者的下形字例。厂(chǎng)上形为“厂”上形字例;原厄  石而不页豕  所后盾斤瓜殷  戊咸成说明3)归入“厂”的字,除了以“厂”、“丆”起头的字外,还包括“”(yi)类字(见字例),但不包括“爪”(“爪”和“爫”看作“丿、八”)。此外,“戊”类字也因为起笔为“厂”而归入“厂”。说明4)在常用字的范围内,没有下形为“厂”的字,“厂”的下形基本上是空的。这个空位在编码时用作“虚码”。(tí)上形为“”,无下形。上形字例:丰来韦击夫寿春专青麦(麥)表  末事吏柬甫求屯龙大来(來)夹丈  戈或说明5)以“一”起笔的汉字,从结构特征来看,有两类情况,一类是“一”不被其它笔划贯穿,如“豆、西、”等字的第一笔;另一类是“一”被其它结构的某笔所贯穿,这一类字被分配在“、十、土、木”4字母内。凡不能归入“十、土、木”3字母的字,均归入“”。“”读“提”,也就是“特、一”(特别的一)的合音。“”的实质仍然是“一”,但它又和字母“一”有所不同,是“特别的一”,所以,我们使用了在“一”下加一短竖的特殊符号,来表示这种“一”,并与正常的“一”相区别。如果你比较一下“元”与“无”、“天”与“夫”这两组字,就会明白为什么要将“”与“一”区分开来。说明6)归入“”的字,从笔顺上来看,和“十、土、木”3字母的字有所不同。例如“束”字,从字头看似具“十”形,但“束”字并不归“十”,因为“束”字的笔顺是“一、口、”,而不是先写“十”,而“十、土、木”3字母的字都是先写“十”。从这个例子可看出设立字母“”对于正确地表述笔顺也是必要的。说明7)没有以“”为下形的字。像“丹、字、册、舟”等字的一横仍仍应作“一”。只有被其他结构的某笔穿透的“一”才算“”,十(shí)上、下形均为“十”上形字例:南朝古卉支索啬丧  扌  寸下形字例:丰斗平耳奉牛车聿  肀(肃唐)  本用  韋舜舞说明8)作为上形,“十”的两笔应连写。由于“”(竖钩)在笔型上归“丨”,所以,“扌”归“十”部。(注意:“求”应解析为“、水、丶”,“才”应解析为“、”,所以“求、才”两字归“”。同理,“來、麥”也归“”部。)说明9)作为下形,只要具“十”形即可,不限笔顺。例如“牛、车、”等作左偏旁时下形都仍看作“十”。结构“”的下形也看作“十”的变形。土(tǔ)上′下形均为“土”上形字例:老者彭吉士喜走声  哉截裁  卖下形字例:王壬生堇佳  垂重里丑(妻)说明10)“土”的上、下形均为“土”。“士”也归“土”。在上形中,笔顺必须完全同“土”如“丰”字就不能看作“土、十”(应为“、、十”)。但在下形中则不要求笔顺,而只看它是否具“土”形,请研究字例。简体“卖”的字头“”也看作“土”,以使繁、简体统一。木(mù)上形为“木”,下形为“木”、“”上形字例:木术查楚下形字例:未来采米  束東乘來秉聚鳏(峦)兼说明11)“木”的上形为“木”,下形则还包括“”(mǔ)及变形“”(兼)。“木”的下形不带钩,“木”为“、小”(寨、条)。(shu)上、下形均为“丨、、卜、、中”上形字例:旧 上卓虎  卜  与顷  中虫贵遗  北比下形字例:外 下不韦中巾甲申乍却都  弟书说明12)“竖”本指“丨”,是汉字的基本笔型之一,但是,一方面,以“丨”为独立结构的字只有“旧”一字,而另一方面,“丨”作为字母也容易与“”混淆,所以我们用“”来作为字母,并让它代表“丨、、卜”4个字符。此外,“与”、“”也被归入“”。因为它们的上形也为“”。说明13)“中”字本是由“口、丨”组成。由于起笔为“口”的字太多,造成大量重码,而起笔为“卜”的字很少,因此利用“中”字有竖向出头的特点,将所有以“中”、“虫”起头的字从“口”移入“”(中虫盅忠贵遣遗)。(qí)上形为“艹”、“”,下形为“”、“廾”上形字例:草  廿革世  带卅  共其黄  止齿川片非坚师  井曹下形字例:斤介非弗  肃肅  开井莽  卯州  渊淵  鼎说明14)“”的特点就是有两个或两个以上的竖向出头,所以,它包含了“草字头”的全部汉字。我们也可以看成是“艹”与“”共用一键,并用字母“”来代表。我们借用“丌”(“其”的古字)来命名它。“”部还包含“止、非”等字,这是因为“”被看作“丨”所以“止”可解释为“、一”,而“非”则解释为“”(每一短横算一码)。说明15)“井、曹”2字从笔顺来分析,它们本应归入“”,但由于它们都有两个竖向出头,为便于快速判别,它们被作为“乔居字”寄入“”小(xiǎo)上、下形均为“小”。上形字例:少尘雀  光尚党  业凿黹  恒悦下形字例:示系条  赤亦    水永承  豕象  添幕恭说明16)“小”的上形包括“小”、“”、“忄”。因为字头为“小”的字很少而”忄”与“小”形似,所以我们安排物“忄”与“小”共用一键。“业”的上形,作为变形也归入“小”。说明17)在下形中,“”、用“水”、“”都看作“小”的变形。不过,“水”被解释为“、小”,而“水”为“小()、小”’“豕”为“厂、小”’“”为“小、、”。请研究字例。山(shān)上形为“山”、“凵”(Kǎn),下形为“凵”、“囗”(wéi)上形字例:山  岂岸出  豐下形字例:峦   击缶   廿画凶函  田由四曲因回  舀插说明18)字母“山”除了包含起头为“山”的全部字外,还包括起笔为“凵”的几个字。繁体“豐”字也归入“山”。“山”的下形除“ 凵”外,还包括除“口、日”以外的“囗”(wéi)形。“囗”在笔顺上虽与“凵”不同,但它们有相似的下形,’因此将“囗”归入“凵”下形。请研究字例,口(kaǐ)上、下形均为“口”上形字例:口足虽只  史串  巳民下形字例  凹凸  甘  吞舌说明19)起笔为“口”的字是最多的,所以将“中、虫”一类字移入“”以减少重码。其余起笔为“口”的字仍归“口”。此外,“已、民”2字起笔虽为“”,但因字头具“口”形,也将它们作为“乔居字”寄入“口”。说明20)在“口”的下形中,归入了“凹、凸、甘”3字。日(rì)上、下形均为“日”上形字例:日曰  目贝貝见見  申电  艮門下形字例:昔者  看霜  酉酒酱说明21)“日”的上、下形均为“日”。“目”字不论从上或从下(向上)看都含“日”,所以被解释为“日、日”。“酉”的下形也被解释为“日”。此外,“申电”等字都应看作是“日”与其它笔型或结构的交连,而“艮、門”则是作为“乔居字”寄入“日”。冂(hóng)上、下形均为“冂”、“”上形字例:冗  月同周用册  巾央  骨黑凹凸具  几风  田由曲因国  里晕果甲禺。巴下形字例:门骨鬲角扁禹册  铜纲呐调说明22)“冂”本读“jiōng”,因为读起来费力,不适合字母读音,而改读“hóng”(红)。所有上形呈“冂”的字被分别归入“口、日、冂”3字母,除了前面归入“口、日”两字母的字,其余全归入“冂”。“”(mì)是“冂”的变形(比较“雨雪、高豪”),所以归入“冂”。“几、风”均解释为“冂、儿”。“里畢果甲禺”等字从结构分析来看本应归入“日”由于它们的竖向连笔已经贯顶,使人更多地联想到“田”字,而且“里果甲”等字在字义上也会位入联想到“田”,因此,将这一组字归入“冂”,以利于快速判别。“巴”作为“乔居字”寄入“冂”丿(xié)上、下形均为“丿”上形字例:  禾鼻舟爪卑  长及匀留卯  匕包乌鸟  臼臾叟鼠  兜樂下形字例:严卢少彡产户尸尹说明23)“丿”本读“pěi”,作为字母读来费劲,因此改读“斜”。所有起笔为“丿”的字被分配到“丿、、人、八、乂、ク”ク字母内(“”类字仍技习惯归“厂”),不能归入后6字母的字统归“丿”。“兜、樂”两字是从中间起笔的,所以归“丿”。“爪”字和它的变形“爫”一起都归“丿”,看作“丿、八”。“丿”的下形是指那些以“丿”结尾的字,如字例所示。(zhú)上形为“”,下形为“亅”(竖钩)’上形字例:竹()缶矢气  朱先生告失牛下形字例:子手可了寸丁争说明24)“”取自“竹”字的右半部,因“”部以“竹”字头的字为主,所以将“”定名为“竹”。“”是一个复合字母,它的上、下形含义不同,上形表示“、”,下形表示“亅”(但不包括“刂”)。(rě)上形为“亻”,下形为“儿”上形字例:件代华凭  佳集隽  段  舆學  儿九下形字例:几风  兑兆  荒流  九执  龙尧说明25)“”是一个复义字母,它的上形代表“亻”(rèn任),下形代表“儿”。因此,将字母读成“惹”。上形“亻”是由“人”演化而来的,由于“人”部的字多,所以将“亻”单独立部。又因为除“彳”一字外,再没有别的以“亻”为下形的字,我们安排“儿”与它共用一键并用一个字母代表两种结构。在实用上我们仍旧可以分别使用“亻”与“儿”。说明26)“亻”的上形除“亻”外,还包括字例所列的几类字,如“段、舆”等字都以“亻”起笔,所以都归入“亻”部。“亻”的下形为“儿”,也有如字例所示的几种变形。人(ren)上、下形均为“人”上形字例:众俞合坐  入汆  金银  食餅下形字例:大夫亥癸以僉奏  走久说明27)“人”的上、下形均为“人”。“入”也归“人”。简写的“钅”也和繁体的“金”一同归“人”。在汉字中,有时不容易区别“人”与“八”的下形,因此规定如下:

A)“大夫亥癸以僉奏”以及同类下形的字和“久”字的下形都规定作“人”;

B)凡结构中含“大、夫”者,其下形均作“人”(如:达规篡春养卷)。但特别规定“头”的下形作“八”(买卖实)。这样做,可使相关字的繁、简体的下形统一。八(ba)上形为“八”、“丷”、“”、“”、“”,下形为“八”、“” 上形字例:父分  半米敝券  火  兴举学脊兆下形字例:贝员尺头(买实)穴爪()说明28)“八”的上形包括几种形式,如字例所示。下形则为“八”、“”。“”在连写时看作“、八”,所以“脊”字归“八”部。“兆”字按部件是由“”和“儿”组成的,所以被解释为“八八儿”。“八”与“人”的判别见说明27)。此外,“灬”本义是“火”’听以也从“火”解释为“八、丶”。乂(chā)上形为“乂、“又”,下形为“乂”、“上形字例:凶杀爻  又对观欢  狂狗猛狼下形字例:文义女  麦皮寇  戈或藏成(尧)说明29)“义”(叉)的上形不仅有“乂”,还包括“又”,这样作,可以简化“又”的取码。下形则除“乂”外,还包括“”的下形,如字例所示。ク(dāo)上形为“タ、刀、、力、”,下形为“ク、刀、力、刂、”上形字例:鱼角久各  多名祭然  召邵  加贺架  欠尔饱饭  那下形字例:歹多罗  乃万旁  分券劈  勤劳务  汤勿扬  身才矛牙俞前则说明30)“ク”、“刂”本与“刀”通,“力”与“刀”有相同的笔顺与笔型,是“刀”的“姐妹字”。“”、“”、“”、“”分别看作“刀”的上、下形变体。可见“刀”的形式丰富多彩。丶(diǎn)上、下形均为“丶”上形字例:江河湖海  门间问闻  良头斗义州下形字例:冬虫专令  公云私去  长瓜  术杰  良辰农衣(衤)癶(登癸类)(祭)说明31)以“丶”起笔的字除“忄”归“小”外,其余被分配在“丶、亠、广、之”4字母内。“氵、门”归“丶”、“亠、冫”(及“言、”)归“上”,“广、疒、麻、鹿”归“广”,其余在点之后有一折笔的字(宀、穴、户、礻、衤等)统归“之”部,详各部说明。说明32)“丶”部实际上只包括“氵、门”两大类字以及少数几个以点起笔的字。“丶”的下形则包括以“丶”、“”(捺)等两种形式落底的字,但“术”是个例外(木、丶)。有一些字,它们的最后一笔虽然也是点,但它们的底码不是点,所以不能归入“丶”的下形字内,如:“太、犬”(底码为“人”)、“或、戈”(底码为“乂”)、“甫”(冂)、“葡”(フ)、“求”(小)等等。亠(tóu)上形为“亠”、“”,下形为“心”‘上形字例  文章峦雍  言谈话语  冰冷将  燮心必下形字例:心态意想  必秘瑟说明33)“亠”音“头”。“冫”(bing)(是“亠”的变形。“讠”也和“言”一起归入“亠”。“燮、”一类从“言”起笔的字也归“亠”。说明34)“亠”没有下形字。而“心”在汉语中表示“思想、情感”等意思,都是大脑的活动,所以将“心”安排作“亠”的下形。“必”被解释为“心、丿”。广(guǎng)   上形为“广”,无下形。上形字例:广席康度  疾病疤痕  麻磨魔靡  鹿麒麟鏖说明35)“广”的上形包含“广、疒(nè),麻、鹿”4部分内容。因为“广”的使用频率在字母中是最低的,所以被安排在较难操作的“Z”键上。“广”也是一个没有下形的字母。之(zhī)上形为“”,下形为“ヘ”。上形字例:宜宣牢完  户雇房肩  穴究空塞  神社祈祷  被褥裙裤  之永下形字例:乏贬  送运进连  建延廷说明36)字母“之”包括在点之后有一折笔的几类字,它们是“宀(mián)、穴、户、礻、衤”以及“之、永”等字。“之”的下形为“ヘ”(平捺),包括“之、辶、辶”,如字例所示。フ(zhé)上、下形均扩“フ”、“フ”上形字例:弓羽  阿卫马  韋孙君翠翟眉乃尺司刁屋登癸函亟也下形字例:今片  亏匀马鸟曷母为弱羽说明37)“フ”的上、下形均为“フ”、“”。起笔为“フ”的字,“已民”和“艮、門”分别归“口、日、冂”外,余均归“フ”部。∠(gōg)上、下形均为“∠”上形字例:红给经纱  女娜姐  以矣参  乡收彖发戕辔巢  迅飞虱  乙贯母下形字例:亡世区陋  巴北比龍  宛死乖  式民气鼠说明38)“∠”本是古“肱”字,注音时为通俗起见改注“工”字。汉字本只分5种笔型,我们现在将向左弯的笔型归“フ”,向右弯的归“∠”。作多次弯折的,以最后一次为准。所以,“弓、专”的曲笔均归“フ”,而“乙”归“∠”。“∠”包括“乙”等。

以上是键码字母的详细介绍。26个字母汇总成的《键码字母表》(见说明书附图图1)。4:键盘配置(见说明书附图2)

键码字母是根据字母的使用频率经过大量统计计算后,结合字母的音、形、义等要素配置的。键盘配置的结果如(说明书附图2)所示。(注:“厂”本身并不是一个高频字母,因为被用作“虚码”而成为高频字。)从音、形、义方面来看,按汉语拼音的首字母配置键码的有:一(yī)、(tí)、十(shí)、木(mù)、(qí)、口(kǒu)、冂(hóng)、丿(xié)、(rě)、八(bā)、乂(chā)、丶(diǎn)、∠(gōng)按形似原则配置的有:厂(F)、(I)、山(W)、日(E)、(J)人(A)ク(V,字母V像刀刃)、亠(U,字母U像头形)、之(N,字母N也是两个折,只是方向不同)、(字母P像フ部的“卩”)按意义或其它原则配置的有:土(L,在L键上,配置字母“土”和一击简码“地”,“土地”正是英语Land的意思)小(0,字母O像数字0,是最小的正数;用它比喻“小”)广(“广”的使用频率最低,被配置在最难操作的Z簇上)5.输入法的取码规则

根据GF3001—1997《信息处理用GB13000.1字符集 汉字部件规范》,汉字有560个部件。不同的汉字是由不同的部件以不同的方式组成的。我们可以用键码字母来表述这些部件的上下形(或者说,取这些部件的首、底码),这样,不同的汉字就会有不同的字母组合。根据数学分析,每个汉字只需要取4码。因此,需要建立起一套规则来规定如何取码。规则1。每字4码。不足4码的字按下列规定补虚码或者击空格键。虚码有3个。即:F(厂)常规防加码、T(一)特别码、Z(广)综合结构码,空格键注“■”。

说明:——每字4码是一种最经济有效且兼顾字、词的取码法。根据数学中的排列组合原理,在4击方案中同时可兼容3击、2击和1击组合,其中特别是2击和1击用于高频字作简码配置,可大大提高输入速度,因此,我们在方案中对一般字都采用加虚码的方法来让出2击和1击的位置供高频字用。另外,不足4码的字用不同的虚码来处理,对于减少重码也是一种极有效的手段。由于“厂、、广”3个字母没有或只有极个别的下形字,我们利用这一特点用它们来作为“虚码”。规则2.取码要循笔顺

在一般情况下,汉字是从字的顶部(单元字和上下结构)或右上角处(左右结构)起笔的,但“兜、樂、燮、、亟”等少数例外,它们从中间起笔。汉字依起笔处的结构特征取首码(S),依字底处的外形特征取底码(D)。(有一些字,字底无外形码,只能取内形码,如“内、同”等字。),首、底码是每个汉字最主要的两个代码。这是使用者最低限度应掌握的。规则l规定每个汉字要取4码,而本规则规定取码的顺序要与书写顺序相一致,这不仅限定了首码必须在起笔处提取,也限定了其它3码的顺序。

有极少数的汉字,笔顺与部件分割略有矛盾。此时,笔顺不变,而取码按部件拆分来处理。如“兆”字的规范笔顺本来是:“丿、兆”,而其部件分割为“、儿”因此取码为:“儿”。此外,“必”字的笔顺为“必”但在本方案中它被解释为“心、丿”,与笔顺略有出入。在7000常用字中,其它字基本符合《笔顺规范》。规则3变形还原规则——规定:小变形还原,大变形不还原。如;

A)结构“大、夫”的底码总取“人”(达规春豢养),“雪雷”等字中的“雨”底码总作“冂”,“羚、叛、邦”笔字中的“羊、半、丰”底码总作“十”,“戎”的第2码也作“十”。“糹(系)”的底码总作“小”。

B)“看、着、寿、差”等字中的第2码均作“丿”不作“十”。“拜、掰”等字中的第2码作“十”不作“”规则4.主题——汉字分成26部,每部都将字数最多的一个偏旁设为主题,以减少重码。“主题”只取单码(首码)。它们又分为两类:

A)始终只取首码的主题(18个):扌、土,木、艹、忄、山、口、日、月、竹、亻、钅、犭,氵、讠、

B)只在左偏旁位置时才取单码(首码)的主题(10个):王、石、车、虫、彳、金、火、鱼、言、阝(在左)

以上10个主题不在左偏旁位置时应按常规取码。[“言”取(亠口F■),“阝”(邑)取()。],例如:皇(丿日、一土)碧(一日、厂口)、砗(厂、∠十)融(一冂、丶)说明——每部设立一个主题,其目的是为了减少重码。这26个偏旁都是各部字数最多的偏旁,它们只取首码,“字基”部分取3码,这样可避开许多字的重码。下面,我灼举一些字例来说明主题偏旁的取码特点:喧(口、之一一)碟(厂、∠木)轿(、丿人)格(木、ク乂口)蜍(、人一小)蒿(、亠口冂)规则5.单元字的取码——由一个部件组成的字,即为单元字。单元字应拆分为更低一级的基础零件,然后结合键码循笔顺违取3码,再加上底码。(参见表2.3《基础零部件的首、底码》)例如:事  零件[一口彐J]取码(一口フ。)重  [丿一日土](丿日土)注:下列结构在取码时均应当作一个整体(即视为单元字)来处理:

川、儿、非、兆、卯、卵、州、門。规则6上下结构的取码——上下结构包括。单叠式”和“复叠武”,在不足4码时,单叠式用空倍键“■”,复叠武用虚码“Z”。上下结构的取码,除部分典型结构按本条的D点取码外,其余按下述方法取码。A)分层——上下结构是由多个部件竖叠而成的,在一般情况下可根据部件来分层。但如果在结构中含有成字部件(或者说合有一个“子字”),成字部件就应取为一层,而且应取“最大成字部件”为一层(即它也含有“子字”)。如:寡[宀直,分](“分”为一层)竟[音,儿](“音”为一层,“意、章”同此)真[直,八]腐[府、肉]礬[樊、石]金[人干,]B)分段——在正确分层的基础上,从字的最底层处将它分为上、下两段。有些字分层存在两种可能性,此时应取偏下层的方案。如:章[音,十]矍[矍,又]竟[咅,儿]舍[人干,口]C)取码一按下列4种情况取码:

a)上段是一个单码“子字”(如:“厂土土木小山口日人广”等),则下段取首、底两码,第4码加虚码。如:吴(口,一人■)柰(木,一小■)康(广,フ小■)厕(厂,日クZ)嶷(山,丿人Z)最(日一乂Z)

b)上段只是一个单码“字符”(如:“廿、冖、丿、、乂、宀、”疒”等)(注:“、疒”是主题,规定取单码),下段应取足3码。如:定(宀、一人)病(广、一冂人)荞(、丿人)冤(、ク口儿)丢(丿、土∠丶)希(乂、丿)等(、土十)c)在一船情况下,上下两段各取首、底码,共4码,如:资(亠人,日八)鹿(广一,∠)原(厂日,小■)

d)三元完全相同的“品”字结构,下段均取各元的底码。如:

磊(厂口口口)D)典型结构依笔顺按图取码(注“▲”者为底码):规则7.左右结构——左右结构包括并列武和3列式。3列式应看作一个并列结构再加偏旁,所以它们的取码规则相同,只是并列式在不足4码时加虚码“F”,而3列式加虚码Z。当并列结构的左偏旁是主题时,主题取单码,右列取3码。当其左列是单码偏旁“十、冫”时,右列只取首、底两码,再加虚码“T”。其余情况一律按列取首、底码。规则8减码规则

因为规定每字4码,所以在一个多元结构中的子结构应相应地减码。在通常情况下,由于取码规则的规定,使减码成为一个自然的过程,下面以“定”字为例:定(之、一人)啶(口、之一人)(“定”字的第3码被减去)靛(冂、之人)(“定”字的2、3码均被减去,只留下首、底码)人)由(冂凵■)皮(冂丿义)丘(丿一■)岛(丿フ山■)脊(八人冂■)兆(八八儿■)里(几土■)甲(冂凵■)果(冂凵木■)勿(丿クF■)匆(丿ク丶■)规则10构词规则——每词4码。按下列规则从各字的首、底码中取码。首字两码。首字若为单码字,则应补以相应虚码。词末的“儿”、“子”均取单码“几”、“フ”。A普通词:例:汉语(丶乂亠口)阳光(フ日小儿)寒暑表(之丶日丶)新世纪(亠∠)氧气(十∠)爱心(丿乂亠F)老头子(土、∠丶フ)

B叠词——首字取首、底码,再加第2字及末字的底码。双音节叠词取3次底码。例:妈妈(∠フフフ)瘦瘦的(广乂乂フ)静悄悄(冂冂)津津有味(丶十十木)轰轰烈烈(义乂丶)6.一击与二击简码表

由于排列组合的可能性,可以在4码空间之外安排26个“一击简码”和262个“二击简码”,这些代码由于击键次数少而具有极高的输入效率。

一击简码共26个字。我们选择了使用频率和使用度综合水平最高的汉字。收入一击简码表的汉字只要按规定的键位击一次键,然后击空格健即可输入,所以有最高的输入效率。统计表明,收入一击筒码表的26个汉字,占有25.8%的使用频率。其中,单是“的”一个字的使用频率就高达4.2%,是使用得最多的汉字。

收入二击简码表的汉字是从各个不同的首、底码分区内选取的。它们绝大部分是该区内使用度最高的单音节词,但也有少数字按使用频率选择。每个收入二击简码表的汉字,只需输入它的首、底码然后击空格键即可。它们又分简体与繁体两种不同的表。简体的二击简码表收字578个。统计结果表明,收入二击筒码表的汉字占有41.8%的使用频率。所以,一个1、4码为首、底码的字,其正常的减码顺序是:先减3,后减2,最后才轮到首、底码。但是,有下列各点应注意:A先虚后实——有虚码的字应先弃去虚码。B先内后外——先减内形码,后减外形码;先减靠里的代码,后减靠外的代码。

高(亠口冂口)→搞(十、亠口冂)甫(冂十丶)→铺(人、冂丶)C先减非首、底码,最后才减首、底码。D与对比字仅有微小差别的字,减码时要保留“特征码”。规则9例外规定

A.凡左右结构的右列为“中、冘、力、乃”者均加虚码“T”。

枕(木冂儿T)(机F)钟(人TT)(钋FF)勋(口八クT)(吩F)

B.下列16字是应记住的最低限度二击简码(它们在其它结构中也只取首、底两码):

见以太里  水已受用  思其角族  掏西凉货

C、以下10字一律取首、底码,再加“F■”;永(之小)州(丶)勾(丿フ)巴(冂∠)臼(丿山)曷(日フ)言(亠口)韋(フ十)贝(日八)田(冂凵)

D.列入重码字表的重码字,可以按下列方式改码以避开重码:A)4码字减去第3码加“■”如:“攻”(一一乂■)(政一一乂)

B)原加虚码“F”、“Z”或“■”的3码字,改用“T”,原用“T”的字改用“■”。如:捐(十口冂T)胡(十口冂F)

C)右列为“刂”的字虚码由“F”改“■”。如:剄(一一ク■)

E以下各字取码或减码较特殊:

雨(一冂丶丶)酉(一冂儿日)武(一一∠)巨(一フ∠■)水(小F■)豕(厂小F■)承(フ十十小)非(■)莽(

如果将一击与二击简码表所收的汉字综合计算,它们已占有全部汉字67.6%的使用频率。由此可见,尽可能地使用一击与二击简码表,对专业人员提高工作效率是多么重要。

顺便提一下,不要将两个简码表叫作“一级”与“二级”简码表,以免与汉字的分级相混淆。“一击”或“二击”指的是实码的击键次数,不包括空格键。《一击与二击简码表》见说明书附图3)7.重码率及其计算方法

当你在电脑上输入汉字时,如果一组编码可能同时代表两个以上的汉字,便视为重码。在一组重码字中,使用频率有高低之分,为了提高输入效率,软件的设置使高频字直接地输入,而只有低频字才真正成为“重码字”。

重码率是评价一种编码方案的重要技术指标,本发明的重码率,和目前比较流行的方案比起来,是很低的。它的总重码率只有1.21%(如果把使用频率这一因素考虑进来,它的实际值仅万分之八)。而且,由于键码的灵活性,使重码字很容易通过改码来避开重码。每一个专业人员都可以将他的常用字中的重码字直接以改码输入(规则9),所以,使用本发明的专业人员在实际操作中可以将重码率降低到零。

本发明的重码字表(简体)(见说明书附图4)。它分为5栏。第1栏是0级或1级字间的重码字,由于这些字都是常用字,所以应当记住它们的改码,共15字。第2和4栏(■栏)是一组重码字中有一个已编入了《二击简码表》,总共有7组,专业人员应该记住这7组二击筒码,因此不算重码。第5栏(X栏)是在一组重码字中有一个字实际上不会以单字的形式出现,如“鸥”字和“鹦鹉”的“鹉”字重码,而“鹉”是不会单独使用的(像“鹉”这类只以词的形式出现的字,称为“半词字”)。这类字有37组,由于这一类字的重码在实际操作中不会出现,所以它们不作为重码字计入统计值中。第3栏是2级字间或2级字与1级字间的重码字,总共70个字。这类字才是在实际操作中真正会遇到的重码字。8.各种输入法综合述评

从排列组合的角度可以知道,可以设计出各式各样的中文输入法。所以,现在已经有一千多种输入法申请了专利,是不足为奇的。归纳起来,中文输入法可以分为3大类,即音码类、形码类和音形结合类。

可以用“全拼输入法”来作为音码类的代表。它是以汉语拼音方案为基础的一种输入法。它的优点是输入规则简单,记忆量小,输入时能与思维(语言)同步。但它有三大致命的缺点。其一是在一个音节中同音字太多,检索起来非常难,因此效率难以提高;其二是不会读的字无法输入;其三是只能局限在拼音准确的人群中使用,普通话掌握得不好的人用拼音就很困难。所以,这种输入法多在知识分子中流行。

形码类的代表作是“五笔字型“输入法。它是目前使用人数最多的一种输入法。它的主要特点是将汉字拆分为130个字根,字根被分区配置在键盘上。形码不受语音的局限,拆分为字根的做法也较能为中国人所接受。这些正是“五笔字型”较流行的原因。但是,“五笔字型”的架构比较复杂,记亿量大,一段时间不用,就会忘记。(这正是许多人转而去用拼音输入法的原因。)它有258个重码字,重码率偏高。按字根拆字,不可能完全符合笔顺,容易对学生产生误导。这些都是它的缺点。

音形结合码有各种各样的方案,但它们大都不能保存前述两类方案的优点,而又不能排除它们的缺点,因此少有广泛流传的。

中国是一个大国,语音不可能统一。所以,就汉字输入法而言,以形码为基础的输入法(它模拟汉字的书写,只是简化了过程)应是一个正确的方向。因此,汉字“字母化”便是唯一的出路。“字母化”中文输入法只要求你掌握26个键码,10条取码规则,便能上机工作。由于键码的灵活性,你无须记住太多的东西。它的重码率低(实际操作重码率仅为万分之一),输入效率高(单是“一、二击简码表”就占有67.6%的使用领率)。最为重要的一点是,汉字“字母化”是一项系统工程,它将在汉字的各个领域被广泛应用。汉字实现“字母化”,使汉字产生了有序性,因此,“字母化”的字典便可以直接检索,其检索效率比英语字典更高。如果在学校的语文教学中加入汉字“字母化”的学习内容,学生就能掌握“字母化”字典的使用,也能轻松地上机,无需进一步地学习。

计算机“字母化”中文输入法是一种有广阔发展前途的计算机中文输入法。它从根本上解决了中文方块字在计算机上输入难的问题。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号