首页> 中国专利> 一种基于词位标注的藏文分词方法

一种基于词位标注的藏文分词方法

摘要

本发明公开了一种基于词位标注的藏文分词方法,属于藏文信息处理领域。本方法为:1)对输入的藏文文本,以标点符号为标志切分为一系列藏文句子;2)对每个藏文句子,以藏文音节点为标志切分为一系列藏文音节;3)对每个藏文音节,根据其所处上下文环境从知识库中查找并选择一个词位标签赋予该音节;4)将所有被标记为紧缩的音节还原为两个音节,并依前后顺序分别标记为词尾和独立;5)将被标记为词首的音节至其后面第一个被标记为词尾的音节合并为一个词;6)将所有被标记为独立的音节以及所有未被合并的音节作为单音节词。本发明没有显式地区分词表词和未登录词,所有的处理都是在音节一级的单元上完成,使得分词称为音节重组的简单过程。

著录项

  • 公开/公告号CN102135956A

    专利类型发明专利

  • 公开/公告日2011-07-27

    原文格式PDF

  • 申请/专利权人 中国科学院软件研究所;

    申请/专利号CN201110116500.8

  • 发明设计人 刘汇丹;吴健;诺明花;马龙龙;

    申请日2011-05-06

  • 分类号G06F17/27(20060101);

  • 代理机构北京君尚知识产权代理事务所(普通合伙);

  • 代理人余长江

  • 地址 北京市海淀区中关村南四街4号

  • 入库时间 2023-12-18 02:51:52

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-05-16

    未缴年费专利权终止 IPC(主分类):G06F17/27 专利号:ZL2011101165008 申请日:20110506 授权公告日:20150930

    专利权的终止

  • 2015-09-30

    授权

    授权

  • 2011-09-07

    实质审查的生效 IPC(主分类):G06F17/27 申请日:20110506

    实质审查的生效

  • 2011-07-27

    公开

    公开

说明书

技术领域

本发明涉及计算机及藏文信息处理领域,更具体地说,涉及藏文分词领域,提供了一种基于词位标注的藏文分词方法。

背景技术

随着计算机对藏文支持能力的增强,以及我国少数民族地区信息化进程的逐步推进,越来越多的藏文信息开始通过计算机进行存储和传播,藏文信息处理的研究也从操作系统支持、排版印刷、输入法和字库等基础的文字层面逐步转向文字识别、文语转换、文本校正、信息检索、机器翻译等文本层面。然而,藏文是一种拼音文字,其各音节之间由音节点分隔,但是词与词之间却没有分隔标记,同汉语类似,分词是藏文信息处理的基础。藏文音节(藏字)的结构如图1所示,藏文句子由多个藏文音节构成,如图2所示。

经过多年的发展,研究人员已经提出了多种藏文分词方法,包括基于字符串匹配的方法、基于格助词和接续特征的方法。

基于字符串匹配的分词方法又称为机械分词方法。这种方法依照特定的策略将待分析的文字序列与词典中的词条进行匹配,若在词典中找到某个词,则匹配成功(识别出一个词)。按照扫描方向的不同,字符串匹配方法可以分为正向匹配和逆向匹配,也可以同时从两个方向进行切分,发现切分歧义,并进行切分歧义消解。

基于格助词和接续特征的方法充分利用藏文的语言特性进行分词。利用字切分特征和字性库先‘认字’,利用标点符号和关联词将藏文的段落分成句子,在单个句子中利用格助词将句子‘分块’,再用词典进行块内分词。该方法的技术特点是,综合运用藏文字、词、句等各类形态特征,在藏文格助词、接续特征、字性知识库以及词典的支持下,采用逐级定位的确定性算法实现藏文的自动分词。

现有的藏文分词方法虽然在小规模实验中取得了较好的效果,但由于藏文语言文字的特点,存在将两个藏字紧缩为一个藏字等等同汉语不同的情况,在方法实现中需要考虑很多细节问题;同时,上述方法在切分的各个阶段,包括断句、分块、块内分词等都存在切分歧义的情况,导致切分精度不高;另外,上述方法都依赖于藏文词典,对新词术语、命名实体等未登录词的处理效果不尽如人意。

发明内容

针对现有藏文分词方法中对切分歧义及未登录词等两个重要问题处理效果较差的问题,本发明的目的在于提供一种藏文分词的方法,以期在整体上取得更好的分词结果。

所述方法包括以下步骤:

A.对输入的藏文文本,以标点符号为标志切分为一系列藏文句子;

B.对每个藏文句子,以藏文音节点为标志切分为一系列藏文音节;

C.对每个藏文音节,根据其所处上下文环境采用优选方法从知识库中查找并选择一个词位标签赋予该音节,词位标签为如下五种之一:词首,词中,词尾,独立,紧缩;

D.将所有被标记为“紧缩”的音节还原为两个音节,并依前后顺序分别标记为“词尾”和“独立”;

E.将被标记为词首的音节至其后面第一个被标记为词尾的音节合并为一个词;如果被标记为词首的音节与其后面第一个被标记为词尾的音节之间有一个或者多个被标记为词中的音节,则将被标记为词首的音节与其后面第一个被标记为词尾的音节以及二者之间一个或者多个被标记为词中的音节合并为一个词;

F.将所有被标记为“独立”的音节以及所有未被合并的音节作为单音节词;

G.将经过以上处理的藏文词序列作为分词结果输出。

所述标点符号包括:藏文单垂符、双垂符、四垂符、句间空格等。

所述上下文环境包括:该音节之前的一个或者多个音节,该音节之后的一个或者多个音节。

所述词位标签共五种:词首、词中、词尾、独立、紧缩。各词位标签的具体含义为:在由多个音节构成的藏文词中,第一个音节为“词首”,最后一个音节为“词尾”,它们之间的所有音节都为“词中”;若一个词由单个音节构成,则此音节将被标记为“独立”;藏文中存在部分音节是由两个音节按照语法规则合并形成的紧缩音节,此时该音节将被标记为“紧缩”。

所述知识库包含了所有的藏文音节在不同的上下文环境中被标记为五种词位标签之一的概率值,该概率值通过预先对语料进行统计获得。语料由一批藏文文本组成,每个藏文文本包含若干藏文句子,每个藏文句子包含若干藏文音节,每个音节对应一个词位标签。在语料中,每个音节的词位标签由人工标注而成。对语料的统计,首先计算一个音节在一个上下文环境中被标记为五种词位标签之一的次数,并计算该音节与该上下文环境在语料中同现的总次数,前者除以后者即为该音节在该上下文环境中被标记为该词位标签的概率值。

所述优选方法是指当前音节在当前上下文环境中有多个词位标签可选时,根据预先统计的概率值,取概率值最大的词位标签作为当前音节的词位标签。

所述紧缩音节是指,藏文中部分词如属格助词作格助词位格助词饰集词离合词终结词等,可以省略音节点直接黏附于其前面的音节后,与其前面的音节一起合并形成一个新的音节,这个新的音节即被称为紧缩音节。

与现有技术相比,本发明的积极效果为:

本发明能够平衡地看待词表词和未登录词的识别问题。将藏文文本中所有的词都采用统一的音节标注过程来实现。在构建所需的知识库时,既不必专门强调词表词信息,也不用专门设计特定的未登录词识别模块,又避免了采用藏文格助词和接续特征所引起的各种歧义,使得系统的设计大大简化。在音节标注过程中,所有的音节根据预定义的特征进行词位特征的学习,获得一个知识库,然后在待切分的藏文文本上,根据音节所处的上下文环境,得到一个词位的分类结果。最后根据词位标签的定义,获得最终的分词结果。整个过程中,没有显式地区分词表词和未登录词,所有的处理都是在音节一级的单元上完成,使得分词称为音节重组的简单过程。知识库的构建过程中考虑了音节所处的上下文环境,实质上体现了相邻音节之间的结合紧密程度。

附图说明

图1是一个典型的藏文音节的结构图;藏文的音节可以有一个或多个基本字符组成,最多可以有七个;这七个基本字符里有一个基字和一个元音符号,其它的字符分别加在基字的上、下、前、后、再后。在一个音节里面,除了基字之外,其它部分都可能不出现。最简单的藏文音节只包含一个基字,而不包含其他组成部分;

图2是一个典型的藏文句子的结构图;藏文句子中以音节点分隔相邻音节,句子以空格或者藏文的单垂符、双垂符、四垂符等结束;

图3是本发明方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

如图3所示,本发明所述的分词方法300的具体流程是:对于输入的藏文文本302,步骤304根据标点符号和空格将藏文文本切分为一系列的藏文句子;对于切分出来的每个藏文句子,步骤306以藏文音节点为标志将句子切分为一系列藏文音节;对每个音节,步骤308从知识库310中查找当前音节在当前的上下文中可能的词位标签及相应的概率值,若标签不唯一,则选择概率值最大的词位标签作为当前音节的标签;步骤312将被标记为“紧缩”标签的藏文音节拆分成两个音节并分别标记为“词尾”和“独立”;步骤314将所有被标记为“词首”的音节与其后面第一个被标记为“词尾”的音节以及二者之间一个或者多个被标记为“词中”的音节合并为一个词;步骤316将所有被标记为“独立”的音节以及所有未被合并的音节作为单音节词;步骤318将经过以上处理的藏文词序列作为分词结果输出。

在具体的实施过程中,将五种词位标签分别以一个大写英文字母表示:B表示词首,M表示词中,E表示词尾,S表示独立,J表示紧缩。单音节词对应的词位标签序列是S,双音节词对应的词位标签序列是BE;三音节词对应的词位标签序列是BME;四音节词对应的词位标签序列是BMME;五音节词对应的此为标签序列是BMMME;由更多音节构成的词,其对应的词位标签序列可以类推,首标签为B,尾标签为E,中间是多个M标签。

下面结合附图和具体实施例来对本发明提供的技术方案进行详细描述。

实施例一:一个典型的藏文句子的分词过程

对于输入的藏文文本302:

步骤304根据藏文的单垂符将其切分为一个藏文句子;

步骤306将藏文句子切分成一系列藏文音节(这里以斜线隔开),切分之后的结果为:

步骤308对每个音节贴词位标签,这里将词位标签放在斜线后面表示,贴标签之后的结果为:

步骤312将标记为J的音节拆分并还原为两个音节,处理之后的结果为(以下划线标出该步骤所影响的部分,下同):

步骤314将所有被标记为B的音节与其后面被标记为E的音节合并为一个词,处理之后的结果为:

步骤316将所有被标记为S的音节以及所有未被合并的音节作为单音节词,处理之后的结果为:

步骤318将以上结果作为最终分词结果输出。

实施例二:另一个典型的藏文句子的分词过程

对于输入的藏文文本302:

步骤304根据藏文的单垂符将其切分为一个藏文句子;

步骤306将藏文句子切分成一系列藏文音节(这里以斜线隔开),切分之后的结果为:

步骤308对每个音节贴词位标签,这里将词位标签放在斜线后面表示,贴标签之后的结果为:

步骤312将标记为J的音节拆分并还原为两个音节,处理之后的结果为:

步骤314将所有被标记为B的音节与其后面被标记为E的音节以及二者之间一个或者多个被标记为M的音节合并为一个词,处理之后的结果为:

步骤316将所有被标记为S的音节以及所有未被合并的音节作为单音节词,处理之后的结果为:

步骤318将以上结果作为最终分词结果输出。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号