法律状态公告日
法律状态信息
法律状态
2019-01-11
授权
授权
2017-04-12
实质审查的生效 IPC(主分类):G06F17/27 申请日:20161009
实质审查的生效
2017-03-15
公开
公开
技术领域
本发明涉及人工智能领域中的自然语言理解技术,具体为一种基于词性、句法和词典的比喻修辞句自动分析与判定方法。涉及将计算机作为工具,以随机输入的句子作为处理对象,依靠词性标注、句法分析、依存关系和可计算词典等技术手段,实现比喻修辞句的自动分析与判定,可广泛应用于自然语言深度理解、机器翻译与计算机辅助教学等各个领域的比喻修辞自动分析与判定系统中。
背景技术
随着自然语言理解、人工智能和机器翻译的发展,修辞手法的自动分析与理解已日益成为阻碍自然语言处理深入发展的瓶颈。而在日常使用过程中,修辞手法的使用存在着分布不均的情况,最常使用的是比喻修辞手法。比喻在形式上具有本体、喻体、比喻词三种成分,依据成分的异同和隐现主要分为:明喻和隐喻。英国修辞学家理查兹指出,在日常会话中,我们几乎每三句话中就可能出现一个隐喻。更有学者估计,人们在自由交谈中平均每分钟使用四个隐喻辞格。同时,自然语言的比喻特性使得单纯按纯本义语言来解释意义是不可能的。因此,仅仅局限于字面意义的获取而不解决比喻话语的理解问题对于很好地解决语言理解难题是远远不够的。
近年来,人工智能研究者开始尝试去计算分析语言理解的心理机制和语言思维的结构方式,比喻作为语言和思维的中心问题,是这项研究的中心。它涉及计算机科学、语言学、哲学、认知科学、行为学、脑科学等多学科的交叉。由于比喻思维是人类最重要的思维机制之一,因此,比喻计算也是人工智能技术进一步发展须要解决的中心问题之一,它的最终目标是要赋予计算机像人一样能理解自然语言的能力。因而,通过基于词性、句法和词典的比喻修辞手法自动分析与判定方法对深化中文信息处理的内容与技术都具有重要的理论和实践意义。
鉴于比喻修辞句的重要意义,国外对它的研究狂热于20世纪70年代,而国内的则相对较晚,直到近些年才受到重视。在国外,关于隐喻的工作机制相继形成了以替代论、比较论、互动论、概念隐喻理论和概念合成理论为首的五大理论体系,对它的研究主要是基于逻辑的计算研究和基于语料库的计算研究这两大方面。基于逻辑的计算研究主要有自适应逻辑ALM、隐喻推理系统ATT-Meta、隐喻逻辑、类型理论、隐喻的动态语义学和汉语隐喻逻辑这六大方面;而基于语料库的计算研究有基于向量空间的隐喻解释计算和基于语料库的识别、分析和规范隐喻这两大方面,其主要优点是不受限于手工构造的知识库。在国内,由于起步较晚,目前为止,还没形成一个完整的进行大规模汉语隐喻识别的计算系统,但也有一定的研究成果,如基于认知和计算的汉语隐喻分类初步探索;利用统计技术发掘常规性隐喻的尝试;以及汉语隐喻逻辑推理的初步尝试,等等。其中,以厦门大学杨芸和苏畅的算法较为成熟。杨芸的关于比喻修辞句的算法,以形式化的语言来表达比喻句,同时也总结了一定数量的比喻句结构的形式化格式并且依靠基于句法的依存关系来识别比喻句。杨芸所提出的比喻句结构的形式化格式是基于依存关系的。目前在不同句法分析软件中,依存关系的结果和准确率各不相同,比如使用Stanford Parser对“话语像阳光一样温暖人心”进行依存关系分析,它的根节点为“一样”而不是比喻词“像”。最主要的是依存关系的准确率并不是很高,国内著名的哈工大语言云的依存关系准确率最高才0.8582。因此,直接使用依存关系给出的比喻句的形式化结构是不可靠的。苏畅的算法首次构建了认知相似逻辑、认知依存逻辑和认知理解逻辑并且基于合作机制提出了简单名词性隐喻的计算方法,然后进一步考虑上下文对隐喻理解的影响,基于全新的语义意合度实现了上下文敏感的隐喻表述义提取系统。苏畅的算法在理论上解释了隐喻的发生和工作机制,突出了隐喻的“同从异出”。但在实际操作中,一方面,它需要手动构建喻体特征知识库;另一方面,它需要手工对句子中的实词进行标注;而且无法处理本体未在语料库中出现的隐喻句。苏畅的算法在理论上为我们解决隐喻句这一难题提供了思路,但在实际应用上却还有很长一段路要走。
处理比喻句的难点主要集中在候选本体和喻体的获取以及如何识别是否为比喻修辞手法这两方面。这两大问题产生的原因,一方面在于汉语复杂的句子和句式结构以及比喻修饰手法的多样性和灵活性,另一方面在于包含比喻词的句子并不一定是比喻句,如:老师像妈妈一样爱打排球,虽然包含比喻词“像”,但并不是比喻句而是比较句。本发明主要围绕这两大问题展开研究与设计,并提出了一套解决这些问题的可行方法。
发明内容
本发明提供了一种基于词性、句法和词典的比喻修辞句自动分析与判定方法,通过词性标注、句法分析和依存关系删除句子中的多余成分,筛选出候选本体和候选喻体,再通过计算候选本体和候选喻体的相似度,最终进行比喻表达的判定,本方法自动化程度高,判定准确率高。
为解决上述技术问题,本发明采用如下技术方案:
一种基于词性、句法和词典的比喻修辞句自动分析与判定方法,包括以下步骤:
S1.对句子进行分词、词性标注,判定句子是否包含比喻词或比喻特征词,若不包含则判定句子为常规表达,转S9,否则转S2;
S2.将句子用句法分析中的句法树进行标注,基于句法分析将修饰成分删除,删除完成后重新进行分词和词性标注,若名词和代词的数量少于2,则判定为常规表达,转S9,若句子符合简单比喻句的形式转S7,否则转S3;
S3.基于简单从句的多余成分删除:若句子在句法树中的根结点的直接下位为简单从句时,在句法树中,若比喻词与其处于同一句法层次的动词之间含有名词成分且该成分不被包含在方位短语中,则删除该动词及动词以后的句子成分,若该动词前面有副词修饰,则连同该副词一起删除;删除完成后重新进行分词和词性标注,统计名词和代词的个数,若句子符合简单比喻句的形式转S7;否则转S4;
S4.基于比喻词的多余成分删除:若比喻词前有动词,则删除比喻词前面的动宾成分,此时,若句子符合简单比喻句的形式转S7,否则以比喻词为界,若存在代词与名词处于比喻词的同一侧且代词与名词之间可构成名词短语,则删除此代词,此时若该代词与名词间还存在指示代词,则连同该指示代词一起删除,删除完成后,若句子符合简单比喻句的形式,则转S7,否则转S5。
S5.通过依存关系缩小候选本体与候选喻体的范围:在依存关系中,从直接宾语、名词主语、宾语、依赖关系、形容词、名词组合形式、指示物、指代、介词修订、主语的依存关系中提取出名词和代词,从而缩小名词与代词的提取范围;若出现连接两个并列词的依存关系,则将两个名词合二为一作为候选本体或候选喻体;缩小范围后,若句子符合简单比喻句的形式,则转S7,否则转S6;
S6:根据根节点对应词所构成的依存关系,筛选候选本体与候选喻体:将所有与根节点对应词构成依存关系的名词或者代词提取出来,计算名词和代词的数量:
S6-1.若名词和代词的数量为2,则转S7;
S6-2.若名词和代词的数量大于2,则在紧靠比喻词前取一个已提取出的名词或代词、在紧靠比喻词后取一个已提取出的名词作为候选本体与喻体,转S7;
S6-3.若名词和代词的数量为1,并且根节点对应词为名词,则将根节点对应词与所提取出的名词或代词一起确定为待抽取的候选本体与候选喻体,转S7;
S6-4.若名词和代词的数量为1,并且根节点对应词不为名词,则在S5的基础上,根据该名词或代词是在比喻词之前或之后进一步判断:若该词在比喻词前,则在紧靠比喻词后取一个已提取出的名词作为候选本体或候选喻体;若该词在比喻词后,则在紧靠比喻词前取一个已提取出的名词或代词作为候选本体或候选喻体,转S7;
S6-5.若名词和代词的数量为0,或从根节点对应词的依存关系中只提出一个名词或代词且根节点对应词不为名词,则在S5的基础之上,在紧靠比喻词前取一个已提取出的名词或代词、在紧靠比喻词后取一个已提取出的名词作为候选本体与喻体,转S7;
S7.简单比喻句的抽取规则处理,并抽取出候选本、喻体;
S8.基于词典的比喻修饰手法的自动判定;
S9.结束判定。
以上所述的比喻句的定义、基本结构为:比喻句俗称打比方,是用浅显、具体、生动的事物来解释抽象、难理解的事物,其基本结构分为三部分:本体(被比喻的事物)、比喻词(表示比喻关系的词语)和喻体(打比方的事物),依据成分的异同和隐现可分为:明喻和隐喻;明喻和隐喻的区别,可直接体现在比喻词上面,隐喻的常用比喻词包括“是”、“似”、“变成”、“变为”等,而明喻的常用比喻词则包括“好像”、“像”、“犹如”、“如”、“仿佛”、“如同”、“好比”、“宛如”、“堪比”等;比喻句的形式因其三大基本结构的组成顺序不同而有所变化,本发明将其形式化为:“本体+比喻词+喻体”、“比喻词+喻体+本体”、“喻体+比喻特征词+本体”等三种形式;其中以第一种形式较为常见。
比喻句的判定主要根据本体和喻体之间的指称异常度来判定。指称异常度是指在一个指称型语言结构中,被指称对象(本体)在常规情况下不会被指称它的事物(喻体)来指称。本发明判定比喻句的基本原则为:候选本体与喻体之间的相似程度越低,则其指称异常度越高,从而比喻表达的可能性也就越高。
进一步的,以Root表示要处理的句子在句法树中的根结点,IP表示简单从句,NP表示名词短语,VP表示动词短语,CP表示由“的”构成的表示修饰性关系的短语,DNP由“的”构成的表示所属关系的短语,ip1∈IP,ip2∈IP,np1∈NP,np2∈NP,cp1∈CP,dnp1∈DNP,vp1∈VP;步骤S2中,所述修饰成分删除包括以下步骤:
S2-1.删除句法树中的形容词短语、限定词短语、方位词短语、名词前的量词短语、内容标记词、动补复合词、表示基数的词、限定词、形容词或序数词、副词;特别注意的是:优选的,如果量词短语位于名词和名词之间,则不删除;
S2-2.在句法树中,介词短语中介词不为比喻词集合中的词,则删除该介词短语,若该介词短语的上位为动词则连此动词一同删除;若在IP中,介词短语的介词是比喻词集合中的词,此时若介词不是CP的下位并且该介词短语含NP,则删除介词短语之后的成分;
S2-3.在句法树中,判断Root下位的词性:
S2-3-1.若Root直接下位为ip1,且np1为ip1的下位,而np1的直接下位由cp1和np2组成,此时若cp1位于比喻词前,或者cp1的下位无简单从句且cp1里不含比喻词,则cp1为np1的简单修饰成分,删除cp1;若Root直接下位为ip1,且np1为ip1的下位,而np1的下位仅有cp1,则整个cp1作为定语成分,不能删除cp1,此时,若cp1直接下位为ip2,则令Root为ip2,转S2-1;
S2-3-2.若Root的直接下位为np1,此时整个句子为名词短语np1,若np1的下位存在着cp1,且cp1的前后都有名词或代词,则cp1为其后名词或代词的修饰成分,删除cp1,否则不能删除cp1;
S2-3-3.若Root的直接下位为ip1,且np1、vp1为ip1的下位,并且np1的直接下位由dnp1和np2组成,此时若dnp1里不包含比喻词,则dnp1为np1的修饰成分,删除dnp1,若dnp1里含比喻词,则删除ip1下位的vp1,若dnp1处于vp1的下位并包含比喻词,则不能删除dnp1;
S2-3-4.若Root的直接下位为np1,且np1直接下位由dnp1和np2组成,则整个句子为名词短语np1,且不能删除dnp1。
以上所述的上位和下位,是句法树中的术语;在句法树中,一个结点的上位是指该结点与根结点Root之间的路径所经过的结点,一个结点的下位是指位于该结点的下方且与该结点直接或间接相连接的结点,直接下位是指位于该结点的下一层且与该结点直接连接的结点。
进一步的,所述简单比喻句包括:a.只有两个名词和一个比喻词/比喻特征词;b.只有一个代词、一个名词和一个比喻词/比喻特征词。所述复杂比喻句是指有效名词和代词的数量大于两个的比喻句子。
更进一步的,步骤S7中所述简单比喻句的抽取规则包括:
以N表示名词集合,M表示比喻词集合,F表示比喻特征词集合,S表示句子集合,Sent()表示句子函数,Stru()表示形式化句子结构的函数,Pr表示代词集合;
S7-1.比喻词前后各一个名词的简单比喻句结构及其候选本、喻体的自动抽取
比喻词前面的名词为候选本体,比喻词后面的名词为候选喻体,其形式化结构及其候选本体、候选喻体的抽取规则为:
S7-2.两个名词均在比喻词后的简单比喻句结构及其候选本、喻体的自动抽取
第一个名词为候选喻体,第二个名词为候选本体,其形式化结构及其候选本体、候选喻体的抽取规则为:
S7-3.由一个代词与一个名词构成的简单比喻句结构及其候选本、喻体的自动抽取
代词为候选本体,名词为候选喻体,其形式化结构及其候选本体、候选喻体的抽取规则为:
S7-4.省略比喻词但包含比喻特征词的简单比喻句结构及其候选本、喻体的自动抽取
句子中没有比喻词,但出现比喻特征词,第一个名词为候选喻体,第二个名词为候选本体,其形式化结构及其候选本体、候选喻体的抽取规则为:
进一步的,所述步骤S8自动判定的步骤包括:若比喻词为副词,则直接判定句子为常规表达,转S9,否则通过《知网》获取候选本、喻体的英文独立义原集合,然后通过WordNet计算二个义原集合的语义相似度,通过语义相似度判断为比喻表达还是常规表达。
更进一步的,所述语义相似度的计算方法为:
计算规则:
将候选本体和候选喻体在《知网》中进行自动检索,取出它们各自独立义原集合的英语表达,并将这两个英文义原集合在WordNet中进行相似度计算;
按照式1计算概念c的IC值:
其中hypo(c)表示返回概念c在词典中的所有下位词,depth(c)表示概念c的深度,max_nodes是一个常数,表示概念c在WordNet知识库中的所有节点数;分别求出候选本体与候选喻体的独立义原的IC值;
计算候选本体与候选喻体两个概念之间的语义相似度:
其中LCS(c1,c2)表示c1,c2的最近公共父节点;
计算和判定的步骤包括:
S8-1.首先将候选本体与候选喻体的独立义原集合中的义原两两成对,依次组成义原对,在WordNet中按照上述公式进行语义相似度计算,并取所有义原对中的最大语义相似度作为候选本体与候选喻体的相似度;
S8-2.对于人称代词的候选本体,直接将其与候选喻体进行基于词典的相似度计算;而对于指示代词与疑问代词的候选本体,本发明将其视为候选喻体的同类,并直接规定它们与候选喻体的相似度为0.8。
S8-3.当候选本体与候选喻体的相似度小于0.52,各义原对之间的最近公共父节点在WordNet中的最大深度小于6,并且比喻词为非副词,则该句子为比喻表达,否则为常规表达;
S8-4.若是比喻表达,且其比喻词为隐喻常用词,则为隐喻表达,否则为明喻表达。
进一步的,步骤S1中,对句子进行分词、词性标注采用开源的分词程序。
(1)本发明的比喻句分析方法仅依靠词性标注、句法分析、依存关系和可计算词典等技术手段,避免了建立大量原型比喻句和标记语料等繁重的过程。
(2)采用基于词性标注的简单比喻句的结构形式化定义,以及基于词性标注的简单比喻句的候选本体和喻体的抽取规则,避免了构建大量比喻句模型,并简化了句子分析的过程,同时也提高了本发明比喻句判定的准确率。
(3)根据比喻句的特点,使用句法分析和依存关系,将在复杂比喻句中与比喻修饰无关的多余成分中的名词或代词删除掉,同时缩小本体和喻体的确定范围,将复杂比喻句转换成简单比喻句,实现候选本体和喻体的抽取,从而使复杂比喻句的准确处理成为可能。
(4)本发明结合了《知网》和WordNet二个著名的可计算词典进行语义相似度的计算,以一种更可靠、更直接的方法来识别比喻修饰手法。
(5)本发明能通过以计算机作为工具,对任意输入的句子进行比喻修饰手法的全自动分析与判定,无需建立任何数据库、无需人工干预即可对比喻修饰手法进行全自动分析,自动化程度高,并且判定的准确率较高,具有极强的实用性。
(6)本发明应用范围广,可广泛用于自然语言深度理解、机器翻译与计算机辅助教学等各个领域的比喻修辞自动分析与判定系统中。
附图说明
图1是本发明的操作流程示意图。
图2是验证实施例1中采用Stanford Parser程序进行句法分析的分析结果图。
图3是验证实施例2中采用Stanford Parser程序进行句法分析的分析结果图。
图4是验证实施例3中采用Stanford Parser程序进行句法分析的分析结果图。
图5是验证实施例3中去除修饰成分后采用Stanford Parser程序进行句法分析的分析结果图。
具体实施方式
以下结合具体实施例对本发明作进一步说明,但本发明的保护范围不限于以下实施例。
一种基于词性、句法和词典的比喻修辞句自动分析与判定方法,如图1所示,包括以下步骤:
S1.采用开源的分词程序对句子进行分词、词性标注,判定句子是否包含比喻词或比喻特征词,若不包含则判定句子为常规表达,转S9,否则转S2。
S2.将句子用句法分析中的句法树进行标注,基于句法分析将修饰成分删除,删除包括以下步骤:
以Root表示要处理的句子在句法树中的根结点,IP表示简单从句,NP表示名词短语,VP表示动词短语,CP表示由“的”构成的表示修饰性关系的短语,DNP由“的”构成的表示所属关系的短语,ip1∈IP,ip2∈IP,np1∈NP,np2∈NP,cp1∈CP,dnp1∈DNP,vp1∈VP;
S2-1.删除句法树中的形容词短语、限定词短语、方位词短语、名词前的量词短语、内容标记词、动补复合词、表示基数的词、限定词、形容词或序数词、副词;值得注意的是:优选的,如果量词短语位于名词和名词之间,则不删除该量词短语。
S2-2.在句法树中,介词短语中介词不为比喻词集合中的词,则删除该介词短语,若该介词短语的上位为动词则连此动词一同删除;若在IP中,介词短语的介词是比喻词集合中的词,此时若介词不是CP的下位并且该介词短语含NP,则删除介词短语之后的成分;
S2-3.在句法树中,判断Root下位的词性:
S2-3-1.若Root直接下位为ip1,且np1为ip1的下位,而np1的直接下位由cp1和np2组成,此时若cp1位于比喻词前,或者cp1的下位无简单从句且cp1里不含比喻词,则cp1为np1的简单修饰成分,删除cp1;若Root直接下位为ip1,且np1为ip1的下位,而np1的下位仅有cp1,则整个cp1作为定语成分,不能删除cp1,此时,若cp1直接下位为ip2,则令Root为ip2,转S2-1;
S2-3-2.若Root的直接下位为np1,此时整个句子为名词短语np1,若np1的下位存在着cp1,且cp1的前后都有名词或代词,则cp1为其后名词或代词的修饰成分,删除cp1,否则不能删除cp1;
S2-3-3.若Root的直接下位为ip1,且np1、vp1为ip1的下位,并且np1的直接下位由dnp1和np2组成,此时若dnp1里不包含比喻词,则dnp1为np1的修饰成分,删除dnp1,若dnp1里含比喻词,则删除ip1下位的vp1,若dnp1处于vp1的下位并包含比喻词,则不能删除dnp1;
S2-3-4.若Root的直接下位为np1,且np1直接下位由dnp1和np2组成,则整个句子为名词短语np1,且不能删除dnp1。
删除完成后重新进行分词和词性标注,若名词和代词的数量少于2,则判定为常规表达,转S9,若句子符合简单比喻句的形式转S7,否则转S3。
S3.基于简单从句的多余成分删除:若句子在句法树中的根结点的直接下位为简单从句时,在句法树中,若比喻词与其处于同一句法层次的动词之间含有名词成分且该成分不被包含在方位短语中,则删除该动词及动词以后的句子成分,若该动词前面有副词修饰,则连同该副词一起删除;删除完成后重新进行分词和词性标注,统计名词和代词的个数,若句子符合简单比喻句的形式转S7;否则转S4。
S4.基于比喻词的多余成分删除:若比喻词前有动词,则删除比喻词前面的动宾成分,此时,若句子符合简单比喻句的形式转S7,否则以比喻词为界,若存在代词与名词处于比喻词的同一侧且代词与名词之间可构成名词短语,则删除此代词,此时若该代词与名词间还存在指示代词,则连同该指示代词一起删除,删除完成后,若句子符合简单比喻句的形式,则转S7,否则转S5。
S5.通过依存关系缩小候选本体与候选喻体的范围:在依存关系中,从直接宾语、名词主语、宾语、依赖关系、形容词、名词组合形式、指示物、指代、介词修订、主语的依存关系中提取出名词和代词,从而缩小名词与代词的提取范围;若出现连接两个并列词的依存关系,则将两个名词合二为一作为候选本体或候选喻体;缩小范围后,若句子符合简单比喻句的形式,则转S7,否则转S6。
S6.根据根节点对应词所构成的依存关系,筛选候选本体与候选喻体:将所有与根节点对应词构成依存关系的名词或者代词提取出来,计算名词和代词的数量:
S6-1.若名词和代词的数量为2,则转S7;
S6-2.若名词和代词的数量大于2,则在紧靠比喻词前取一个已提取出的名词或代词、在紧靠比喻词后取一个已提取出的名词作为候选本体与喻体,转S7;
S6-3.若名词和代词的数量为1,并且根节点对应词为名词,则将根节点对应词与所提取出的名词或代词一起确定为待抽取的候选本体与候选喻体,转S7;
S6-4.若名词和代词的数量为1,并且根节点对应词不为名词,则在S5的基础上,根据该名词或代词是在比喻词之前或之后进一步判断:若该词在比喻词前,则在紧靠比喻词后取一个已提取出的名词作为候选本体或候选喻体;若该词在比喻词后,则在紧靠比喻词前取一个已提取出的名词或代词作为候选本体或候选喻体,转S7;
S6-5.若名词和代词的数量为0,或从根节点对应词的依存关系中只提出一个名词或代词且根节点对应词不为名词,则在S5的基础之上,在紧靠比喻词前取一个已提取出的名词或代词、在紧靠比喻词后取一个已提取出的名词作为候选本体与喻体,转S7。
S7.简单比喻句的抽取规则处理,并抽取出候选本、喻体;
以上所述简单比喻句包括:a.只有两个名词和一个比喻词/比喻特征词;b.只有一个代词、一个名词和一个比喻词/比喻特征词;
简单比喻句的抽取规则包括:
以N表示名词集合,M表示比喻词集合,F表示比喻特征词集合,S表示句子集合,Sent()表示句子函数,Stru()表示形式化句子结构的函数,Pr表示代词集合;
S7-1.比喻词前后各一个名词的简单比喻句结构及其候选本、喻体的自动抽取
比喻词前面的名词为候选本体,比喻词后面的名词为候选喻体,其形式化结构及其候选本体、候选喻体的抽取规则为:
如:弯弯的月亮像小船;候选本体为月亮,候选喻体为小船;
S7-2.两个名词均在比喻词后的简单比喻句结构及其候选本、喻体的自动抽取
第一个名词为候选喻体,第二个名词为候选本体,其形式化结构及其候选本体、候选喻体的抽取规则为:
如:像鹅毛般的大雪落下来了;候选本体为第二个名词大雪,候选喻体为第一个名词鹅毛;
S7-3.由一个代词与一个名词构成的简单比喻句结构及其候选本、喻体的自动抽取代词为候选本体,名词为候选喻体,其形式化结构及其候选本体、候选喻体的抽取规则为:
如:他像一座雕像;候选本体为代词他,候选喻体为名词雕像;
S7-4.省略比喻词但包含比喻特征词的简单比喻句结构及其候选本、喻体的自动抽取
句子中没有比喻词,但出现比喻特征词,第一个名词为候选喻体,第二个名词为候选本体,其形式化结构及其候选本体、候选喻体的抽取规则为:
如:钻石般闪闪发亮的星星;原句省略了比喻词像,但出现了比喻特征词般,故候选本体为第二个名词星星,候选喻体为第一个名词钻石。
S8.基于词典的比喻修饰手法的自动判定;
自动判定的步骤包括:若比喻词为副词,则直接判定句子为常规表达,转S9,否则通过《知网》获取候选本、喻体的英文独立义原集合,然后通过WordNet计算二个集合的语义相似度,通过语义相似度判断为比喻表达还是常规表达。
更具体的,语义相似度的计算方法为:
计算规则:
将候选本体和候选喻体在《知网》中进行自动检索,取出它们各自独立义原集合的英语表达,并将这两个英文义原集合在WordNet中进行相似度计算;
按照式1计算概念c的IC值:
其中hypo(c)表示返回概念c在词典中的所有下位词,depth(c)表示概念c的深度,max_nodes是一个常数,表示概念c在WordNet知识库中的所有节点数;分别求出候选本体与候选喻体的独立义原的IC值;
计算候选本体与候选喻体两个概念之间的语义相似度:
其中LCS(c1,c2)表示c1,c2的最近公共父节点;
计算和判定的步骤包括:
S8-1.首先将候选本体与候选喻体的独立义原集合中的义原两两成对,依次组成义原对,在WordNet中按照上述公式进行语义相似度计算,并取所有义原对中的最大语义相似度作为候选本体与候选喻体的相似度;
S8-2.对于人称代词的候选本体,直接将其与候选喻体进行基于词典的相似度计算;而对于指示代词与疑问代词的候选本体,本发明将其视为候选喻体的同类,并直接规定它们与候选喻体的相似度为0.8。
S8-3.当候选本体与候选喻体的相似度小于0.52,各义原对之间的最近公共父节点在WordNet中的最大深度小于6,并且比喻词为非副词,则该句子为比喻表达,否则为常规表达;
S8-4.若是比喻表达,且其比喻词为隐喻常用词“是”、“似”、“变成”、“变为”,则为隐喻表达,否则为明喻表达。
S9.结束判定。
以上对复杂比喻句处理的总体思路为:根据比喻句的特点,使用句法分析将在复杂比喻句中与比喻修饰无关的多余成分删除,并通过依存关系缩小候选本体和喻体的抽取范围,从而将复杂比喻句转换成简单比喻句,实现复杂比喻句的候选本体和候选喻体的抽取,其采用的具体规则包括以下方面:
规则1:基于句法分析的修饰成分删除;以上步骤S2是基于本规则,依据句子成分划分的方法,在句法树中对句子进行附加成分(起修饰、限制、补充作用,可分为定、状、补语)的删除;此时,若句子仍含名词与代词的数量大于2,则转规则2。
规则2:基于简单从句的多余成分删除;以上步骤S3是基于本规则,对句子进行句法分析,当句子在句法树中的根结点的直接下位为简单从句时,同时,在简单从句中,比喻词与其处于同一句法层次的动词之间含有名词成分且该成分不被包含在方位短语中,则删除该动词及其以后的句子成分,若该动词前面有副词修饰,则连同该副词修饰一起删除。重新统计名词或代词的个数,若句子可转化为简单比喻句的状态,则按简单比喻句的规则处理,否则转规则3。
规则3:基于比喻词的多余成分删除;以上步骤S4是基于本规则,在规则2的基础上,删除比喻词前面的动宾成分,此时,若可转化为简单比喻句则按简单比喻句规则处理,否则若代词与名词同处于比喻词一侧且代词与名词之间可构成名词短语,则删除此代词,此时若代词与名词间还存在指示代词,则删除此代词和指示代词,此时,若可转化为简单比喻句则按简单比喻句规则处理,否则转规则4。
规则4:基于依存关系的本、喻体范围缩小;以上步骤S5、S6是基于本规则,在规则3的基础上,依据依存关系,可进一步对多个名词进行筛选。首先只从直接宾语、名词主语、宾语、依赖关系、形容词、名词组合形式、指示物,指代、介词修订、主语等的依存关系中提取出名词和代词,从而缩小名词与代词的提出范围,缩小范围后若符合简单比喻句,则按简单比喻句规则处理,否则根据所提取出的名词或代词是否与根节点对应词构成依存关系,进一步缩小筛选候选本体和喻体的范围。若所提取出的名词或代词都没有与根节点对应词构成依存关系,则在紧靠比喻词前,取一个已提取出的名词或代词、在紧靠比喻词后,取一个已提取出的名词作为候选本体或候选喻体,然后按简单比喻句的抽取规则决定候选本体与候选喻体;若与根节点的对应词构成依存关系的名词和代词的总数为1,而根节点的对应词为名词,则将其与另一个名词或代词一起作为候选本体或候选喻体,然后按简单比喻句的抽取规则决定候选本体与喻体。若从根节点对应词的依存关系中只提取出一个名词或代词,且根节点对应词不为名词,则根据该名词或代词是在比喻词的前后进一步判断:若该词在比喻词前,则在紧靠比喻词后取一个已提取出的名词作为候选本体或候选喻体;若该词在比喻词后,则在紧靠比喻词前取一个已提取出的名词作为候选本体或候选喻体,然后按简单比喻句的抽取规则决定候选本体与候选喻体。若从根节点对应词的依存关系中仍提取出多个名词或代词,则在紧靠比喻词前取一个已提取出的名词或代词、在紧靠比喻词后取一个已提取出的名词作为候选本体或候选喻体,然后按简单比喻句的抽取规则决定候选本体与候选喻体。
规则5:以上步骤S8是基于本规则;比喻词在比喻句中的可能词性分为:动词、介词和副词这三类。本发明分析发现真正起比喻作用的比喻词的词性只能为动词和介词,如:“周围的群山像连绵不断的地毯”,句子中的比喻词“像”的词性,在ICTCLAS开源程序的分词结果中为动词,而进行句子修饰成分删除后,原句变为“群山像地毯”,句中的比喻词“像”的词性,在ICTCLAS开源程序的分词结果中为介词,因此该句有可能为比喻句。因此,本发明规定若比喻词的词性为副词,则句子为常规表达,如:“小女孩静静的听着,她好像面对着大海”中的比喻词“好像”为副词,进行句子修饰成分删除后,原句变为“小女孩听着,她好像面对着大海”,该句中的比喻词“好像”仍为副词,故该句子为常规表达。
代词消除与处理是比喻句判定中不可回避的一个问题,代词是指代替名词、动词、形容词、数量词的词,在中文比喻句的本体中可能出现的代词主要包括:人称代词,如:“我”、“你”、“他”、“我们”、“它”、“它们”等;疑问代词,如:“谁”、“哪儿”、“多少”等;指示代词,如:“这”、“那”、“这些”等三大类。在比喻句中,喻体一般直接使用众所周知的事物而不会使用代词,因此代词只会出现在本体中,本发明针对代词的消除与处理,主要有以下过程:
(1)采用S2的方法,在句子修饰成分删除的过程中,将作为修饰成分的代词删除;如“他的眼睛像水晶一样漂亮”,在句子中“他的”作为“眼睛”的定语,按照本发明的句子修饰成分删除规则可直接删除“他的”,从而达到消除代词的目的。
(2)采用S4的方法,在基于比喻词的多余成分删除过程中,若代词与某个名词同处于比喻词一侧且代词与名词之间为组合关系,则删除此代词;如“他那双洁白如玉的手像象牙”进行句子修饰成分删除后,原句变为“他手像象牙”,再次进行语法分析后,代词“他”与名词“手”处于比喻词“像”的同一侧,且共同组成名词短语“他手”,因而删除代词“他”,从而达到消除代词的目的。
(3)在S8的判定过程,对于人称代词的候选本体,直接将其与候选喻体进行基础于词典的相似度计算;而对于指示代词与疑问代词的候选本体,本发明将其视为候选喻体的同类,并直接规定它们与候选喻体的相似度为0.8。
本发明的验证实验主要结合中科院的ICTCLAS分词和词性标注开源软件包进行分词和词性标注,以及美国斯坦福大学开发的Stanford Parser句法分析软件开源包进行词性标注、句法分析处理和依存关系处理,最后使用中科院的《知网》中文词典和普林斯顿大学的WordNet英文词典,计算候选本体和喻体的相似度计算,并根据候选本体和喻体的相似度及其义原在WordNet中的特征判别是否为比喻表达。
验证实施例1
S1.使用开源的ICTCLAS程序对句子“周围的群山像一条连绵不断的地毯”进行分词和词性标注,结果为:
周围/词性:f;的/词性:ude1;群山/词性:n;像/词性:v;一/词性:m;条/词性:q;连绵不断/词性:vl;的/词性:ude1;地毯/词性:n;
S2.使用Stanford Parser进行句法分析,分析结果见图2,根据图2中所示的句法树,此时,句子存在修饰成分:“周围的”、“一条”和“连绵不断的”,依据S2进行句子修饰成分删除后,原句缩减为:群山像地毯。重新进行分词和词性标注,结果为:群山/词性:n像/词性:p;地毯/词性:n;此时,句子只有两个有效名词,分别为“群山”和“地毯”,符合简单比喻句的条件,转S7;
S7.直接提取候选本体:群山,候选喻体:地毯;
S8.将候选本体与候选喻体进行《知网》的独立义原集合的英文表达检索,检索结果分别为:群山={waters,generic}和地毯={material},然后利用WordNet3.0对独立义原集合中的义原对“materia”与“waters”、“materia”与“generic”进行相似度计算,它们的IC相似度最大值为0.4093,各义原对之间的最近公共父节点的最大深度为3,并且比喻词不为副词,故断定该句为比喻表达。比喻词不为隐喻常用词,故该比喻句为明喻,本体为:群山,喻体为:地毯。
验证实施例2
S1.使用开源的ICTCLAS程序对句子“春风像一支把整个世界勾勒的绚丽多彩的彩笔”进行分词和词性标注,结果为:春风/词性:n;像/词性:v;一/词性:m;支/词性:q;把/词性:pba;整个/词性:b;世界/词性:n;勾勒/词性:v;的/词性:ude1;绚丽多彩/词性:vl;的/词性:ude1;手/词性:n;
S2.使用Stanford Parser进行句法分析,分析结果见图3,根据图3中所示的句法树;此时,根据步骤S2-1,删除修饰成分“一双”;根据步骤S-3-2,把“把整个世界勾勒的”的作为cp1,它的前后分别存在名词“春风”和“手”,所以删除“把整个世界勾勒的”,此时原句缩减为:春风像绚丽多彩的手。重新进行分词和词性标注,结果为:春风/词性:n;像/词性:v;绚丽多彩/词性:vl;的/词性:ude1;手/词性:n;此时,句子只有两个有效名词,分别为“春风”和“手”,符合简单比喻句的情况,转S7;
S7.直接抽取候选本体:春风,候选喻体:手;
S8.将候选本体与候选喻体进行《知网》的独立义原集合的英文表达检索,检索结果分别为:春风={wind}和手={part,hand},然后利用WordNet对独立义原集合中的义原对“wind”与“part”、“wind”与“hand”进行相似度计算,它们的IC相似度最大值为0.457,各义原对之间的最近公共父节点的最大深度为2,并且比喻词不为副词,故断定该句为比喻表达。比喻词不为隐喻常用词,故该比喻句为明喻,本体为:春风,喻体为:手。
验证实施例3
S1.将句子“炕沿上坐着的那个鬼子两眼绿的像黑夜里的狼眼”进行分词和词性标注,结果为:
炕沿/词性:s;上/词性:f;坐/词性:v;着/词性:uzhe;的/词性:ude1;那个/词性:rz;鬼子/词性:n;两/词性:m;只/词性:q;眼/词性:n;绿/词性:a;的/词性:ude1;像/词性:p;黑夜/词性:n;里/词性:f;的/词性:ude1;狼/词性:n;眼/词性:n;
S2.句子含有五个名词,将句子使用Stanford Parser进行句法分析,分析结果见图4,根据图4中所示的句法树;此时存在修饰成分,“炕沿上坐着的”、“那个”和“黑夜里的”,按照语法规则去除修饰成分后句子为:鬼子两只眼绿的像狼眼;再次将句子进行分词和词性标注,结果如下:鬼子/词性:n;两/词性:m;
只/词性:q眼/词性:n绿/词性:a;的/词性:ude1;像/词性:p;狼/词性:n;眼/词性:n;此时,句子有四个名词,使用Stanford Parser进行句法分析,分析结果如图5,根据图5中所示的句法树,此时并不存在修饰成分,但仍有四个名词;
S3.判断无基于简单从句的多余成分;
S4.判断无基于比喻词的多余成分;
S5.用Stanford Parser进行依存关系分析,此时,依存关系表示如下:[nn(眼-4,鬼子-1),nummod(只-3,两-2),clf(眼-4,只-3),nsubj(像-7,眼-4),dvpmod(像-7,绿-5),mark(绿-5,的-6),root(ROOT-0,像-7),nn(眼-9,狼-8),dobj(像-7,眼-9)]
S6.与root的对应词“像”处于同一依存关系并且为名词的依存关系项有nsubj(像-7,眼-4)和dobj(像-7,眼-9),前一个“眼”序号为“4”是鬼子眼,后一个序号为“9”是狼眼;其中的序号是词出现的前后顺序;按照S6-1的规则,名词数量为2,转S7;
S7.直接抽取候选本体为“眼”,候选喻体为“眼”;
S8.将候选本体与候选喻体进行《知网》的独立义原集合的英文表达自动检索,检索结果分别为:{part}和{part},然后利用WordNet3.0对独立义原集合进行相似度计算,它们的IC相似度最大值为1,所以判断该句为非比喻表达。
验证实施例4
另外,依据本发明的步骤还对大量比喻句进行了处理,部分处理结果见表1:
表1比喻句处理实例
在实验结果中,“赞美的话语像阳光一样温暖人心”可剪枝为“话语像阳光一样温暖人心”,而“像阳光一样温暖人心的话语”却未被压缩,这是因为第一句话Root直接下位为简单从句,而第二句话Root直接下位为名词短语,根据本发明的修饰成分删除规则,并不对整个修饰成分进行剪枝压缩。对于“孤山东边的杨树和西南的松树像两条绿色的绸带轻柔地飘浮在碧水之上”这句话,虽然正确的断定为比喻表达,但候选本体并未完全找对,正确的候选本体应是“杨树和松树”,而本发明算法给出的却只有“松树”,由于Stanford Parser句法分析本身误差性的存在,此种情况会暂时存在。
验证实施例5
为了防止同一类型比喻句的大量重复出现,本实施例从《实用比喻语词典》和《比喻语义研究》中选出235句比喻句,例句主要摘自文学作品、名人名言等,以及15个含比喻词但非比喻句的句子,合计为250个句子语料库。经试验测试,本发明方法识别结果如下(√:表示本发明能识别,x:表示本发明不能识别):
A.比喻句的识别:
1.乌云像浓烟。(√)
2.乌云像一缕浓烟。(√)
3.乌云像天空中的浓烟。(√)
4.乌云像天空中的一缕浓烟。(√)
5.乌云像天空中飘散的一缕浓烟。(√)
6.乌云像火车头喷吐的浓烟。(√)
7.乌云像火车头喷吐的一缕浓烟。(√)
8.乌云像火车头喷吐的一缕飘散在天空的浓烟。(√)
9.春风像一支把整个世界勾勒的绚丽多彩的彩笔。(√)
10.他像雕像。(√)
11.他像一座雕像。(√)
12.他像一座活生生的雕像。(√)
13.他像一座立在湖边的雕像。(√)
14.他活生生像一座立在湖边的雕像。(√)
15.他活生生像一座立在湖边的金色雕像。(√)
16.他活生生像一座立在湖边的金色的雕像。(√)
17.他久久的立在湖边像一座金色的雕像。(√)
18.他披着披风久久的立在湖边像一座金色的雕像。(√)
19.他披着金色披风久久的立在湖边像一座金色的雕像。(√)
20.他穿着金色的衣服立在湖边像一座金色的雕像。(x)
21.他迎着狂风立在湖边像一座金色的雕像。(√)
22.他迎着狂风久久的立在湖边像一座金色的雕像。(√)
23.刚毅的他迎着狂风久久的立在湖边像一座金色的雕像。(√)
24.历经岁月沧桑的他迎着狂风久久的立在湖边像一座金色的雕像。(√)
25.律师像狐狸一样狡猾。(√)
26.生活像一面镜子。(√)
27.书籍是人类进步的阶梯。(√)
28.人生好比一场戏。(√)
29.教师是人类灵魂的工程师。(x)
30.一口洁白如奶的牙齿。(x)
31.贞洁的女人好比银鼠。(√)
32.刑罚将会像清凉的香膏一样落到罪恶的伤口上。(√)
33.语言像一座城市。(√)
34.坦率是批评最灿烂的宝石。(√)
35.劝告是最丰富的礼物。(√)
36.讽刺是美好的劝言者。(√)
37.名誉会像明星一般照耀着。(√)
38.像棉絮的大雪降落下来。(√)
39.他像猴子一样瘦。(√)
40.阳光下盛开的百合花就是您的笑容。(√)
41.月亮像金亮的黄金做成的镰刀。(√)
42.他听了消息像热锅上的蚂蚁。(√)
43.书是智慧的钥匙。(√)
44.树上的苹果像灯笼似的又大又红。(√)
45.小河清澈见底如同一条透明的蓝绸子。(√)
46.夜空中的星星就像无数只眼睛似的一眨一眨的。(√)
47.春风像个慈祥的母亲。(√)
48.她那红润的圆脸蛋像溢满浆汁的苹果。(√)
49.北极星像盏路灯一样挂在夜空。(√)
50.弯弯的月亮像小船。(√)
51.人人都是命运的设计师。(x)
52.大象的鼻子好像一根水管。(√)
53.白云好像一朵朵雪白的棉花。(√)
54.脸蛋像香甜的苹果。(√)
55.像珍珠那么圆的小露珠。(√)
56.平静的湖面犹如一面硕大的镜子。(√)
57.一串串明亮的车灯如同闪光的长河。(√)
58.像钻石那么闪亮的小露珠。(√)
59.远看桃花就像一片火红的朝霞。(√)
60.红红的柿子像灯笼似的挂在那里。(√)
61.繁星像撒满的宝石。(√)
62.荷叶上的露珠晶莹透亮好像一颗颗珍珠一样。(√)
63.荷叶上的露珠晶莹透亮好像挂在夜空的星星。(x)
64.天上的繁星像碧波上撒满的宝石。(√)
65.漓江的水绿的像一块无暇的翡翠。(√)
66.夏天的太阳好像一个大火球烧烤着大地。(√)
67.天上的白云好像一朵朵雪白的棉花。(√)
68.银杏树的叶子好像一把把小扇子。(√)
69.大象的耳朵就好像两把大大的蒲扇。(√)
70.柳树的枝条就好像无数根绿色的丝带一样。(√)
71.美丽的彩虹就像一座七彩的桥一样高挂在雨后的天空。(√)
72.刺猬的身体如同一个长满了钢针的小圆球。(√)
73.这句话仿佛一束温暖的阳光。(√)
74.周围的群山像一条连绵不断的地毯。(√)
75.爱护书籍吧,它是知识的源泉。(x)
76.一艘银灰色的气垫船像一匹纯种烈马在金波粼粼的海面上飞跃而过。(√)
77.小弟弟的脸胖乎乎的看上去真像一个大苹果。(√)
78.小姑娘的心灵像棉花一样纯洁。(√)
79.水仙花很漂亮像一位站在小河边穿着白衣服的仙女。(√)
80.孤山东边的白堤和西南的苏堤就像两条绿色的绸带轻柔地飘浮在碧水之上。(x)
81.明净的湖水晃动着绿岛和白云的倒影像仙境一般。(x)
82.皎洁的月亮像洁白的纱布挂在美丽的夜空。(√)
83.闪闪发亮的珍珠犹如挂在夜空的星星。(√)
84.妈妈的眼睛像天上的星星守护着人间的我们。(√)
85.胜利的消息像一剂良药安抚了他受伤的心灵。(√)
86.他那手瘦得像两只晒干的鸡爪。(√)
87.话语像阳光一样温暖人心。(√)
88.美貌的姑娘蒙着眼罩是一朵朵含苞待放的蔷薇。(√)
89.花朵迎着狂风好像无畏的战士。(√)
90.阳光是匆匆的过客。(√)
91.一个像红宝石般的圆盘慢慢地从地平线上升起。(√)
92.曙光好像一块变幻莫测的白台布蹦在天空上。(√)
93.夕阳像一个守财奴。(√)
94.月亮像个文静的少女婷婷立在前面的山上。(√)
95.月亮像个乳母一样向世界俯下来倾注她的像乳汁似的光线。(√)
96.那密集的星群恰似瀑布飞溅的水花。(√)
97.那金链似的繁星在黑色的天空里颤抖。(√)
98.黎明的微光好像一个正在蜕化的蛹子。(√)
99.春天像是一位童话里面美丽的仙女。(√)
100.春天的清空像宝石一样的蔚蓝。(√)
101.春天就是圣母。(√)
102.夕阳是时间的翅膀。(√)
103.冻结的小树枝沉甸甸地伸向空中犹如鹿角一般。(√)
104.森林在大雪中低下了宽大的犄角犹如一只疲惫不堪的高大的鹿。(√)
105.蓝色的天上飘着一块块的浮云像红绸子。(√)
106.一堆堆雪白的积云像是和谐地叠在一起的冰淇淋。(√)
107.春天像刚落地的娃娃,从头到脚都是新的,它生长着。(√)
108.春天像小姑娘,花枝招展的,笑着,走着。(√)
109.夕阳是时间的翅膀,当它飞遁时有一刹那极其绚烂的展开。(√)
110.秋风把静静的团泊洼梳理的像一面镜子。(x)
111.留在空中的雪花,就像扇动着翅膀的白蝴蝶,轻轻地飘着。(x)
112.这披上白衣的柳林,跟西天边那五色缤纷的彩霞相映起来,宇宙变得如同鲜艳而秀美的刺绣一样。(√)
113.风是已逝人生的声音。(√)
114.风像所有孤独的人一样,爱说爱道。(√)
115.翻腾的乌云,像千百匹脱缰的烈马,在天池中奔驰、跳跃。(√)
116.天空的行云是永恒的流浪者。(√)
117.闪电是银色的,像浩渺的太空里一支银光闪烁的大军。(√)
118.像冰雹一样夹在大雨点里的电火花,在天幕上画出来许多五光十色的斑纹。(√)
119.群山之上闪耀着远方闪电明亮的火花,就像春天火红的郁金香。(√)
120.斯达拉山的群峰向东伸展,如同巨石组成的一串锁链。(√)
125.湖水是凝然不动的如同一缸浓浓的绿酒。(√)
126.像一条白丝带似的河水,蜷曲在绿色的草原上。(√)
127有一个可爱的小湖,明亮滚圆的像是一块银元。(√)
128.日本的樱花确实像一片无垠的血海呢!(√)
129.一株大榕树的树荫,多么像一个露天的礼堂呀,怪不得几百年前,就有人称誉它们做“榕夏”了。(√)
130.被云雾洗刷过的红叶,就如同沾着露珠的红玛瑙闪闪发光。(√)
131.阶前幽静的几颗红鸡冠花,像几滴凝着的血,点缀了这秋的静穆和沉默。(√)
132.白银铸成的茉莉花朵,像玲珑的古式纽扣一样,缀满在翠绿的枝叶中。(√)
133.她看上去像浴着朝霞的玫瑰一样美丽。(√)
134.一双像熟透的葡萄一样又黑又大的眼珠。(√)
135.女人的眼睛睁得大大的,像冰洁的湖在雾夜中泛着光。(√)
136.他那深陷进眼窝的双眼,像烧红的炭火一样灼灼闪着光。(√)
137.眼珠的颜色像西班牙的鼻烟,面目可憎,冷酷无情。(√)
138.我要扼住命运的喉咙,决不让命运所压倒。(x)
139.他瞪着像破铜板一样的、带有血丝的大眼睛。(√)
140.露出来的一排牙齿白的像刚刚去了皮的杏仁。(√)
141.她的脚跳起舞来就像车轮的辐条在迅速转动。(√)
142.广大的城市好像巨大的蜂窝,充满了喧声。(√)
143.孩子们的笑声是这里跃跃欲燃的色彩。(√)
144.姑娘浮起一副笑容,好似灵魂中涌出一道光,把她的脸照得光艳动人。(√)
145.他的欲望好比雨后凋零的花朵。(√)
146.悲伤是一块绝不会休闲的肥沃的土地。(√)
147.这个人的脸色就像一本书籍的标题页,预示着它悲惨的内容。(√)
148.科学绝不是也永远不会是一本写完了的书,每一项重大成就都会带来新的问题。(√)
149.人类在历史上的生活正如旅行一样。(√)
150.历史是一面镜子,它照亮现实,也照亮未来。(√)
151.研究历史是治疗心灵创伤的良药。(√)
152.过去可以像影子那样跟随着我们,但不能让它成为压在我们背上的包袱。(√)
153.这些阴沉滚动的雷声,就是将来更巨大暴风雨的先兆。(√)
154.昨天才吐放,今日便枯萎的灵魂,正如那些落在街心的花朵,溅满了污泥,只等一个车轮来碾烂。(x)
155.历史是任人打扮的小姑娘。(√)
156.历史好比是一艘船,装载着现代人的记忆驶往未来。(√)
157.请切记货币会繁殖、会开花、会结果的事实。(x)
158.教育的目的应当是向人传送生命的气息。(√)
159.内容丰富的言辞就像闪闪发光的珠子。(√)
160.语言是人类所使用的最有效果的药房。(√)
161.语言是一座城市,每个人都为这座城市的建筑增添了砖瓦。(√)
162.知识是一匹无私的骏马,谁能驾驭它,它就为谁效力。(√)
163.知识的历史犹如一支伟大的复音曲,在这支曲子里依次吹响起各个民族的声音。(√)
164.学问就像是高悬中天的日轮。(√)
165.知识乃是开启自然奥秘的钥匙。(√)
166.人的天性犹如野生的花草,它们需要学问的修剪。(√)
167.没有知识的生活就像没有香味的花。(√)
168.黄金的宝藏比不上知识的宝藏。(x)
169.书籍是在时代的波涛中航行的思想之船,它小心翼翼地把珍贵的货物送给一代又一代。(√)
170.我最初的故乡是书本。(√)
171.书籍就像一盏神灯,它照亮人们最遥远、最黯淡的生活道路。(√)
172,聪明的人就是最好的百科全书。(√)
173.傻瓜的愚蠢往往是聪明人的砺石。(√)
174.人生实在是一本大书,内容复杂,分量沉重,值得翻到每个人所能翻到的最后一页,而且必须慢慢的翻。(√)
175.人生几乎像一首诗,它有自己的韵律和节奏,也有生长和腐败的内在周期。(√)
176.人生就是一个大舞台,换一种角色,会柳暗花明,海阔天空。(√)
177.嫉妒者是在用自己的箭伤害自己。(x)
178.人生在我看来就是一个长途旅行。(√)
179.光辉的理想就像明净的水一样洗去我们心灵上的尘垢。(√)
180.希望是在风雨之夜所见的朝霞。(√)
181.最伟大和最为人们所需要的建筑师,便是希望。(√)
182.时间长着一副利爪,它会抓破娇嫩的脸。(x)
183.我的抱负就是我的唯一的朋友。(√)
184.真理犹如珍珠,它在日光下最美丽。(√)
185.真理是一个必须成熟以后才能摘下来的果实。(√)
186.真理就像阳光,不会因接触外界而遭到污染。(√)
187.家乡是个贼,它能偷去你的心。(√)
188.时间犹如一位公正的匠人,对于珍惜它的人,它会在你生命的碑石上镂刻下辉煌业绩。(√)
189.对于那些胸无大志的懦夫,时间却像个可憎的魔鬼,难以打发。(√)
190.时间才是最严厉的审判官。(√)
191.逆境是通往真理的第一条道路。(√)
192.厄运是一个深不可测的宝藏。(√)
193.苦难是净化剂,它使生活之酒更甜美。(√)
194.读书是治疗我们高度机械化时代所固有的和简单化的良药。(√)
195.懒惰像一把锁,锁住了聪明和智慧的仓库,使你在工作和学习上永远是个“缺粮户”。(√)
196.书是瞭望世界的窗口。(√)
197.我们的诗歌就像树脂一样,会从滋生的地方分泌出来。(√)
198.人的美德犹如名贵的香花,在烈火焚烧中会散发最浓郁的芳香。(√)
199.奉承是一枚依靠我们的虚荣才得以流通的伪币。(√)
200.懒惰是索价极高的奢侈品,一旦到期清付,必定偿还不起。(√)
201.春风像个慈祥的母亲,拂着你的脸颊,使你感到舒畅,心旷神怡。(√)
202.二月春风似剪刀。(√)
203.希望的泡沫。(x)
204.星星像一双明亮的眼睛在夜空中照耀。(√)
205.白杨树是沙漠里的伟丈夫。(√)
206.历史是一本厚重的书,在它那里,我们能学到宝贵的知识。(√)
207.数学是一切知识的源泉。(√)
208.理想是黑夜里的黎明,给我们以希望。(√)
209.他嘴里缓缓吐出的烟像波浪一样荡漾开来。(√)
210.生活是一座重重的山,压的他喘不过气来。(√)
211.理想是翅膀,带我们飞越人生的低谷。(√)
212.他的手像鹰爪一样锋利有劲。(√)
213.困难像弹簧,你强它就弱。(√)
214.困境是人生的一笔财富。(√)
215.不要让嫉妒的蛇钻进你的心里。(x)
216.时间是一条长河,莫让它轻轻在你指尖溜过。(√)
217.时光像悄无声息的锉刀,挫着你由小变老改面貌。(√)
218.机会是一切努力之中最杰出的船夫。(√)
219.机遇像一块粗糙的石头,只有在雕刻家手中才能获得新生。(√)
220.失败永远是使人奋发的跳板。(√)
221.灵感不是可以腌上许多年的青鱼。(√)
222.友谊是一种生长缓慢的植物,它只有嫁接在彼此熟识的枝干上才会枝繁叶茂。(√)
223.幸福是深埋在沙土里的黄金。(√)
224.爱情是盏永不熄灭的灯。(√)
225.爱情是一位伟大的导师,教会我们重新做人。(√)
226.恋爱就像小孩一样,想要什么东西巴不得立刻就有。(√)
227.父母的德行就是孩子的财产。(√)
228.发财的捷径是视金钱如粪土。(x)
229.无暇的名誉是世间最纯粹的珍宝。(√)
230.财富是有翅膀的,有时它自己会飞走。(x)
231.婚姻如同一艘雕刻的船,看你如何去欣赏它,又怎样去驾驶它。(√)
232友谊是富于气息,片片花瓣都飘溢着醉人芬芳的玫瑰。(√)
233真正的友情是一株生长缓慢的植物。(√)
234.友谊好像酒一样,愈是年深日久,便愈是醇美。(√)
235.真正的友谊不是一株瓜蔓,会在一夜之间蹿将起来,一天之内枯萎下去。(√)
B.非比喻句的识别:
1.江上的轮船像一叶扁舟。(√)
2.奶奶从来没有像现在这样高大。(√)
3.像你这么聪明的人,会不知道答案?(√)
4.他好像看出了我的心思。(√)
5.小女孩静静的听着,她好像面对着大海。(√)
6.炕沿上做的那个鬼子两只眼绿的像黑夜里的狼眼。(√)
7.我觉得自己好像是一个不必要的旁听者。(√)
8.街上仿佛没有一个人似的。(√)
9.这好像是他们家的狗。(√)
10.太阳刚出来,地上已经像下了火。(√)
11.一切都像刚睡醒的样子,欣欣然张开了眼。(√)
12.我捧着它,好像世界上的一切生命都在我手中。(√)
13.他坐在那一动不动像睡着了一样。(√)
14.正像我们所预想的那样,他走了。(√)
15.我们要像马克思说的那样去做。(√)
本发明的方法与厦门大学杨芸的方法对该比喻句语料库的自动识别与分析效果对比如表2所示:
表2实验对比结果
通过上面测试数据的展现,本发明方法的正确率达到了94.26%、召回率达到了92%且F值达到了93.11%,而对应的厦门大学杨芸方法的数值为80.4%、76%和78.14%,可见本发明的算法的有效性更为实用。杨芸方法的正确率较低,主要是其比喻句结构的形式化格式是基于依存关系所造成的。
本发明方法的比喻句自动分析的准确率取得了让人较为满意的效果,但并未达到完全识别和100%的准确率,有以下几方面的原因:
(1)分词和词性标注的准确率有待提高。据中科院ICTCLAS官方报道,它的分词精度为98.13%,词性标注准确度是94.67%,由于句法分析和依存关系都是根据分词和词性标注来进行的,所以后两者的误差将导致整个句子比喻判定的失误。如:“秋风把静静的团泊洼梳理的像一面镜子”中“团泊洼”为地名词而分词系统却把它分成单独的三个词:“团”、“泊”、“洼”,从而导致句法树和依存关系的错误,原句虽正确判定为比喻修辞句,但候选本体却由“团泊洼”变为了“洼”。
(2)句子成分划分方法本身存在一定缺陷。关于句子成分划分方法一直以来都存在争议,特别是上世纪80年代曾一度被废弃过,直到近些年才又被学者所重视。关于句子成分划分法的缺陷,我们通过句子“教师是人类灵魂的工程师”来分析:经句子成分划分后,删除修饰成分“人类灵魂的”,找中心的结果是:教师是工程师,此为非比喻表达,而原句是比喻表达。按句子成分划分法删除修饰成分后,句子的语义从人类灵魂的工程师这一特定领域转变为工程师这一宽泛的概念,原本特定领域的比喻修辞意义被抹杀了。但不能因为此而否定句子成分划分法的效用性,毕竟句子结构核心和句子语义是两码事。
(3)句法分析存在误差性。关于Stanford Parser的中文句法分析的准确性并无官方数据统计,但我们可以借鉴国内比较著名的语言云的数据作为侧面论证,预估其在90%左右。语言云是以哈工大社会计算与信息检索研究中心研发的“语言技术平台”为基础的服务平台,据其官方数据统计,句法分析的正确率最高为0.8582,可见句法分析存在较大的误差性。关于Stanford Parser句法分析的误差性,我们在实验数据阶段已有所提及,在句子“孤山东边的杨树和西南的松树像两条绿色的绸带轻柔地飘浮在碧水之上”中,“孤山东边的杨树”和“西南的松树”应当是并列的结构,但在Stanford Parser句法分析中“孤山东边的杨树和西南的”作为定语修饰“松树”,导致本体之一的“杨树”被误删。
通过以上实验和分析,我们可以归结出本发明的方法是可以实现句子的压缩、去除修饰性成分、获取句子主干成分的功能,从而达到挖掘出句子的候选本喻体进而识别比喻句的目的。但由于以上方面的原因,准确度还有待提高,随着以上问题的解决,本发明方法的准确率将会取得更别让人满意的效果。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
机译: 医学名词性词典创建方法及医学名词性词典创建方法
机译: 医学名词性词典创建方法及医学名词性词典创建方法
机译: 基于局部句法关系和语义共现词典的语义标注装置