首页> 中国专利> 具有习惯用语处理功能的电子词典

具有习惯用语处理功能的电子词典

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

一种具有习惯用语处理功能的电子词典,能够从输入文本中自动识别出当前语句中包含查询词的所有习惯用语,并输出这些习惯用语所对应的译文。该电子词典包括一个习惯用语处理装置,该装置通过文本俘获、断句、局部语法分析以及词库匹配等操作自动识别出当前语句中包含查询词的所有习惯用语。该电子词典提供了习惯用语这一层次上的智能翻译。

著录项

公开/公告号CN1250189A

专利类型发明专利
公开/公告日2000-04-12

原文格式PDF
申请/专利权人国际商业机器公司;
展开▼

申请/专利号CN98119459.1
发明设计人杨力平;
展开▼

申请日1998-10-07
分类号G06F17/28;
代理机构中国国际贸易促进委员会专利商标事务所;
代理人于静
地址美国纽约
入库时间 2023-12-17 13:37:56

法律信息

法律状态公告日

法律状态信息

法律状态
2018-10-30

专利权有效期届满 IPC(主分类):G06F17/28 授权公告日:20030226 申请日:19981007

专利权的终止
2009-10-14

专利申请权、专利权的转移(专利权的转移) 变更前: 变更后: 登记生效日:20090911 申请日:19981007

专利申请权、专利权的转移(专利权的转移)
2003-02-26

授权

授权
2000-04-12

公开

公开
1999-02-24

实质审查请求的生效

实质审查请求的生效

说明书

本发明涉及电子词典，进一步说，涉及具有习惯用语处理功能的电子词典。

多年来，人们一直在研究如何利用计算机使一种文字或口语翻译成另一种文字或口语的机器翻译技术。即在语言学的关于语言形式和结构分析的理论基础上，依靠数学方法建立机器词典、机器语法，利用计算机巨大的存储容量和数据处理能力，在没有人工干预的情况下实现从一种语言到另一种语言(或另外多种语言)的自动翻译。为了实现翻译功能，机器翻译系统必须具有词法分析、句法分析、语法分析、词典、习惯用语词典、语义分析以及输出语言的能力。由于机器翻译是一门涉及到语言学、计算机语言学和计算机科学等多门学科的边缘性应用学科，所以目前还没有比较实用的机器翻译系统。在这种情况下，人们将兴趣转向一种实用的实现了字词级翻译的电子词典。电子词典是以电子数据的形式存储和使用的一种新型词典。电子词典具有很大的灵活性，可以按超媒体和超文本方式组织信息，检索手段多种多样，可以提供动态翻译特性，并对检索到的词条产生文字、声音和图像解释。

然而，目前大多数电子词典只能实现字词级的翻译。例如，对于“Hetake part in the activity”这样的英文语句，借助一般的英-汉电字词典，只能获得单个词“take”的中文翻译，而无法获得“take part in”这一习惯用语的中文翻译。

虽然目前已有一些具有习惯用语处理功能的电子词典，但是它们具有以下缺点：

·当用户输入诸如“take part in”之类的习惯用语时，这类电子词典可以给出它们的译文，而当用户在输入的习惯用语中加入了其他一些词，如“take an active part in”时，这类电子词典就无法自动识别出习惯用语“take part in”，因而无法给出正确的译文。

·如果用户提供的查询词不是习惯用语的头词，这类电子词典也不能给出正确的译文。例如，对于习惯用语“take part in”，如果用户指出的查询词为“part”，或“in”，则他就不能得到有关“take part in”这一习惯用语的正确译文。

本发明的具有习惯用语处理功能的电子词典克服了以上缺点。

根据本发明的具有习惯用语处理功能的电子词典，包括：用于以电子数据形式存储多个词条的存储装置，每一词条由第一种语言的标题词和第二种语言的译文组成，其中所述标题词包括第一种语言的习惯用语；用于向存储装置登录新的词条的登录装置；以及，根据查询词从存储装置中检索相应的词条的检索装置，所述电子词典的特征在于检索装置包括一个习惯用语处理装置，该装置能够从用第一种语言输入的文本中自动识别出当前语句中包含查询词的所有习惯用语，并且能够从存储装置中检索出习惯用语所对应的用第二种语言表示的译文。

通过以下参照附图的说明可以使本发明的目的、特征和优点更加清楚。

图1为根据本发明的电子词典的方框图；

图2示出了所述电子词典中习惯用语处理装置的工作流程图；

图3示出了词库匹配流程图。

根据本发明的电子词典如图1所示。输入装置100用于输入第一种语言的词串或文本；词条存储装置200用于以电子数据形式存储多个词条；词条登录装置300用于把新的词条登录到词条存储装置200中去，词条检索装置400从词条存储装置200中检索出与查询词匹配的词条；输出装置500输出与查询词匹配的词条。

如图1所示，根据本发明的电子词典的词条检索装置400包括一个习惯用语处理装置600。该习惯用语处理装置600由文本俘获部分601、断句部分602、局部语法分析部分603以及词库匹配部分604组成。

以下参照图2详细描述习惯用语处理装置600各组成部分的工作情况。如图2所示，当习惯用语处理装置600被激活，文本俘获部分601从屏幕显示俘获一段包含查询词的文本，查询词是用户使用光标指示的词。在此之后，断句部分602识别出包含查询词的语句。局部语法分析部分603对语句中所有可能的语法成份进行识别。词库匹配部分604对词库中的词条和语法分析结果进行匹配，每一匹配的词条给出一个语句段的翻译。这些覆盖了查询词的所有匹配词条形成了一个词条集，输出部分根据词条与语句的匹配程度对所述词条集中的词条排队，然后显示在屏幕上。

对于英-汉电子词典，所述局部语法分析部分603所能识别出的语法成份包括：

1.名词短语；

2.动词短语；

3.介词短语；

4.形容词短语；

5.副词短语；

6.单独成份。

名词短语构成如下：

1.1单个名词；

1.2名词+名词；

1.3名词+of+名词；

1.4名词’s名词；

1.5形容词+名词；

1.6冠词+名词；

1.7代词+名词；

1.8数词+名词。

动词短语构成如下：

2.1单个动词；

2.2be+动词；

2.3have+动词；

2.5动词+副词。

介词短语构成如下：

3.1介词+名词短语。

形容词短语构成如下：

4.1单个形容词；

4.2more+形容词；

4.3the most+形容词。

副词短语构成如下：

5.1单个副词；

5.2more+副词；

5.3the most+副词。

以下以语句“He takes an active part in the activity”为例，描述一下局部语法分析的过程。

阶段1

- - - - - - - - - - - - - - - - - - - -

he→名词

take→动词

a→冠词

active→形容词

part→名词

part→形容词

in→介词

in→单独成份

the→冠词

activity→名词

阶段2

- - - - - - - - - - - - - - - - - - - - -

he：名词

take：动词

a：冠词

active：形容词

part：名词

part：形容词

in：介词

in：单独成份

the：冠词

activity：名词

active part：形容词+名词→名词

the activity：冠词+名词→名词

阶段3

- - - - - - - - - - - - - - - - - - - - - -

he：名词

take：动词

a：冠词

active：形容词

part：名词

part：形容词

in：介词

in：单独成份

the：冠词

activity：名词

active part：名词

an active part：冠词+名词→名词

in the activity：介词+名词→介词短语

在识别语句的语法成份时，很有可能一个词属于一个以上的语法成份，它们是语句中完全不同的部分。在上述例子中，“part”既可以是形容词也可以是名词，“in”既可以是介词也可以是单个成份。在这种情况下，局部语法分析的结果将保持所有可能存在的语法成份。

在完成局部语法分析之后，习惯用语处理装置600激活词库匹配部分604对词库中的词条和局部语法分析结果进行匹配。

以下首先介绍一个在本实施例中词库的结构。该词库中每一词条由：标题词、语法、译文组成。

例如：

标题词语法译文takevobj partcomp(p in)参加objpreptakevobj n fin whcomp(pt in)领会objmake surevcomp(p about of)确定objprepmakevobj itcomp acomp thatc使thatc变得adjplacenlocnobj infinf的地方

表中注释的含义为：

注释解释aadjcompfininfnnobjn locobjobjpptthatcvwh形容词形容词补语及物动词不及物动词名词名词的宾语表明地点的名词以特定词开头的宾语该宾语可以是其之后的语法成份表中的一个介词单独成份以that开头的从句动词以“who”，“where”，“when”，“what”开头的从句

词条的标题词可以包括一个以上的词，例如：

make sure＜v comp(p about of)＜确定objprep将第一个词作为该词条的头词。

在词条的语法部分中，第一个成份是头词的词类，在词类之后，是一系列语法成分。这部分给出了语法和词义信息。语法成份由其名称和描述组成。它可以包括几个子成份。

例如：obj n fin wh

描述一个宾语语法成份。该宾语是一名词、及物动词短语或由wh开头的从句。

例如：p about of

描述了一个介词短语，该介词短语以about或of开头。

译文部分由语法成份和中文译文组成。

以下参照图3描述一下词库中词条与局部语法分析结果进行匹配的具体过程。以下是词库中具体两词条的例子。

take＜v(obj part)(comp(p in))＜t(参加objprep)

对于该词条骨架习惯用语(骨架习惯用语是只包括必要组成部分的习惯用语)为“take part in”。在该条目中，“take”为头词。“v”表明这是一个动词短语。“(obj part)”表明动词“take”需要“part”作为其宾语。“comp”指出宾语之后可以用的补语。“(p in)”指出补语应是以“in”开头的介词短语。“t(参加objprep)”表明如何将该习惯用语翻译成中文。“objprep”表示介语in的宾语。

take＜v(obj n fin wh)(comp(pt in))＜t(领会obj)

该词条的骨架习惯用语为“take in”。在该条目中，“(obj n fin wh)”表明动词“take”需要一个宾语。该宾语可以是名词短语、及物动词短语或以“what”、“when”等开头的从句。“(pt in)”表示补语应是独立成份“in”。

对于以上两词条的匹配结果是：

1.takes vs take＜v

2.an active part vs.(obj part)

3.in the activity vs.(comp(p in))

以及

1.take vs take＜v

2.an active part vs.(obj n)

3.in vs(comp(pt in))

在上述例子中，如果查询词为“take”或“in”两词条都与局部语法分析结果匹配，如果查询词为“part”则只有词条“take part in”匹配。

最后输出部分根据词条与语法分析结果匹配的程度，对匹配的词条进行排队后输出。例如，对于语句“He takes an active part in theactivity”，查询词为“take”时，有三个匹配的词条：“take part in”、“take in”和“take”。例如根据骨架习惯用语的长度，即骨架习惯用语中词的个数，输出为：

1.take part in参加

2.take in领会

3.take拿、取

从以上可以看出根据本发明的电子词典可以从输入文本中自动识别出包含查询词的所有习惯用语，并输出其相应的译文，从而实现了习惯用语这一级的智能翻译。

对于本领域技术人员来说，在不背离本发明的精神和范畴情况下，本发明可以有各种修改和变型，本发明旨在包括所有这些修改和变型。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 具有习惯用语处理功能的电子词典 [P] . 中国专利： CN1102271C . 2003.02.26
2. 具有习惯用语处理功能的电子词典 [P] . 中国专利： CN1250189A . 2000-04-12
3. Recording medium recording a control program electronic dictionary and an electronic dictionary having a communication function of the electronic apparatus [P] . 日本专利： JP5115564B2 . 2013-01-09

机译：记录介质，记录控制程序电子词典和具有电子设备的通信功能的电子词典
4. Recording medium recording a control program electronic dictionary and an electronic dictionary having a communication function of the electronic apparatus [P] . 日本专利： JP4496581B2 . 2010-07-07

机译：记录介质，记录控制程序电子词典和具有电子设备的通信功能的电子词典
5. ELECTRONIC DICTIONARY, AND COMPUTER READABLE STORAGE MEDIUM WITH PROGRAM FOR MAKING THE SAME FUNCTION AS ELECTRONIC DICTIONARY RECORDED [P] . 日本专利： JP2004178208A . 2004-06-24

机译：电子词典和计算机可读存储介质，其程序具有与电子词典相同的功能