首页> 中国专利> 融合Web挖掘、多特征与有监督学习的汉英未登录词翻译方法

融合Web挖掘、多特征与有监督学习的汉英未登录词翻译方法

摘要

本发明属于多媒体信息处理技术领域,具体为一种融合Web挖掘、多特征与有监督学习的汉英未登录词翻译方法。本发明包含四个步骤:预处理和参数估计、基于Web的翻译候选获取、基于多特征的翻译候选表示、翻译结果的排序与评估。本发明采用Web挖掘获取语料,多特征表示翻译候选以及基于有监督学习的翻译候选排序相结合的方法。与传统方法相比较,本发明的优势在于:语料获取方法及预处理简单、表示翻译候选的特征全面、翻译结果准确率高。未登录词翻译一直是文本处理的重点和难点之一,本发明提出较为有效的汉英未登录词翻译方法,这对于机器翻译及跨语言信息检索领域具有重要的应用价值。

著录项

  • 公开/公告号CN102662936A

    专利类型发明专利

  • 公开/公告日2012-09-12

    原文格式PDF

  • 申请/专利权人 复旦大学;

    申请/专利号CN201210100424.6

  • 发明设计人 张玥杰;苏艳霞;金城;薛向阳;

    申请日2012-04-09

  • 分类号G06F17/28(20060101);G06F17/30(20060101);

  • 代理机构31200 上海正旦专利代理有限公司;

  • 代理人陆飞;盛志范

  • 地址 200433 上海市杨浦区邯郸路220号

  • 入库时间 2023-12-18 06:28:50

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-03-17

    未缴年费专利权终止 IPC(主分类):G06F17/28 专利号:ZL2012101004246 申请日:20120409 授权公告日:20150107

    专利权的终止

  • 2019-07-23

    专利权的转移 IPC(主分类):G06F17/28 登记生效日:20190704 变更前: 变更后: 申请日:20120409

    专利申请权、专利权的转移

  • 2015-01-07

    授权

    授权

  • 2012-12-05

    实质审查的生效 IPC(主分类):G06F17/28 申请日:20120409

    实质审查的生效

  • 2012-09-12

    公开

    公开

说明书

技术领域

本发明属于多媒体信息处理技术领域,具体涉及一种汉英未登录词翻译方法。

背景技术

随着社会信息化和Internet的飞速发展,网络上出现层出不穷的新词、术语、流行用语等,这些新的命名实体数量庞大且不断更新,无法在现有的双语词典中一一找到,即所谓的未登录词。未登录词翻译是指输入源语未登录词,输出其目标语翻译。随着机器翻译(Machine Translation)和跨语言信息检索(Cross-language Information Retrieval, CLIR)的不断发展,能够快速准确地翻译未登录词显得极其重要,未登录词的翻译一直是机器翻译和跨语言信息检索中的重点和难点之一。

有关传统的未登录词翻译方法,主要包括基于音译、并行语料库和可比语料库的翻译方法[1][2][3][24]。其中,音译是未登录词翻译最直接的方法之一,特别是对于人名、地名、机构名等专有名词;而基于语料库的翻译方法主要在于语料库的全面性以及对齐方法;并行语料库要求原文文本与译文文本之间具有并行对应关系,要求较高;可比语料库是由多种语言写成的相似文本。基于语料库的方法受到语料库资源匮乏的限制,使得翻译准确率也受到一定的限制,并且随着新词的不断出现,这种限制越来越明显。

随着Web信息的不断增长,网络上多种文本信息越来越丰富,也逐渐弥补了传统方法中语料库资源匮乏的缺点。因此,近年来,研究者们逐渐将目光转向越来越丰富的网络信息资源,将其用于未登录词翻译的研究[4]。现有方法中,或者将Web信息与传统方法相结合[10][15][18],或者直接采用Web信息进行翻译[19][20][23][26]。但是,网络信息形式多样化,内容混杂,表达方式各异,能够用于未登录词翻译研究的语料非常有限。针对基于Web挖掘的未登录词翻译,其中主要问题表现为三个方面,即如何准确快速地定位并抽取翻译候选、翻译候选的表示问题和翻译结果的评估问题。

近年来,很多研究者利用Web信息来寻找未登录词的翻译候选。基于Web挖掘的未登录词翻译方法的一般过程是给定一个未登录词,获取网页中相关的信息资源,然后抽取翻译候选,再按照一定的方法从翻译候选中找出正确的翻译。在使用Web资源方面,根据使用的信息类别和使用信息的方式,主要有以下几种方法:(1) 直接利用Web上的资源来统计特征信息获得翻译候选的方法,这些信息包括锚文本信息[4][5][6][7]、点击数据(Click-through data)[19]、Wikipedia[20][26]、人立方[23]等;(2) 基于搜索结果结合共现频率等统计特征信息获取翻译候选的方法[8][9][10];(3) 通过查询扩展以提高翻译候选覆盖率的方法[11][12][22][25];(4) 通过学习翻译对模式挖掘翻译对的方法[21]。这些方法都是利用网络上现有的信息资源作为提取翻译候选的语料,其重点在于如何快速准确地定位双语信息、以及在返回的搜索结果中尽可能多地包含翻译候选。这些双语信息包括锚文本等现有信息和搜索引擎获得的结果。锚文本(Anchor Text)是指网络上的链接文本,一个锚文本可能与一个URL对应,如“新浪”与http://www.sina.com.cn/对应。另外,同一个网页不同语言的描述也可能相互对应,根据锚文本的相互对应关系,就可找到翻译对。Wikipedia和人立方等资源中不同语言间对应的网页也是寻找翻译对的重要资源。随着Google等搜索引擎的发展,利用搜索结果作为获取翻译候选的语料的方法也越来越普遍。这种语料简单易得,主要是将未登录词作为查询词在搜索引擎中搜索,所得到的查询结果作为源语料。但这种语料存在一个主要问题,就是翻译候选的覆盖率,因此而提出跨语言查询扩展等方法来提高翻译候选的覆盖率。另外,翻译对在网页中一般会以相同或相似的形式出现,基于这种观察,挖掘翻译对的出现模式,然后根据学习得到的模式获取翻译对也是一种重要可行的方法。

另一个很重要的问题是翻译候选的表示和评估问题。对于翻译候选的表示,采用一些统计特征信息,如频率、共现、距离等;而对于翻译候选的评估,按照频率、共现等简单的排序,或者采用一些简单的统计特征[13],或者采用一些半监督的方法[14],或者采用最大熵、支持向量机(Support Vector Machine, SVM)、AdaBoost等有监督的方法[15][16][18]

尽管上述基于Web挖掘的未登录词翻译方法已取得一定的效果,但仍存在一些问题,即用于表示翻译候选的特征信息不够全面,仅采用一些频率、共现或者音译等部分特征;以及用于评估未登录词和翻译候选相关性的衡量方法也过于简单,有些只是单纯的按频率或共现信息排序。

因此,本发明根据以上分析,针对目前已有方法存在的一些问题,提出一种新的设计框架,即结合Web挖掘、多特征表示和Ranking SVM的未登录词翻译方法。在Web挖掘中,对搜索引擎进行设置以提高翻译候选的覆盖率,即在汉英未登录词翻译中,对于输入的中文未登录词,搜索其英文网页。在翻译候选的表示中,结合全局特征、局部特征和布尔特征进行全面表示。最后,采用Ranking SVM的方法对翻译候选进行评估,得到较为准确的翻译。

参考文献

[1]     Paola Virga and Sanjeev Khudanpur. “Transliteration of Proper Names in Cross-Language Applications”. In Proceedings of SIGIR 2003, 365-366, 2003.

[2]     C.J. Lee, J.S. Chang, and J.R. Jang. “Alignment of Bilingual Named Entities in Parallel Corpora Using Statistical Models and Multiple Knowledge Sources”. ACM Transactions on Asian Language Processing, 5(2):121-145, 2006.

[3]     L.Shao and H.T. Ng. “Mining New Word Translations from Comparable Corpora”. In Proceedings of COLING 2004, 618-624, 2004.

[4]     W.H. Lu and L.F. Chien. “Anchor Text Mining for Translation of Web Queries: A Transitive Translation Approach”. ACM Transactions on Information Systems, 22(2):242-269, 2004.

[5]     W.H. Lu, L.F. Chien, and H.J. Lee. “Anchor Text Mining for Translation of Web Queries”. In Proceedings of ICDM2001, pp.401-408, 2001.

[6]     W.H. Lu, L.F. Chien, and H.J. Lee. “Translation of Web Queries using Anchor Text Mining”. ACM Transactions on Asian Language Information Processing, 1(2):159-172, 2002.

[7]     W.H. Lu, L.F. Chien, and H.J. Lee. “A Transitive Model for Extracting Translation Equivalents of Web Queries through Anchor Text Mining”. In Proceedings of COLING2002, pp.584-590, 2002.

[8]     J.H. Wang, J.W. Teng, P.J. Cheng, W.H. Lu, and L.F. Chien. “Translating Unknown Cross-Lingual Queries in Digital Libraries Using a Web-based Approach”. In Proceedings of the 4th ACM/IEEE-CS Joint Conference on Digital Libraries, pp.108-116, 2004.

[9]     Y. Zhang and P. Vines. “Detection and Translation of OOV Terms Prior to Query Time”. In Proceedings of SIGIR 2004, pp.524-525, 2004.

[10]  J.C. Wu and J.S. Chang. “Learning to Find English to Chinese Transliterations on the Web”. In Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, pp.996-1004, 2007.

[11]  Y. Zhang, P. Vines, and J. Zobel. “Chinese OOV Translation and Post-Translation Query Expansion in Chinese-English Cross Lingual Information Retrieval”. ACM Transactions on Asian Language Information Processing, 4(2):57-77, 2005.

[12]  Y. Zhang, F. Huang, and S. Vogel. “Mining Translations of OOV Terms from the Web through Cross-lingual Query Expansion”. In Proceedings of SIGIR 2005, pp.669-670, 2005.

[13]  D.K. Lin, S.J. Zhao, B.V. Durme, and M. Pasca. “Mining Parenthetical Translations from the Web by Word Alignment”. In Proceedings of ACL 2008, pp. 994-1002, 2008.

[14]  X.C. Wu, N. Okazaki, and J. Tsujii. “Semi-Supervised Lexicon Mining from Parenthetical Expressions in Monolingual Web Pages”. In Proceedings of the 2009 Annual Conference of the North American Chapter of the ACL, pp.424-432, 2009.

[15]  L. Jiang, M. Zhou, L.F. Chien, and C. Niu. “Named Entity Translation with Web Mining and Transliteration”. In Proceedings ofIJCAI 2007, pp.1629-1634, 2007.

[16]  M. Yang, Z. Shi. S. Li, T. Zhao, and H. Qi. “Ranking vs. Classification: a Case Study in Mining Organization Name Translation from Snippets”. In Proceedings of IALP 2009, pp.308-313, 2009.

[17]  S. Huang, Z. Chen, Y. Yu, and W.Y. Ma. “Multitype Features Coselection for Web Document Clustering”. IEEE Transactions on Knowledge and Data Engineering, 18(4):448-459, 2006.

[18]  F. Yang, J. Zhao, B. Zou, and K. Liu. “Chinese-English Backward Transliteration Assisted with Mining Monolingual Web Pages”. In Proceedings of ACL 2008, pp.541-549, 2008.

[19]  R. Hu, W.Z. Chen, J. Hu, Y.S. Lu, Z. Chen, and Q. Yang. “Mining Translations of Web Queries from Web Click-through Data”. In Proceedings of AAAI 2008, pp.1144-1149, 2008.

[20]  C.Y. Su, T.C. Lin, and S.H. Wu. “Using Wikipedia to Translate OOV Terms on MLIR”. In Proceedings of NTCIR-6 Workshop Meeting, pp.109-115, 2007.

[21]  L. Jiang, S. Yang, M. Zhou, X. Liu, and Q. Zhu. “Mining Bilingual Data from the Web with Adaptively Learnt Patterns”. In Proceedings of the 47th Annual Meeting of the ACL and the 4th IJCNLP of the AFNLP, pp.870-878, 2009.

[22]  F. Ren, M. Zhu, H. Wang, and J. Zhu. “Chinese-English Organization Name Translation Based on Correlative Expansion”. In Proceedings of the 2009 Named Entities Workshop, ACL-IJCNLP 2009, pp.143-151, 2009.

[23]  Gae-won You, Seung-won Hwang, Young-In Song, Long Jiang, and Zaiqing Nie. “Mining Name Translations from Entity Graph Mapping”. In Proceedings of EMNLP 2010, pp.430-439, 2010.

[24]  X. Jiang, L. Sun, and D. Zhang. “A Syllable-based Name Transliteration System”. In Proceedings of the 2009 Named Entities Workshop, ACL-IJCNLP 2009, pp.96-99, 2009.

[25]  F. Yang, J. Zhao, and K. Liu. “A Chinese-English Organization Name Translation System Using Heuristic Web Mining and Asymmetric Alignment”. In Proceedings of the 47th Annual Meeting of the ACL and the 4th IJCNLP of the AFNLP, pp.387-395, 2009.

[26]  W.P. Lin, M. Snover, and H. Ji. “Unsupervised Language-Independent Name Translation Mining from Wikipedia Infoboxes”. In Proceedings of EMNLP 2011, pp.43-52, 2011。

发明内容

本发明目的在于提出一种获取语料方便、翻译准确率高的汉英未登录词翻译方法。

本发明提出的汉英未登录词翻译方法,是一种融合Web挖掘、多特征表示与有监督学习的汉英未登录词翻译方法。是针对现有方法中所存在的翻译候选特征表示不全面、相关性评估过于简单等问题而建立,其具体步骤如下:

(1) 预处理和参数估计(Pre-Processing and Parameter Setting):给定一个中文未登录词,将其作为查询输入至Google搜索引擎中搜索,设置搜索引擎返回英文结果,获取初始的网页摘要集。然后,对摘要集过滤、去除超链接等,只保留正文中由中文和英文片段组成的文本信息,作为最终用于翻译的语料。在翻译工作开始之前,需要进行一些参数估计,这些参数包括返回的网页摘要数、翻译候选的初始排序方法、用于英文翻译候选噪声过滤等。如果希望得到较高的翻译候选覆盖率,就需要选择合适的网页摘要数。若返回的摘要数太少,所得到的翻译候选也很少,有可能找不到正确的翻译;反之,若返回过多的摘要数,虽然覆盖率提高,但影响速度且有些多余。因此,对于所返回的合适摘要数,既保证翻译候选的覆盖率,又不过分影响速度。在抽取翻译候选时,由于翻译候选过多,也会影响速度,因此,还需要选择合适的初始排序方法,使得返回的前几个翻译候选中尽可能多地包含正确的翻译。为此,翻译候选抽取时只需选择经过初始排序后排列在前面几个的翻译候选,以方便后续的翻译评估和排序。另外,还需设置翻译候选噪声过滤方法中的一些参数。

抽取英文关键词(English Key Term Extraction):从返回的网页摘要集中,先采用简单的方法获取英文片段,即抽取在文本中连续的英文片段作为初始的翻译候选,然后使用一些启发式规则和信息熵技术过滤噪声,并使用初始排序方法,获得最终的英文翻译候选项。启发式规则是从翻译候选中总结出来的一些明显不是正确翻译的规则,包括停用词表等,用于对翻译候选进行初始过滤。这些规则可过滤掉一些无意义的翻译片段、以及一些不符合翻译的模式。然后,再使用信息熵结合部分特征的方法对翻译候选进行进一步的过滤,由此可过滤掉一些和正确翻译比较相近的顽固噪声。

翻译候选的多特征表示(Multiple Feature Representation):对于所返回的翻译候选,在对其进行评估之前,需要对翻译候选建立全面的表示。针对英文翻译候选的表示,采用全局特征、局部特征和布尔特征相结合的比较全面的表示方法。这三种特征从不同角度对翻译候选进行描述。全局特征考虑翻译候选在整个文档集中出现的情况,翻译候选在文档集的各个位置一般会以相同或相似的形式出现,基于该观察就可以统计其在整个文档集中的分布。局部特征考虑翻译候选本身的特点及其上下文相关的信息。布尔特征是指根据一些启发式规则表示未登录词与翻译候选之间特殊位置关系的二值特征。

基于Ranking SVM的排序(Ranking based on Ranking SVM):对于由多种特征表示的翻译候选,需要采用合适的方法对其进行评估。在先前的方法中,衡量未登录词和翻译候选相关性的方法过于简单,只是简单地的按频率或者共现特征进行排序,或者按照一些简单的公式排序。有些方法中,将翻译候选的评估归为分类问题,即正确和错误两类。但这种做法并不十分恰当,有些候选虽不是未登录词的正确翻译,但与未登录词具有很大的相关性,因此将翻译候选的评估看成是序数回归问题。针对多特征表示的翻译候选向量,本发明采用SVM和Ranking SVM建立翻译模型,得到最终的翻译,也可对比SVM和Ranking SVM得到的翻译结果。为评价整体方法的准确率,采用Top-N-Inclusion-Rate统计其翻译结果。

相应于上述汉英未登录词的翻译方法,本发明还提出汉英未登录词的翻译系统,该系统的结构框架如图1所示,包括4个模块:(一)预处理和参数估计模块;(二)英文关键词抽取和噪声过滤模块;(三)翻译候选的多特征表示模块;(四)基于Ranking SVM的翻译候选排序和评估模块。它们分别对应于翻译方法的4个步骤。

传统方法中,无论是基于音译的方法还是基于语料库的方法,都面临语料库稀缺的严重问题。而在现有的基于Web挖掘的方法中,虽然可解决语料库稀缺的问题,但仍面临着翻译候选覆盖率低、特征表示不全面、翻译候选评估方法过于简单所导致不精确的问题。而本发明提出的方法主要针对这几个问题,通过在汉英未登录词翻译中,设置搜索引擎返回英文页面,以提高英文翻译候选的覆盖率。另外,通过参数估计,获取最佳的网页摘要数、初始排序方法和噪声过滤方法的参数,提高整体的效率和准确率。本发明提出表示翻译候选的较为全面的特征信息,包括全局特征、局部特征和布尔特征,这些既包括翻译候选在整个文档集中的分布特征,也包括翻译候选本身的特征和与上下文的关系、以及所总结出的翻译候选与未登录词之间的特殊位置关系信息。根据这些特征,可较全面地将翻译候选表示为一个特征向量。另外,相比于原来较简单的直接根据频率、共现排序等一些翻译评估方法、或者简单的将翻译候选归为分类问题,本发明采用Ranking SVM的方法,将翻译评估问题看成是序数回归问题,从而提高翻译的准确率。本发明所采用的方法可很好地解决已有方法中存在的一些问题,提高汉英未登录词的翻译准确率,也将对机器翻译和跨语言信息检索产生重要的应用价值。

附图说明

图1、本发明汉英未登录词翻译算法的流程框架图(即系统结构框架图)。

具体实施方式

下面通过实施例和附图进一步描述本发明。 

预处理和参数估计

本发明的整体过程是将中文未登录词作为查询输入至Google搜索引擎,返回搜索结果的摘要集,然后从摘要集中抽取翻译候选。同时,使用一些启发式规则和信息熵结合部分特征的方法过滤噪声而进行初始排序,将排在前面的前几个作为最终的翻译候选。然后,提取翻译候选的特征,并利用SVM和Ranking SVM评估翻译候选和未登录词之间的相关性。在上述过程中,需要对返回的摘要集进行预处理,即在汉英未登录词翻译中设置搜索引擎返回英文网页;在摘要集中去除超链接等,只保留正文中英文和中文的文本串;将摘要集进行标号,以方便候选的特征提取等。另外,在整个过程中,还需要对一些参数进行估计,包括返回的翻译候选摘要数、使用的初始排序方法、以及噪声过滤中信息熵方法的参数。

所返回摘要数的数目对翻译候选的质量有直接的影响,如果返回的摘要数目过少,则在摘要集中抽取的翻译候选太少,有可能找不到正确的翻译;反之,如果返回的摘要数目过多,即使翻译候选的数目增加,也会导致提取特征等速度过慢,从而影响整个翻译过程。为此,针对摘要数进行实验,探究摘要数和翻译候选覆盖率之间的关系。试验结果表明,随着摘要数的增加,覆盖率呈上升的趋势,至摘要数为200时,覆盖率逐渐趋于平稳。因而,为保证翻译候选的覆盖率,选择所返回的摘要数为200--250。

为得到与未登录词最相关的翻译候选,需要选择最合适的初始排序算法(将在特征描述部分详细介绍),探究不同的初始排序算法对覆盖率和Top-N-Inclusion-Rate的影响。结果表明,D_Rank有最好的性能。

在噪声过滤中,使用信息熵过滤冗余噪声,涉及到一个参数λ。要得到最佳的噪声过滤效果,需要设置参数λ。因此,实验探究不同的λ对覆盖率和Top-N-Inclusion-Rate的影响,结果表明,当λ=0.6并且结合P&S_IF特征(将在特征描述部分详细介绍)时,能获得最好的噪声过滤效果。

抽取英文关键词

在基于Web的汉英未登录词翻译中,一个主要任务就是从返回的网页摘要集中抽取翻译候选,也可将其看作为关键词抽取。其基本过程为,先使用初步的抽取方法抽取英文片段,然后使用噪声过滤技术过滤噪声,最后根据初始排序方法得到最终的翻译候选。

初步的抽取方法是在所返回的网页摘要集中得到初始的英文关键词。由于英文单词之间有空格分隔,不存在中文分词问题,因此,先使用一种简单方法从网页中抽取英文片段,然后把重点放在噪声处理上。首先,将网页摘要集中连续的英文词串抽取出来,这些英文词串以非英文字符分开。然后,统计各个英文词串在网页摘要集中的出现频率。

在所抽取出来的英文词串中,存在大量的噪声和不相关的高频词汇。为此,需要相关的噪声处理技术。首先,使用一些从翻译候选中总结出来的启发式规则过滤掉一些明显不是翻译的噪声;然后,再使用信息熵去除一些冗余噪声。这些启发式规则包括:

(1)停用词表——有些词串与未登录词无关且经常出现在网页摘要中,这些词串大部分只与特定的搜索引擎有关,如“Translate this page”、“Powered by Discuz”、“Retrieved from Wikipedia”等,将这些与源语未登录词无关的高频词汇搜集起来组成停用词表。 

(2)以连词或介词开头或结尾——如果一个英文词串以连词或介词开头或结尾,则认为它是一个噪声词串。

(3)符合某些过滤模式——如果翻译候选符合一些从翻译候选中总结出来的高频但明显不是正确翻译的过滤模式,则认为它是一个噪声词串,如未登录词“爱德华”的翻译候选“Edward C”、“非洲统一组织”的翻译候选“Fei1 zhou1 Tong3 yi1 Zu3 zhi1”。

(4)合并大小写——如果几个翻译候选在忽略大小写之后完全相同,则只保留频率最高的一种形式,其他候选作为噪声去除。如未登录词“费利克斯”的翻译候选有“Felix”、 “FELIX”、“felix”等,则只保留频率最高的“Felix”,将其余翻译候选删除。而且,在后面的特征计算中,考虑所有形式的翻译候选,即将“Felix”替代网页中其他形式的翻译候选。

(5)单个词的前缀/后缀子串——对于某些由单个词组成的翻译候选,如果它是另一个单个词候选的前缀/后缀,则将其作为噪声去除。如未登录词“巴尔扎克”,具有候选“zac”和“Balzac”,则将“zac”去掉。

在使用启发式规则对噪声进行初始过滤后,再使用信息熵的方法过滤冗余子串。对于一个翻译候选x,它的熵可表示为:

                                                    (1)

其中,p(xi)表示x在第i个摘要中的频率,即p(xi)=ni/nnix在第i个摘要中出现的次数,nx在整个摘要集中出现的总次数;N是总的摘要数目。

信息熵不仅用来度量翻译候选的信息量,也可表示两个翻译候选在整个网页摘要集中分布的相似性。对于两个翻译候选kt1kt2kt1kt2的子串,如果λH(kt1)<H(kt2),则kt1被当作噪声去除。但是,如果不考虑未登录词和翻译候选之间的关系,只使用信息熵来过滤子串,则有可能将正确翻译当作噪声过滤掉,特别是对于一些低频词,其经常伴随着某些噪声一起出现。如对于未登录词“萨马兰奇”,其正确翻译“Samaranch”总是出现在另一词串“Juan Antonio Samaranch”中,如果只根据信息熵过滤噪声,“Samaranch”会被当作噪声被删除。因此,需要引入未登录词和翻译候选间的语音语义特征P&S_IF(将在特征描述部分详细介绍)来辅助信息熵进行噪声过滤。从而,基于信息熵的过滤模式表示为,如果(λH(kt1)<H(kt2))且(P&S_IF(OOV Termkt1)<P&S_IF(OOV Termkt2)),则将kt1删除。

翻译候选的多特征表示

在抽取翻译候选后,另一个重要问题是翻译候选的表示,即提取翻译候选的特征。在现有相关文献中,已提出一些翻译候选的特征,如频率、共现信息、距离等[9][11][12]。在音译模型中,也考虑未登录词与翻译候选间的发音相似性等[15]。但它们具有一个共同问题,即用于表示翻译候选的特征信息不够全面,不能充分地表现翻译候选。因此,本发明通过分析网页摘要中翻译候选的分布规律以及未登录词与翻译候选之间的关系,提出比较全面的特征表示翻译候选。

本发明根据所采用特征表示的不同信息以及特征本身的特点,将所有特征分为三类,包括全局特征、局部特征和布尔特征。下面对这三种特征分别进行描述。

(一)全局特征,基于这样一种观察,在网页摘要中出现的未登录词或翻译候选,一般以相同或相似的形式出现,即未登录词或翻译候选每次在网页中出现时,它们的相对位置、上下文等一般类似。统计这种在整个网页摘要集中的出现规律对翻译候选的评估具有重要意义,它反映的是翻译候选在整个文档集中的特征。本发明考虑的全局特征主要包括:

(1)全局频率特征(G_Freq)——旨在说明未登录词和翻译候选在整个网页摘要集中出现的频率信息,一般这是最重要也是最常见的特征之一。这里包含四个频率特征:FreqSOOV表示未登录词SOOV在所返回的整个网页摘要集中出现的次数;TFTOOV表示翻译候选TOOV在整个网页摘要集中出现的次数;DFTOOV表示包含TOOV的网页摘要数;CO_Freq表示同时包含SOOVTOOV的网页摘要数,即共现频率。

(2)全局统计特征(G_SF)——旨在衡量未登录词与翻译候选之间相互依赖性,这种依赖性可用来判断一个翻译候选成为正确翻译的可能性大小[17]。全局统计特征包括:

开方特征(Chi-Square(χ2) Feature ValueCV):通过SOOVTOOV在网页摘要中的出现频率来评估两者之间的相关性,具体为:

                                    (2)

其中,a表示同时包含SOOVTOOV的摘要数;b表示只包含SOOV不包含TOOV的摘要数;c表示只包含TOOV不包含SOOV的摘要数;d表示既不包含SOOV也不包含TOOV的摘要数;N=a+b+c+d

信息增益(Information GainIG):计算TOOV在网页摘要集中与SOOV同时出现的概率,值越大,表示TOOV成为SOOV正确翻译的可能性越大,其具体定义为:

                 (3)

相关系数(Correlation CoefficientCC):衡量SOOVTOOV之间的线性相关性,它是CV的一种变种。CC值越大,说明SOOVTOOV相关性越大,且CC22。即:

                              (4)

相关值(Relevance Score, RS):该值定义为包含SOOV的摘要中TOOV出现的概率与不包含SOOV的摘要中TOOV出现概率的比值,用于衡量SOOVTOOV的直接相关性。RS值越大表明SOOVTOOV越相关。即:

                                                       (5)

其中,m用于RS值的平滑化,通常设置为1。

让步比(Odds RatioOR):旨在考虑在相关候选中特征的分布与其在不相关候选中的分布不同,该值用于衡量SOOVTOOV的间接相关性。OR值越大表示SOOVTOOV越相关。具体定义为:

                                             (6)

GSS系数(GSS CoefficientGSS):也是用于表示SOOVTOOV的相关性,是CV的另一种简单的变种。具体为:

                                                        (7)

(3)点态互信息(Pointwise Mutual InformationPMI),旨在说明SOOVTOOV之间的共现关系。二者共现频率越高,说明它们相关性越大。具体定义为:

                                         (8)

(4)共现距离(Co-Occurrence DistanceCO_Dist),旨在说明SOOVTOOV的位置关系。在网页摘要集中,成为翻译对的SOOVTOOV往往距离比较近。对于每一个摘要,考虑SOOVTOOV的三种位置,即第一次出现、第二次出现、最后一次出现。基于这三种值,计算最近的距离作为翻译对在这个摘要中的距离,最终计算它们在所有摘要集中的平均距离。

(5)排序值(Ranking ValueRV),旨在说明翻译候选在网页摘要集中的排序值,包含六个参数。其中,Top_Rank(T_Rank)是第一个包含翻译候选的网页摘要在整体摘要集中的排序值;Average_Rank(A_Rank)是出现翻译候选的网页摘要在整个摘要集中排序值的平均值;Simple_Rank(S_Rank)用于评估翻译候选的频率和长度对排序的影响,即S_Rank(TOOV)=TFTOOV(TOOV)*Len(TOOV);R_Rank用于选择初始排序算法时的比较,表示为β按经验设为0.25,|TOOV|指TOOV的长度,MAX_WL为翻译候选的最大长度;DF_Rank(D_Rank)与S_Rank类似,表示为D_Rank(TOOV)=DFTOOV(TOOV)*Len(TOOV);TF_Rank即按照TOOV的频率排序,表示为TF_Rank(TOOV)=TFTOOV(TOOV)。

(6)上下文相似性(Similarity of Context VectorSCV),旨在评估未登录词和翻译候选在网页摘要集中分布的相似性。首先,将SOOVTOOV表示为两个向量CVSOOV=(ts1, …, tsi, …, tsN)和CVTOOV=(tt1, …, tti, …, ttN),tsitti分别表示SOOVTOOV在第i个摘要中出现的次数,两者之间的相似性计算按照以下公式:

                             (9)

(二)局部特征,分析翻译候选本身的特征以及翻译候选与未登录词之间的关系,主要包括:

(1)词长(LengthLen),表示翻译候选的长度。

(2)语音相似性(Phonetic ValuePV),旨在衡量未登录词和翻译候选的发音相似性。由于未登录词大部分都是专有名词、术语等,这些词中很多都是音译或者部分音译。同时,中文和英文的音节也带有较少的歧义。首先,通过一些特殊的语言规则转换中文未登录词和英文翻译候选的音节。然后,通过计算编辑距离来衡量它们的语音相似性。计算公式为:

                                 (10)

其中,SOOV’和TOOV’是经过一些特殊语言规则处理后并去除元音后的字符串;EditDist( , )表示两个字符串之间的编辑距离。

(3)未登录词和翻译候选的词长比(Length RationLR),旨在说明翻译候选的构成对其成为未登录词正确翻译可能性的影响。未登录词与其正确翻译一般具有相似长度,其值应尽可能地接近1。一个中文词会被分成一些有意义的片段,片段的个数作为词的长度,如“非典型肺炎[SARS]”被分成“”、“典型”、“肺炎”,则它的长度是3。对于一个英文词串,其长度就是组成词串的单词个数。如果一个英文词串是由大写字母组成的单个词,则其长度就是大写字母的个数。如“SARS”的长度是4。因此,“非典型性肺炎”和“SARS”的词长比为3/4=0.75。

(4)结合语音和语义的特征(Phonetic and Semantic Integration Feature, P&S_IF),旨在同时考虑未登录词和翻译候选的语音和语义信息,一般用于由多个词组成的翻译对中,每一个部分可分别单独通过语音或语义进行翻译。具体公式为:

                       (11)

其中,LScore( , )表示未登录词和翻译候选中非音译部分互为翻译的词数;SOOV’’和 TOOV’’分别为计算LScoreSOOVTOOV的剩余部分。如未登录词“斯堪的纳维亚半岛”及其翻译候选“ScandinavianPeninsula”,非音译部分“半岛”和“Peninsula”是一个翻译对,则LScore(SOOVTOOV)=1;剩余部分“斯堪的纳维亚”和“Scandinavian”的PV值是0.928,所以P&S_IF值为1.928/2=0.964。

(5)非覆盖比(Un-Covered RationUCR) ,表示未登录词和翻译候选间存在的互为翻译对的比例[16]。计算公式为:

                                                    (12)

其中,unTrans表示未登录词中不能在翻译候选中找到对应翻译的部分。如未登录词“苏伊士运河”及其翻译候选“SuezCanal”,“运河”可以通过词典在翻译候选中找到翻译“Canal”。因此,未登录词“苏伊士运河”中不能翻译的部分为“苏伊士”,则UCR=1-3/5=0.4。

(三)布尔特征,是指根据一些启发式规则描述未登录词和翻译候选之间特殊关系的二值特征,表示未登录词和翻译候选之间的特殊位置关系和特定出现形式,主要包括:

(1)邻近关系(Position Distance with OOV TermPD_SOOV),如果未登录词和翻译候选邻近,如它们之间的字符数在10个以内,则该特征设置为1,否则为-1。

(2)邻接关系(Neighbor Relation with OOV Term, NR_SOOV),如果未登录词和翻译候选相邻,则此特征为1,否则为-1。

(3)括号相邻关系(Bracket Neighbor Relation with OOV TermBNR_SOOV),如果未登录词与翻译候选间只出现“(”,即以“TOOV(SOOV)”或者“SOOV(TOOV)”的形式出现,则此特征设置为1,否则为-1。

(4)特殊词标记(Special Mark WordSMW),如果未登录词和翻译候选间距离很近,若在10个字符内且这些字符中包含一些特殊词,如“全称”、“”、“译为”、“名称”、“(或/又)称为”、“简体中文”、“繁体中文”或它们对应的英文词,则该特征设置为1,否则为-1。

(5)首字母大写(Capitalized First LetterCFL)——由于未登录词大部分都是命名实体,如果翻译候选以大写字母开头,则该特征为1,否则为-1。 

基于Ranking SVM的排序算法

在将翻译候选利用特征表示后,另一个很重要的问题就是翻译候选的评估问题,即怎样将翻译候选从“最好”到“最差”排序,得到未登录词的正确翻译。翻译候选的评估主要包含三种类型的方法,即基于频率、距离、共现关系等简单地排序[11][12][13];基于半监督的学习方法进行排序[14];采用信息熵、SVM、AdaBoost机器学习的方法进行排序[15][16][18]。之前方法都存在一些缺点,或者特征考虑不充分,或者使用的排序方法过于简单,这些都导致翻译结果的偏差。本发明在对翻译候选建立较为全面的特征表示后,使用SVM和Ranking SVM方法对翻译候选进行评估。SVM和Ranking SVM是一种有监督的学习方法,基于结构风险最小化原则,能较好地解决非线性和高维问题,具有较强的泛化能力。

翻译候选的评估可以看成是一个二值分类问题,即将翻译候选分成“正确”和“错误”两类。然而,有些翻译候选虽不是未登录词的正确翻译,但与未登录词高度相关,如果只是单纯地将这些候选归为错误的翻译,则会影响翻译候选的评估。因此,将翻译候选的评估看成是序数回归问题,而不是简单的分类问题。这里,采用SVM和Ranking SVM分别解决翻译候选评估的分类问题和序数回归问题,使用Ranking SVM将翻译候选从“好”到“坏”进行排序。

对于一个未登录词SOOV及其翻译候选TOOViTOOVj,若TOOVi作为SOOV翻译的可能性比TOOVj大,可将其表示为TOOVi>SOOVTOOVj,且按照这种表示构建训练集。结合翻译候选的多种特征,利用特征函数可表示为:

                                   (13)

其中,w表示特征权重,可写为向量w={w1, …, wi, …, wn},并进一步表示为:

               (14)

这里,LFk( , )、GFl(, )和BFm(, )分别表示局部特征、全局特征和布尔特征。统一三种特征,特征函数可也可表示为:

                                       (15)

之后,经过训练集训练得到翻译模型,按照模型评估翻译候选与未登录词的相关性,并按相关性值排序以得到未登录词的正确的翻译。

为评估本发明的准确率,采用比较合理的Top-N-Inclusion-Rate对模型进行评价。Top-N-Inclusion-Rate是指在前N个翻译候选中能找到正确翻译的未登录词占所有待译未登录词的百分比。

应用实例  将上述所提出的算法用于汉英未登录词翻译中,分别用于三类未登录词,即人名、地名和组织机构名。选取分别采用SVM和Ranking SVM评估这三类未登录词翻译结果的示例,可以看出算法取得很好的效果,为了表示一般性,还将此算法用于其他类别未登录词翻译中。其中,(1)表示人名“卡塔林娜”的翻译结果,(2)表示地名“肯尼迪航天中心”的翻译结果,(3)表示组织机构名“对外贸易经济合作部”的翻译结果,(4)表示其他类别未登录词的翻译结果,并与Google TranslateBing的翻译结果比较。从该示例中可以看出,本发明所提出的方法可获得较好的翻译结果。见表1—表4。

表1:人名“卡塔林娜”的翻译结果。

 

表2:地名“肯尼迪航天中心”的翻译结果。

 

表3:组织机构名“对外贸易经济合作部”的翻译结果。

 

未登录词来自所构建模型的翻译来自Google>来自Bing的翻译盗梦空间InceptionPirates of the dream of spaceStolen dreams of space梦里花落知多少Dreamer /Never Flowers in Never DreamDreams Whispering ColourDream flowers drop what you need to know变异编年史The Mutant ChroniclesVariation ChronicleVariation Chronicles华硕ASUSASUSASUS经济法制化To manage economic affairs according to 1awLegal economyEconomic law与时俱进advance with timeTimesWith times党群关系Party masses relationshipTies between the partyRelationship between the独角兽unicornunicornUnicorn坐视不管sit idle /sit by and do nothing/ sit back and look unconcernedSit idlySit阿联酋United Arab EmiratesUnited Arab EmiratesU.A.E

表4:其他类别未登录词的翻译结果及与已有翻译引擎的比较。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号