基于汉语主题词表的统计机器翻译训练数据筛选方法及实验研究

丁亮; 李颖; 何彦青; 王星; 张运良; 姚长青

首页> 中文期刊> 《情报学报》 >基于汉语主题词表的统计机器翻译训练数据筛选方法及实验研究

基于汉语主题词表的统计机器翻译训练数据筛选方法及实验研究

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

统计机器翻译的训练数据通常来源复杂,主题多样,文体不一,与待翻译目标文本的领域不能保证完全一致,导致领域自适应问题.目前统计机器翻译的领域自适应方法以目标数据为基准,着重对训练数据或者翻译模型进行领域的适应调整,但其缺乏数据明确的领域标签.本研究利用《汉语主题词表》的领域知识,对数据进行领域归类,并将其应用到统计机器翻译中.通过汉语句子进行领域自动标注,生成测试集和开发集的领域标签集合,利用领域标签集合筛选训练数据.经过在统计机器翻译系统上进行测试,仅利用部分训练数据就获取了与原始训练数据可比较的翻译结果,证明了本研究方法的有效性和可行性.

著录项

来源
《情报学报》 |2016年第8期|875-884|共10页
作者
丁亮; 李颖; 何彦青; 王星; 张运良; 姚长青;
展开▼
作者单位

中国科学技术信息研究所;

北京100038;

中国科学技术信息研究所;

北京100038;

中国科学技术信息研究所;

北京100038;

中国科学技术信息研究所;

北京100038;

中国科学技术信息研究所;

北京100038;

中国科学技术信息研究所;

北京100038;

展开▼
原文格式 PDF
正文语种 chi
中图分类
关键词
统计机器翻译; 训练语料选取; 汉语主题词表; 领域标签;

相似文献

中文文献
外文文献
专利

1. 《汉语主题词表》的修订路向、途径和方法──兼谈《汉语主题词表》的利用 [J] . 梅国华 ,李若梅 ,吉厚英 . 荆州师专学报 . 1995,第3期
2. 继承与创新——《中国档案主题词表》与《汉语主题词表》之比较 [J] . 李小岗 . 云南档案 . 2008,第012期
3. 《中国分类主题词表》与《中图法》及《汉语主题词表》的比较研究 [J] . 赵志颖 . 图书与石油科技信息 . 1998,第003期
4. 《中国分类主题词表》“主题词——分类号对应表”与《汉语主题词表》之比较研究 [J] . 胡明 . 青海图书馆 . 1997,第002期
5. 《石油工业汉语主题词表》与《石油主题词表》比较 [J] . 黄鹂 ,胡新和 . 图书与石油科技信息 . 1996,第003期
6. 基于句对质量和覆盖度的统计机器翻译训练语料选取 [C] . 姚树杰 ,肖桐 ,朱靖波 . 第五届全国青年计算语言学研讨会(YWCL 2010) . 2010
7. 基于短语的统计机器翻译模型训练中若干关键问题的研究 [A] . 梁华参 . 2013

基于汉语主题词表的统计机器翻译训练数据筛选方法及实验研究

摘要

著录项

相似文献

相关主题

期刊订阅