首页> 外文会议>Chinese National Conference on Computational Linguistic >面向司法领域的高质量开源藏汉平行语料库构建
【24h】

面向司法领域的高质量开源藏汉平行语料库构建

机译:面向司法领域的高质量开源藏汉平行语料库构建

获取原文

摘要

面向司法领域的藏汉机器翻译面临严重的数据稀疏问题.本文将从两个方面展开研究:第一,相比于通用领域,司法领域的藏语需要有更严谨的逻辑表达和更多的专业术语.然而,目前藏语资源在司法领域内缺乏对应的语料,稀缺专业术语词以及句法结构.第二,藏语的特殊词汇表达方式和特定句法结构使得通用语料构建方法难以构建藏汉平行语料库.为此,本文提出一种针对司法领域藏汉平行语料的轻量级构建方法.首先,我们采取人工标注获取一个中等规模的司法领域藏汉专业术语表作为先验知识库,以避免领域越界而产生的语料逻辑表达问题和领域术语缺失问题;其次,我们从全国的地方法庭官网采集实例语料数据,例如裁判文书.我们优先寻找藏文实例数据,其次是汉语,以避免后续构造藏语句子而丢失特殊的词汇表达和句式结构.我们基于以上原则采集藏汉语料构建高质量的藏汉平行语料库,具体方法包括:爬虫获取语料,规则断章对齐检测,语句边界识别,语料库自动清洗.最终,我们构建了16万级规模的藏汉司法领域语料库,并通过多种翻译模型和交叉实验验证了构建的语料库的高质量特点和鲁棒性.另外,此语料库会开源以便于相关研究人员用于科研工作.
机译:面向司法领域的藏汉机器翻译面临严重的数据稀疏问题.本文将从两个方面展开研究:第一,相比于通用领域,司法领域的藏语需要有更严谨的逻辑表达和更多的专业术语.然而,目前藏语资源在司法领域内缺乏对应的语料,稀缺专业术语词以及句法结构.第二,藏语的特殊词汇表达方式和特定句法结构使得通用语料构建方法难以构建藏汉平行语料库.为此,本文提出一种针对司法领域藏汉平行语料的轻量级构建方法.首先,我们采取人工标注获取一个中等规模的司法领域藏汉专业术语表作为先验知识库,以避免领域越界而产生的语料逻辑表达问题和领域术语缺失问题;其次,我们从全国的地方法庭官网采集实例语料数据,例如裁判文书.我们优先寻找藏文实例数据,其次是汉语,以避免后续构造藏语句子而丢失特殊的词汇表达和句式结构.我们基于以上原则采集藏汉语料构建高质量的藏汉平行语料库,具体方法包括:爬虫获取语料,规则断章对齐检测,语句边界识别,语料库自动清洗.最终,我们构建了16万级规模的藏汉司法领域语料库,并通过多种翻译模型和交叉实验验证了构建的语料库的高质量特点和鲁棒性.另外,此语料库会开源以便于相关研究人员用于科研工作.

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号