首页> 中文期刊> 《金陵科技学院学报(社会科学版)》 >一种面向Web的英汉平行语料库的构建方法

一种面向Web的英汉平行语料库的构建方法

         

摘要

随着自然语言处理领域各项研究的发展,平行语料库作为支撑自然语言处理技术的基础资源,发挥着越来越重要的作用。利用Web中的海量信息资源,采取信息抽取的方法,自动获取英汉双语平行语料资源。在获取过程中,首先确定抓取网站和制定词表,然后利用网络资源抓取工具GUN Wget自动获取网页中的英汉双语句子对资源,在对获得的平行句子对资源进行清洗和去重的基础上,利用条件随机场模型对汉语句子进行自动分词并导入数据库,最终完成大规模英汉双语平行语料库的构建。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号