首页> 中文期刊> 《现代图书情报技术》 >英汉双语句子级平行语料库自动构建

英汉双语句子级平行语料库自动构建

         

摘要

探讨如何基于网络自动构建大规模英汉双语句子级平行语料库的问题,即确定抓取网站和制定相应的抓取底表;利用网络抓取工具Wget自动获取含有英汉双语句子对的网页;对从网页中提取出来的英汉双语句子对进行后续加工以及基于条件随机场对汉语句子进行自动分词。最后从675308个网页中共获取1017963对英汉双语句子对并把句子对导入到数据库中完成英汉双语句子级平行语料库的构建。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号