首页> 中文期刊> 《北京大学学报:自然科学版》 >基于词间关联度度量的维吾尔文本自动切分方法

基于词间关联度度量的维吾尔文本自动切分方法

         

摘要

提出一种基于词间关联度度量的维吾尔文本自动切分方法。该方法从大规模生语料库中自动获取维吾尔文单词Bi-gram及上下文语境信息,在充分考虑维吾尔文单词间结合规则的前提下,将相邻单词间的互信息、t-测试差及双词邻接对熵的线性融合作为组合统计量(dmd),度量文本中相邻单词之间的关联程度。以dmd度量的弱关联的词间位置作为切分点进行自动切分,得到语义及结构完整的词串,而不仅仅是以空格隔开的单词。在大规模文本语料上进行的测试表明,该方法的切分准确率达到88.21%。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号