首页> 中文期刊> 《中文信息学报》 >基于字符的中文分词、词性标注和依存句法分析联合模型

基于字符的中文分词、词性标注和依存句法分析联合模型

         

摘要

目前,基于转移的中文分词、词性标注和依存句法分析联合模型存在两大问题:一是任务的融合方式有待改进;二是模型性能受限于全标注语料的规模.针对第一个问题,该文利用词语内部结构将基于词语的依存句法树扩展成了基于字符的依存句法树,采用转移策略,实现了基于字符的中文分词、词性标注和依存句法分析联合模型;依据序列标注的中文分词方法,将基于转移的中文分词处理方案重新设计为4种转移动作:Shift S、Shift B、Shift M和Shift E,同时能够将以往中文分词的研究成果融入联合模型.针对第二个问题,该文使用具有部分标注信息的语料,从中抽取字符串层面的n-gram特征和结构层面的依存子树特征融入联合模型,实现了半监督的中文分词、词性标注和依存句法分析联合模型.在宾州中文树库上的实验结果表明,该文的模型在中文分词、词性标注和依存分析任务上的F1值分别达到了98.31%、94.84%和81.71%,较单任务模型的结果分别提升了0.92%、1.77%和3.95%.其中,中文分词和词性标注在目前公布的研究结果中取得了最好成绩.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号