首页> 外文会议>International Conference on Asian Language Processing >Tibetan Word Segmentation Based on Word-Position Tagging
【24h】

Tibetan Word Segmentation Based on Word-Position Tagging

机译:基于词位标注的藏文分词

获取原文

摘要

The best advantage of Tibetan word segmentation based on word-position is to reduce segmentation errors for unknown words. In this article authors upgrade usual 4-tag set to 6-tag set to fit in with the features of Tibetan characters, using CRF as tagging model to train and test corpus data, then building post processing modules to revise the result data. The experimental result shows that this method achieves a good performance and deserves further study, including expanding the corpus and optimizing the tag set and feature templates.
机译:基于词位置的藏文分词的最大优点是减少了未知词的分词错误。在本文中,作者将常用的4标记集升级为6标记集以适应藏文字符的特征,使用CRF作为标记模型来训练和测试语料库数据,然后构建后处理模块以修改结果数据。实验结果表明,该方法具有良好的性能,值得进一步研究,包括扩展语料库,优化标签集和特征模板。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号