首页> 中文学位 >中古汉语语料库分词不一致问题研究
【6h】

中古汉语语料库分词不一致问题研究

代理获取

目录

声明

摘要

绪论

一、选题背景

二、研究现状

三、研究语料选取

四、研究目的、意义、内容与方法

第一章 中古汉语研究型语料库简介

第一节 语料库构建及语料加工

第二节 检索管理系统

第二章 中古语料分词不一致现象及其成因

第一节 分词单位

第二节 分类统计

第三节 分词不一致原因探究

第三章 分词不一致类别与分词规范

第一节 高频组合分析

第二节 分词原则及部分规范

第四章 分词一致性对比实验

第一节 程序的设计与实现

第二节 实验效果验证

结语

参考文献

在读期间科研成果

致谢

展开▼

摘要

在语言文字研究领域,基于大规模真实文本的语料库发挥着越来越大的作用,建设大规模高质量语料库某种程度上是语言文字研究的基础性工作。然而由于现阶段语料库在构建过程中分词标注标准不统一甚至缺乏,再加上人工分词、标注、校验时难免疏忽,导致同一字段在相同、相似语境中切分结果不一致。这种现象在中古汉语语料建设中更为突出,它不仅影响了语料库分词的正确率,还将错误带到了语料进一步加工、使用的环节。因此,应将分词一致性作为衡量语料库质量的重要标准之一。
  本文首先对深加工中古汉语语料库作了简单地介绍,然后具体针对中古汉语语料库中存在的分词一致性问题,通过程序统计出其中的分词不一致字段,从语言学角度对其进行分类研究,并制定分词标准,通过多种特征相结合的方法,来提高分词结果的准确率及一致性。该方法通过统计中古语料库不一致字段,结合其语境,找出中古汉语分词不一致产生的特殊原因,并针对这些字段制定具体的分词规范,然后用人工校对的方法逐一解决实验语料中的分词不一致问题。基于CRF分词软件,引入多种分词特征,尤其是词典标记,实现多种特征相结合的分词方法分别进行对比实验,最终选定最有利的分词特征及模板。实验取得预期目标,封闭测试准确率达99%以上,开放测试准确率也均超过了90%,证明基于中古特定分词规范、统计与词典相结构的方法可以更好地解决分词不一致问题,有效提高分词准确率。主要工作如下:
  1.抽取中古汉语语料库中28万余人工分词语料,运用程序初步统计出其中可能存在分词不一致的字段,在人工校对的基础上,对这些字段进行分类,找出真正分词不一致(个例不一致)的组合及其语境信息,确定本文研究对象。
  2.从语言学角度分析中古汉语分词不一致出现的独有原因,然后从结构角度对分词不一致组合进行分类,揭示特定结构出现分词不一致的状况及原因,基于此建立中古汉语分词规范。
  3.依据规范整理28万余人工分词语料作为CRF训练语料,来解决语料中存在的个例不一致问题,提高分词准确率。在CRF分词软件中引入字符类型、声韵调、部首、词典词标这四种特征,通过实验对比这几个特征对分词结果影响的权重;制定不同的分词模板,在实验统计的基础上选择分词结果最好的模板,从而确定CRF分词特征及模板。
  4.基于整理好的训练语料、实验效果最好的分词特征及模板进行CRF对比实验,实验结果达到预期目标,开放测试、封闭测试的准确率分别超过了99%和90%,并进一步分析实验结果。
  在统计分析数据的基础上,本文详尽研究了中古汉语分词不一致字串,针对该字串制定了分词规范,并提出了基于多特征的CRF分词策略,取得了较好的效果。对中古汉语语料库进行封闭测试和开放测试时,正确率都达到了比较满意的结果,可见采用该方法确实能有效提高中吉汉语语料库的分词质量。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号