首页> 中文学位 >全宋词语料库建设及其风格与情感分析的计算方法研究
【6h】

全宋词语料库建设及其风格与情感分析的计算方法研究

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1前言

1.2论文中基本概念的界定

1.3相关领域已有的研究

1.4课题的研究背景和主要内容

1.4.1课题的研究背景

1.4.2课题的主要内容

1.5本研究的主要贡献

1.6本章小结

第二章全宋词生语料库及相关知识库的建立

2.1语料库语言学的研究简介

2.2宋词的特点和语料库技术的采用

2.3全宋词数据库和相关数据库的构建

2.4本章小结

第三章基于统计抽词的全宋词词表建立

3.1统计抽词简介

3.2全宋词中“词”的概念界定

3.3基于统计抽词的全宋词词表初步建立

3.4本章小结

第四章宋词切分新方法的提出和切分语料库的建立

4.1古代诗词机器切分简介

4.2新切分方法的提出

4.3基于新切分方法全宋词切分语料库的建立

4.4本章小结

第五章全宋词语料库加工规范的制定和熟语料库的建立

5.1汉语语料库加工规范制定简介

5.2全宋词语料库加工规范的制定

5.2.1宋词中词和词组的区别

5.2.2词类标注集

5.2.3词结构标注集

5.2.4特殊标注

5.3基于“人机互动标注”的全宋词熟语料库建立

5.4本章小结

第六章宋词风格的机器评判

6.1宋词的风格简介

6.2宋词风格评判问题转化为文本模式识别问题

6.2.1问题的转化

6.2.2风格评判流程

6.3文本的模式识别简介

6.3.1文本模式识别问题概述

6.3.2文本模式识别方法

6.3.3特征选取方法

6.3.4文本的机器表示——向量空间模型

6.4宋词风格机器评判实验

6.4.1实验的基本方法

6.4.2基于“字”和“词”的线型组合模型

6.4.3实验结果分析

6.5本章小结

第七章宋词词语情感意义的机器标注研究初探

7.1宋词的情感理解和分类标准

7.1.1宋词的情感理解

7.1.2情感基元分类和宋词情感分类标准

7.2自然语言处理与宋词情感标注

7.3宋词情感标注系统的总体设计思想和工作原理

7.3.1系统总体设计思想

7.3.2系统工作原理图

7.4宋词词语情感意义机器标注实验

7.4.1实验的基本流程

7.4.2实验系统分析

7.5本章小结

第八章总结与展望

8.1本课题研究工作的总结

8.2进一步研究的规划

参考文献

致谢

附录作者在攻读硕士学位期间发表的文章

展开▼

摘要

计算诗学是计算机自然语言处理技术的一个全新应用领域,其主要内容是建立诗词语料库,采用现代自然语言处理中的技术来挖掘语料库中所蕴含的信息,以此来辅助文学工作者们对诗词进行研究。本文以计算机辅助研究宋词为目的,建立全宋词语料库,并在此基础上开展了对宋词风格和情感分析的计算方法的初步研究。主要内容如下: 由于机器学习和古典文学数字化的需要,本文提出的方法和实验研究都基于语料库的数据驱动进行。语料库建设工作主要包括:基于统计抽词建立词表,结合格律特点对宋词进行切分,对宋词进行词性等方面的标注。同时,本文还建立了相关宋词知识库。该方面工作是整个课题的研究基础,具有十分重要的意义,主要内容集中在第二章到第五章。 针对高度抽象的艺术概念“风格”的辨析,本文将该问题转化为模式识别中的文本分类问题。在前面工作的基础上,分别建立了基于“字”特征和基于“词”特征的分类模型,并且通过遗传算法训练权值,建立两个模型的线型组合模型。在实验中,本文在KNN下比较了三个模型的优劣。这部分内容集中在第六章。 宋词中包含着诗词作者丰富的感情表达。针对该方面的研究,本文尝试将情感计算引入到宋词的机器理解中。文中采用了多重松弛迭代计算方法,对宋词词语的情感标注问题进行了研究,通过语境的利用,构建了一个实验性系统并取得了较为准确的词语情感标注,为以后的词句情感意义的理解提供了基础。该部分内容集中在第七章。 在文章的最后,对全文的研究工作进行了总结,并规划了今后进一步的研究方向。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号