首页> 中文学位 >基于自然语言处理的观点句抽取系统设计
【6h】

基于自然语言处理的观点句抽取系统设计

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.3 论文主要研究内容

1.4 论文组织结构

第2章 基于链接密度与内容相似度的网页正文提取

2.1 概述

2.2 当前研究进展和不足

2.3 基于链接密度与内容相似度的网页正文提取方案

2.3.1 网络连接管理

2.3.2 编码处理

2.3.3 网页预处理

2.3.4 基于链接密度与内容相似度的网页正文提取

2.3.5 后期处理

2.4 实验结果与分析

2.4.1 实验环境

2.4.2 实验数据集

2.4.3 实验评估

2.4.4 实验小结

2.5 本章小结

第3章 基于SVM与组合列表密度相结合的网页评论提取

3.1 概述

3.2 当前研究进展和不足

3.3 基于SVM和组合列表密度相结合的网页评论提取方案

3.3.1 基于Web kit与SVM相结合的网页评论超链接识别

3.3.2 基于组合列表密度的评论短文本识别和提取

3.3.3 系统架构

3.4 实验结果与分析

3.4.1 实验环境

3.4.2 实验数据集

3.4.3 实验评估

3.4.4 实验小结

3.5 本章小结

第4章 规则与统计相结合的观点句抽取

4.1 概述

4.2 规则与统计相结合的观点句抽取方案

4.2.1 语料预处理

4.2.2 句法结构模板抽取

4.2.3 依存关系模板抽取

4.2.4 利用SVM分类器识别观点句

4.3 实验结果与分析

4.3.1 实验数据集

4.3.2 实验评估

4.3.3 实验小结

4.4 本章小结

第5章 基于自然语言处理的观点句抽取系统设计

5.1 系统概述

5.2 语料获取模块

5.2.1 网页正文提取

5.2.2 网页评论提取

5.3 语料预处理模块

5.3.1 分词

5.3.2 词性标注

5.3.3 句法结构分析

5.3.4 依存关系分析

5.4 观点句抽取模块

5.4.1 句法结构模板匹配

5.4.2 依存关系模板匹配

5.4.3 SVM分类器

5.5 本章小结

第6章 总结与展望

6.1 总结

6.2 展望

参考文献

致谢

展开▼

摘要

互联网的快速发展,特别是Web2.0的概念和技术的应用与推广,带来了全新的媒介形式、社群环境和营销理念。在这种环境下,以互联网为媒介的评论、观点和意见等主观性文本信息成指数级增长,文本意见挖掘技术逐渐成为语言信息处理领域的研究热点。其中如何抽取观点句,即将主观性评论句与客观性描述句区分开来,是文本意见挖掘技术中基础且重要的一环。它不仅可以让用户更快捷地找到产品的相关评价内容,也可以让生产厂家对此产品得到及时的反馈从而进行更深入的研究改进。
  本文针对目前观点句抽取领域的现状,重点研究了如何从互联网特定领域的非结构化文本中获取相关信息并抽取观点句的技术,并构建了一个基于自然语言处理的观点句抽取系统。本文的主要工作包括:
  1.本文提出了一种融合链接密度与内容相似度的网页正文提取算法。该方法与以往使用的DOM树解析方法不同,无需使用网页分析工具,而是将网页源码看作一个字符串,并按标签分割为不同的节点,利用节点内容与标题内容的相似度以及节点内的链接密度来判断其是否为正文的起始或结束节点。
  2.本文提出了一种SVM和组合列表密度相结合的网页评论提取算法,即新闻正文下面大多数都包含诸如:“有XX人参与评论”、“本文共有XX条评论”的超链接文字,识别提取此类超链接并重定向,可获取短文本候选网页。
  3.本文提出了一种规则与统计、粗粒度与细粒度相结合的观点句抽取方法。粗粒度提取中,融合观点特征词、句法特征和依存特征进行提取;细粒度提取中,设计一种全新的CSR序列提取算法,并结合语义角色信息与CRF条件随机场进行提取;最后选取不同的特征组合,利用支持向量机SVM分类器,完成观点句的抽取工作。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号