声明
摘要
第1章 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.3 论文主要研究内容
1.4 论文组织结构
第2章 基于链接密度与内容相似度的网页正文提取
2.1 概述
2.2 当前研究进展和不足
2.3 基于链接密度与内容相似度的网页正文提取方案
2.3.1 网络连接管理
2.3.2 编码处理
2.3.3 网页预处理
2.3.4 基于链接密度与内容相似度的网页正文提取
2.3.5 后期处理
2.4 实验结果与分析
2.4.1 实验环境
2.4.2 实验数据集
2.4.3 实验评估
2.4.4 实验小结
2.5 本章小结
第3章 基于SVM与组合列表密度相结合的网页评论提取
3.1 概述
3.2 当前研究进展和不足
3.3 基于SVM和组合列表密度相结合的网页评论提取方案
3.3.1 基于Web kit与SVM相结合的网页评论超链接识别
3.3.2 基于组合列表密度的评论短文本识别和提取
3.3.3 系统架构
3.4 实验结果与分析
3.4.1 实验环境
3.4.2 实验数据集
3.4.3 实验评估
3.4.4 实验小结
3.5 本章小结
第4章 规则与统计相结合的观点句抽取
4.1 概述
4.2 规则与统计相结合的观点句抽取方案
4.2.1 语料预处理
4.2.2 句法结构模板抽取
4.2.3 依存关系模板抽取
4.2.4 利用SVM分类器识别观点句
4.3 实验结果与分析
4.3.1 实验数据集
4.3.2 实验评估
4.3.3 实验小结
4.4 本章小结
第5章 基于自然语言处理的观点句抽取系统设计
5.1 系统概述
5.2 语料获取模块
5.2.1 网页正文提取
5.2.2 网页评论提取
5.3 语料预处理模块
5.3.1 分词
5.3.2 词性标注
5.3.3 句法结构分析
5.3.4 依存关系分析
5.4 观点句抽取模块
5.4.1 句法结构模板匹配
5.4.2 依存关系模板匹配
5.4.3 SVM分类器
5.5 本章小结
第6章 总结与展望
6.1 总结
6.2 展望
参考文献
致谢