基于自然语言处理的观点句抽取系统设计

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

互联网的快速发展，特别是Web2.0的概念和技术的应用与推广，带来了全新的媒介形式、社群环境和营销理念。在这种环境下，以互联网为媒介的评论、观点和意见等主观性文本信息成指数级增长，文本意见挖掘技术逐渐成为语言信息处理领域的研究热点。其中如何抽取观点句，即将主观性评论句与客观性描述句区分开来，是文本意见挖掘技术中基础且重要的一环。它不仅可以让用户更快捷地找到产品的相关评价内容，也可以让生产厂家对此产品得到及时的反馈从而进行更深入的研究改进。
　　本文针对目前观点句抽取领域的现状，重点研究了如何从互联网特定领域的非结构化文本中获取相关信息并抽取观点句的技术，并构建了一个基于自然语言处理的观点句抽取系统。本文的主要工作包括:
　　1.本文提出了一种融合链接密度与内容相似度的网页正文提取算法。该方法与以往使用的DOM树解析方法不同，无需使用网页分析工具，而是将网页源码看作一个字符串，并按标签分割为不同的节点，利用节点内容与标题内容的相似度以及节点内的链接密度来判断其是否为正文的起始或结束节点。
　　2.本文提出了一种SVM和组合列表密度相结合的网页评论提取算法，即新闻正文下面大多数都包含诸如:“有XX人参与评论”、“本文共有XX条评论”的超链接文字，识别提取此类超链接并重定向，可获取短文本候选网页。
　　3.本文提出了一种规则与统计、粗粒度与细粒度相结合的观点句抽取方法。粗粒度提取中，融合观点特征词、句法特征和依存特征进行提取;细粒度提取中，设计一种全新的CSR序列提取算法，并结合语义角色信息与CRF条件随机场进行提取;最后选取不同的特征组合，利用支持向量机SVM分类器，完成观点句的抽取工作。

著录项

作者
李路;
展开▼
作者单位

厦门大学;

展开▼
授予单位厦门大学;
学科软件工程
授予学位硕士
导师姓名赖永炫;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP391.43;
关键词
观点句抽取系统; 程序设计; 自然语言处理; 支持向量机;

相似文献

中文文献
外文文献
专利

1. 细颗粒度观点挖掘中的观点句识别与要素抽取研究综述 [J] . 陈锋 . 数字图书馆论坛 . 2015,第010期
2. 融入多特征的汉越新闻观点句抽取方法 [J] . 林思琦 ,余正涛 ,郭军军 . 中文信息学报 . 2019,第011期
3. 中文微博观点句识别及要素抽取研究 [J] . 王冠群 ,田雪 ,黄德根 . 数据采集与处理 . 2016,第001期
4. 不规范文本的无监督观点句抽取 [J] . 张文文 ,王挺 . 计算机与数字工程 . 2013,第001期
5. 基于语义自适应编码的汉-越伪平行句对抽取方法 [J] . 郭军军 ,田应飞 ,余正涛 . 中文信息学报 . 2021,第009期
6. 细颗粒度观点挖掘中的观点句识别与要素抽取研究综述 [C] . CHEN Feng ,陈锋 . 2015年第六届全国知识组织与知识链接学术交流会 . 2015
7. 基于集成学习的中文观点句抽取方法研究 [A] . 吕云云 . 2013

基于自然语言处理的观点句抽取系统设计

目录

摘要

著录项

相似文献

相关主题

期刊订阅