首页> 中文会议>2018年中国电影电视技术学会广播融媒技术专委会年会 >基于人工智能——自然语言处理标题党新闻识别方法研究

基于人工智能——自然语言处理标题党新闻识别方法研究

页面导航

摘要
著录项
相似文献
相关主题

摘要

标题党新闻识别算法是自然语言处理研究的重点方向,随着互联网技术的发展,在信息爆炸的时代背景下,该类问题已经成为当前读者面临的比较头疼的一个方向,河南广播网和手机APP内容面临的此类问题尤为突出.本文从自然语言处理的角度研究和探讨了基于主题提取分析的标题党识别算法和基于统计计算的标题党识别算法,提出了统计计算和潜在语义相融合的标题党识别算法,改进了标题党识别的正确率.标题党识别算法主要是包括基于词频统计的加权技术和基于潜在语义索引的两类算法.前者利用统计的手段方法,通过评估新闻标题中每个词汇在新闻正文和所有语料库中所占比例的大小来实现标题党识别.研究结果随着该词汇在文章中出现的次数和在整篇文章中所占的比例成正比例的增加,但同时会随着它在所有文档的语料库出现的频率成反比例减小,因此通过标题中词语占新闻中的重要程度判断该新闻是否是标题党新闻.后者通过提取与新闻标题相似的主题的句子和段落的比例的值,判断标题和新闻正文之间的相关性,通过和标题相似的句子的数量和该句子所在段落的数量来判断该文章是否为标题党.该结果随着与标题相似的句子和与标题相似句子的段落数的增加而成正比例增长,反之,随着在文章中相似的句子的数量减少和段落数的减少而减少.针对基于词汇统计计算TF-IDF值算法值的稀疏性和基于LSA潜在语义的句子段落算法值的难划分性,本文提出一种基于词频统计、LSA潜在语义分析相融合的一种方法,采用机器学习方式,通过将正文和标题的向量的计算结果作为特征工程的特征值及成为决策树算法的属性来进行标题党的识别,在准确率和召回率上都有了很大的提升,最终算法结果以准确率91％和召回率92％的值进行数据的识别.为进一步实现上述几种标题党识别算法存在的弊端、优点和缺点,本文以大量的标题党和非标题党新闻数据进行实验和展示,并对其进行分析和总结.

著录项

来源
《2018年中国电影电视技术学会广播融媒技术专委会年会》|2018年|14-31|共18页
会议地点郑州
作者
常智明; 张帅丛; 张浩; 侯艳君;
展开▼
作者单位

中国电影电视技术学会;

展开▼
会议组织
正文语种
原文格式 PDF
中图分类信息处理（信息加工）;
关键词
新闻识别; 主题提取; 词频统计; 潜在语义; 机器学习;

相似文献

中文文献
外文文献
专利

1. 基于NLP技术的“标题党”识别方法研究 [J] . 杨小峰 . 现代信息科技 . 2020,第020期
2. 基于NLP技术的"标题党"识别方法研究 [J] . 杨小峰 . 现代信息科技 . 2020,第020期
3. 初探网络新闻"标题党"问题:无奈,还是迎合?r——基于对新浪网新闻中心新闻排行榜的量化分析 [J] . 胡佳佳 ,李莎莎 . 新闻研究导刊 . 2016,第010期
4. 融合图片信息的“标题党”新闻识别研究 [J] . 杨林 ,丁继超 ,朱胜 . 图像与信号处理 . 2020,第003期
5. 基于语音识别及自然语言处理对话流的人机智能交互方法研究 [J] . 许士锦 ,范展滔 ,邱生敏 . 机械与电子 . 2021,第007期
6. 新闻视频中标题字幕的检测与识别 [C] . 刘丽丽 ,郭锋 ,吕凝 . 中国通信学会第五届学术年会 . 2008
7. 基于潜在语义分析的标题党新闻识别技术研究 [A] . 罗佳 . 2015

基于人工智能——自然语言处理标题党新闻识别方法研究

摘要

著录项

相似文献

相关主题

期刊订阅