首页> 中文会议>第一届全国信息检索与内容安全学术会议 >基于n-gram相邻字的中文文本特征提取算法

基于n-gram相邻字的中文文本特征提取算法

页面导航

摘要
著录项
相似文献
相关主题

摘要

文本特征提取是指从文本中提取有代表性的词作为特征,由于中文的特殊性,预先分词是中文文本的特征提取的关键步骤.本文在基于Apriori的中文特征提取算法上进行了改进,提出了一种以n-gram相邻字为分词线索的中文文本特征快速提取方法,使词典无关的中文分词和特征提取的速度大大提高.本文对新算法的正确性进行了证明,并通过试验验证了这种算法的性能和速度方面的优势.

著录项

来源
《第一届全国信息检索与内容安全学术会议》|2004年|27-32|共6页
会议地点上海
作者
王晔; 黄上腾;
展开▼
作者单位

中国中文信息学会;

展开▼
会议组织
正文语种
原文格式 PDF
中图分类文字信息处理;文字处理软件;
关键词
特征提取; 中文分词; 中文文本;

相似文献

中文文献
外文文献
专利

1. 基于竞争学习网络的中文关键字提取算法 [J] . 沈学利 ,程宇伟 . 计算机工程 . 2013,第002期
2. 基于相邻字对信息的中文文档分类研究 [J] . 周水庚 ,俞红奇 ,胡江滔 . 小型微型计算机系统 . 2001,第004期
3. 基于NewTF-IDF的新闻文本特征提取算法研究 [J] . 黄敏 ,闫思贤 . 湖北民族学院学报（自然科学版） . 2021,第002期
4. 基于NewTF-IDF的新闻文本特征提取算法研究 [J] . 黄敏 ,闫思贤 . 湖北民族大学学报：自然科学版 . 2021,第002期
5. 基于改进的TF-IDF文本特征词提取算法研究 [J] . 贾强 ,冯锡炜 ,王志峰 . 辽宁石油化工大学学报 . 2017,第004期
6. 一种基于统计信息的无字典中文文本特征提取算法 [C] . 齐攀 ,陈晓云 . 全国搜索引擎和网上信息挖掘学术讨论会 . 2003
7. 基于文本特征提取算法的旁路监控系统设计与实现 [A] . 吕建军 . 2005

基于n-gram相邻字的中文文本特征提取算法

摘要

著录项

相似文献

相关主题

期刊订阅