首页> 中文会议>全国第八届计算语言学联合学术会议 >基于特征句抽取的网页去重研究

基于特征句抽取的网页去重研究

页面导航

摘要
著录项
相似文献
相关主题

摘要

去除重复网页一直是信息检索领域的一个待解决的问题.本文基于双语文章的内容,提出了一种抽取特征词和特征句,判别跨语言重复网页的方法.并将其运用到了跨语言的重复网页的识别上.实验结果表明:该方法对双语重复网页的识别准确率在86％以上,对单语重复网页的识别准确率在97.5％以上,达到了实用的程度,同时,该方法对于双语平行语料的自动挖掘也有一定的帮助.

著录项

来源
《全国第八届计算语言学联合学术会议》|2005年|508-513|共6页
会议地点南京
作者
彭渊; 赵铁军; 郑德权; 于浩;
展开▼
作者单位

中国中文信息学会;

中国计算机学会;

中国人工智能学会;

北京市语言学会;

展开▼
会议组织
正文语种
原文格式 PDF
中图分类文献检索;计算机网络;
关键词
网页去重; 特征词; 特征句; 跨语言;

相似文献

中文文献
外文文献
专利

1. 基于特征码的网页去重算法研究 [J] . 王哲 . 山东广播电视大学学报 . 2009,第001期
2. 一种基于文本抽取的网页正文去重算法 [J] . 曹传东 ,郭理 . 科技信息 . 2009,第001期
3. 基于特征串的网页文本并行去重算法 [J] . 谢瑶兵 . 微电子学与计算机 . 2015,第2期
4. 一种基于特征向量的改进DSC网页去重算法 [J] . 徐朝辉 ,赵淑梅 ,闫付亮 . 科学技术与工程 . 2013,第008期
5. 一个基于特征向量的近似网页去重算法 [J] . 曹玉娟 ,牛振东 ,彭学平 . 中国索引 . 2009,第001期
6. 一个基于特征向量的近似网页去重算法 [C] . 曹玉娟 ,牛振东 ,彭学平 . 中国索引学会第三次全国会员代表大会暨学术论坛 . 2008
7. 基于特征码的大规模中文网页并行去重方法 [A] . 辛聪 . 2008

基于特征句抽取的网页去重研究

摘要

著录项

相似文献

相关主题

期刊订阅