一种应用于Deep Web环境下的重复记录识别模型

朱命冬; 申德荣; 寇月; 聂铁铮; 于戈

首页> 中文期刊> 《计算机研究与发展》 >一种应用于Deep Web环境下的重复记录识别模型

一种应用于Deep Web环境下的重复记录识别模型

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

随着Web数据库数量和其蕴含数据量飞速的增长,对Deep Web数据的集成越来越成为研究领域关注的问题.然而由于Web上的信息以半结构化及无结构化的数据信息居多,导致了抽取的结果中包含诸多的不确定性.如有噪音数据、重复字符、简写与全称混合等问题.这给识别重复记录带来了很大不便,导致传统的去重算法无法达到很好的效果.为此,提出了一种面向deep Web结果整合的重复记录识别模型.在该模型中,提出了一种基于编辑距离的改进算法,基于该算法实现字符串匹配;通过构建属性匹配图,并采用二次确认机制实现识别重复记录.应用该模型,既提高了识别效率又保证了识别精确度,并通过实验证明了提出的算法和模型的可行性.

著录项

来源
《计算机研究与发展》 |2009年第z2期|389-396|共8页
作者
朱命冬; 申德荣; 寇月; 聂铁铮; 于戈;
展开▼
作者单位

东北大学;

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
深层网; 编辑距离; 重复记录;

相似文献

中文文献
外文文献
专利

1. 一种电子鼻识别模型应用于多味酱油酿造分析 [J] . 刘彦平 ,王磊 ,谢健 . 中国调味品 . 2019,第006期
2. 一种应用于Deep Web数据集成系统中的查询松弛策略 [J] . 申德荣 ,马也 ,聂铁铮 . 计算机研究与发展 . 2010,第001期
3. 一种应用于Deep Web结果页面中分页标签的识别方法 [J] . 孙高尚 ,申德荣 ,于戈 . 小型微型计算机系统 . 2010,第004期
4. 一种使用双阈值的数据仓库环境下重复记录消除算法 [J] . 洪圆 ,孙未未 ,施伯乐 . 计算机工程与应用 . 2005,第001期
5. 一种应用于Deep Web环境下的重复记录识别模型 [C] . 朱命冬 ,申德荣 ,寇月 . NDBC2009第26届中国数据库学术会议 . 2009
6. Deep Web数据源下重复记录识别模型的研究 [A] . 刘丽楠 . 2008

一种应用于Deep Web环境下的重复记录识别模型

摘要

著录项

相似文献

相关主题

期刊订阅