重复数据
重复数据的相关文献在1989年到2022年内共计516篇,主要集中在自动化技术、计算机技术、信息与知识传播、工业经济
等领域,其中期刊论文111篇、会议论文4篇、专利文献561473篇;相关期刊74种,包括金融电子化、中国信息化、数字石油和化工等;
相关会议4种,包括2015中国计算机应用大会暨2015年大数据与物联网在工业中的应用会议、第19届全国信息存储技术学术会议、中国科学院声学研究所第四届青年学术交流会等;重复数据的相关文献由893位作者贡献,包括陈志丰、冯丹、周可等。
重复数据—发文量
专利文献>
论文:561473篇
占比:99.98%
总计:561588篇
重复数据
-研究学者
- 陈志丰
- 冯丹
- 周可
- 李柏晴
- 王桦
- 邓玉辉
- 刘威
- 周游
- 张攀峰
- 毛波
- 谢长生
- 谭玉娟
- 任彦璟
- 吴素贞
- 张小松
- 张程伟
- 徐小龙
- 晏志超
- 曹强
- 朱明胜
- 李经纬
- 王云松
- 王子骏
- 田磊
- L.阿罗诺维克
- 万胜刚
- 孙宪武
- 张巍
- 钟延辉
- A.托德
- P.T.坎布尔
- 刘志强
- 华宇
- 史豪斌
- 吴植民
- 夏文
- 尤涛
- 张兴军
- 张宗全
- 张鹏
- 朱国峰
- 朱洁
- 李春花
- 李玉猛
- 李进
- 杜承烈
- 杨晓东
- 杨祚儒
- 杨超
- 涂群
-
-
朱荣军
-
-
摘要:
针对目前重复数据批量剔除方法中提升压缩比和降低数据开销之间的矛盾,提出一种物联网感知信息采集过程重复数据批量剔除方法.首先将物联网感知信息采集数据文件组织作为数据位图的排列形式,结合滑动分块算法对系列形式进行更新,以列的形式读取数据信息,组成新的数据块.然后计算不同数据之间的相似度,通过量子粒子群优化算法优化BP神经网络,组建重复数据批量剔除模型,通过模型完成重复数据剔除.最后进行性能测试,实验结果表明,所提方法能够有效提升平均压缩比,降低平均时间开销和重复数据批量剔除错误率.
-
-
罗百飞
-
-
摘要:
财政惠农补贴资金涉及项目多、人数多、金额大,有时一个补贴项目就涉及上万个补贴对象,也存在舞弊风险。文章从财政惠农补贴资金发放实务操作入手,介绍了如何快速准确找出惠农补贴申报表中的异常数据、如何快速准确发放各项惠农补贴资金以及如何杜绝补贴资金发放过程中的舞弊行为,以期为财政惠农补贴资金发放实务操作提供参考。
-
-
杨美艳;
徐庆增
-
-
摘要:
传统方法在删除重复数据时逻辑顺序较为混乱,导致重复数据消除效果欠佳。为解决上述问题,基于文件路径,对信息集群中重复数据消除方法展开研究。根据重复数据消除方法分块理念与文件系统中的目录名称,探析文件路径的重复数据消除原理。通过分块筛选存储数据完成数据对比,从而去除数据备份并用指向唯一的实例指针代替。在界定元数据信息的基础上,对文件部分和数据块模块中的重复数据进行消除,并采用文件路径信息集群的多个存储节点来加快消除速度。同时,利用元数据信息赋予数据可恢复性能,确保数据的可靠性。仿真结果表明:上述方法不仅有效提升了对重复数据的消除效果,且消除过程时耗较短,具有高效性和可靠性。
-
-
郑雪;
张洪迪
-
-
摘要:
海盐县首创“浙企有数”应用,拆解整合相关数据,在进一步推动简政放权的同时,提高行政效率,推动数字化、网络化和智能化管理发展,为企业减负企业数据是一种重要战略资产,其深度应用有利于企业开展经营活动、推动国民经济发展。但在实际操作中,企业数据的归集与应用存在诸多问题,如政府层面存在多头统计难解决、数据质量难保证、数据信息难共享、数据安全难保障等难题,企业层面存在报表系统多、重复数据多、指标口径多、临时调查多、运行环境多等问题。
-
-
黄卫东;
黄异嵘;
李汶隆;
樊云
-
-
摘要:
从合并计算出发,分析了重复数据对最终结果的影响,充分考虑性能、效率、精度之间的折中,提出了基于“重复率”和“容斥原理”两种修正算法,在可接受的精度范围内为用户提供计算的实时响应,提升计算效率,改善用户体验。
-
-
-
-
摘要:
2021年我国工程机械营业收入突破9000亿元。经中国工程机械工业协会对全行业企业统计调查情况汇总,在扣除不可比因素、重复数据和非工程机械产业部分之后,2021年全行业实现营业收入9065亿元,同比增长17%。2022年1-6月,我国挖掘机累计销量143094台,同比减少36.1%。其中,国内销量91124台,同比减少53.0%;出口51970台。
-
-
李英
-
-
摘要:
层次化通信网络数据库拥有海量多维数据,但进行层次化通信网络数据库容灾备份的过程中没有删除重复数据,导致数据冗长占据空间,使RPO值与RTO值过高针对该问题提出基于链式描述符的层次化通信网络数据库容灾备份方法。通过写入链式描述符,优化传输过程;删除重复数据,精简备份对象;根据压缩算法,为通信网络数据库设计容灾备份方案。实验结果:所研究的备份方法进行数据备份恢复的模拟实验中,测试值比RPO目标值及RTO目标值分别快出10.3min及10h,获得较佳的数据库容灾备份效果。由于现代社会的网络技术和通信技术正在迅猛发展中,信息化程度越来越高,对数据的依赖程度逐渐增加.
-
-
高晶;
曹福凯;
闫明;
Muhd Khaizer Omar
-
-
摘要:
目前重复数据分级索引方法没有对数据进行预处理,存在分级效率低、准确率低和相似数据提取率低的问题.提出信息相似性下网络对抗文本重复数据分级索引方法.方法首先构建出向量空间模型,将所有文本转换成互联网可识别的特定模式,并算出数据特征项及其权重以此将数据进行一个简单分类,并利用编辑距离法详细计算出特征项之间的相似度,最终利用朴素贝叶斯分类器经过重重训练,实现重复数据分级索引.实验结果表明,信息相似性下网络对抗文本重复数据分级索引方法的分级效率较高,准确率较高,相似数据提取率高.
-
-
-
-
摘要:
国家医保局、财政部、国家税务总局日前发布《关于加强和改进基本医疗保险参保工作的指导意见》(以下简称《意见》)。《意见》提出深入实施全民参保计划,自2021年参保年度起,全国参保信息将实现互联互通、动态更新,可实时查询。《意见》要求各级医疗保障部门要完善与本地区公安、民政、人力资源和社会保障、卫生健康、市场监管、税务、教育、司法、扶贫、残联等部门的数据共享交换机制,加强人员信息比对和共享,核实断保、停保人员情况,精准锁定未参保人群,形成本地区全民参保计划库。《意见》明确要有针对性地加强重点人群特别是困难人群参保缴费服务,改进参保薄弱环节服务;依托全国医疗保障信息平台基础信息管理子系统参保功能模块,清理无效、虚假、重复数据,实时识别参保人参保缴费状态,提升参保质量。
-
-
樊哲宁;
杨秋辉;
翟宇鹏;
万莹;
王帅
-
-
摘要:
随着数据分析研究的兴起,数据预处理越来越得到研究者的重视,其中缺失数据填补问题的重要性也逐渐显现.在ROUSTIDA数据补齐算法的基础上,针对具有关键属性的重复数据的特点,文中提出了一种改进的ROUSTI-DA算法——Key&Rpt_RS算法.Key&Rpt_RS算法继承了ROUSTIDA算法的优势,同时考虑了目标数据的重复性特点,分析了关键属性对填补效果的影响,得到了更加准确且有效的填补结果.
-
-
周丹;
刘波
- 《第19届全国信息存储技术学术会议》
| 2013年
-
摘要:
随着数字信息的爆炸式增长,所存在的重复数据越来越多,造成了存储系统资源的极大浪费.重复数据删除技术的出现在很大程度上缓解了该问题,该技术也得到了越来越广泛的认可.综合地介绍重复数据删除技术的概念和作用,探讨重复数据删除技术的分类,并介绍了其应用情况,包括数据备份系统,归档存储系统,远程灾备系统等方面。
-
-
脱立恒;
倪宏
- 《中国科学院声学研究所第四届青年学术交流会》
| 2012年
-
摘要:
网络数据重复数据删除是一种通过去除网络数据包中重复数据片段,提高网络传输效率的方法,重复数据删除中块选择算法是选出重复数据块的核心,本文在分析各种块选择算法的基础上,提出了一种基于动态查找表的重复数据删除的算法-DYNATABLE,该算法实时统计以不同字节值开头的数据块的重复率,并以重复率高的字节值作为标识更新查找表,数据块选择算法根据查找表中的标识选择数据块,由仿真实验得出,DYNATABLE比其他块选择算法带来更高的字节节省。
-
-
Fan Qihong;
范启鸿;
Wang Yongli;
王永利
- 《2015中国计算机应用大会暨2015年大数据与物联网在工业中的应用会议》
| 2015年
-
摘要:
在大数据时代,现代企业需要存储的数据越来越多,然而研究表明,各种应用系统中存储的电子数据存在平均约60%的重复数据,并且随着时间的推移不断增长.重复数据删除技术应运而生,并且已经在业界得到了较好的应用.然而在实现数据块级别的重复数据删除过程中,索引的查找匹配是影响整体存储系统性能的瓶颈问题.基于此,提出了一种并行的重复数据删除系统模型,采用流水线的方式来部署整个重复数据删除系统,根据指纹前缀区分不同的数据块,将数据块部署到相应的存储节点,提高了系统的可扩展性,实验表明系统的吞吐率得到了提高.
-
-
-
-
-
-
-
-
-
- 大连海事大学
- 公开公告日期:2022-01-07
-
摘要:
本发明提出了一种空间大数据分区重复数据的剪枝方法,该剪枝方法可以内置在分布式空间大数据查询系统中并无需对候选结果执行细化操作。包括以下步骤:首先读取空间大数据的分区信息pi,得到每个分区数据覆盖的空间最小边界矩形ri,将ri与空间查询矩形窗口q做交运算,得到每个分区的查询范围si;其次,对si和sj(i≠j)做交运算,得到分区查询范围si和sj之间的重叠矩形区域si∩sj=sij,引入参照点reference_point,通过reference_point决定区域sij的归属分区,返回pi和pj去重后的查询范围tri和trj,形式为<pi,tri>;然后,对同一分区p下的tr执行交运算,得到p的最终查询范围;最后,将每个分区的最终查询范围作为新的约束条件对分区数据进行剪枝,得到的查询结果即为最终结果。
-
-
-