缺失数据
缺失数据的相关文献在1983年到2022年内共计837篇,主要集中在自动化技术、计算机技术、预防医学、卫生学、经济计划与管理
等领域,其中期刊论文563篇、会议论文13篇、专利文献547066篇;相关期刊313种,包括统计与信息论坛、吉林师范大学学报(自然科学版)、兰州理工大学学报等;
相关会议11种,包括第十届海峡两岸心理与教育测验学术研讨会暨全国教育与心理统计测量学术年会、The 2011 International Conference on Education Science and Management Engineering(ESME2011)(2011年教育科学与管理工程国际学术会议)、第十三届中国管理科学学术年会等;缺失数据的相关文献由1957位作者贡献,包括赵志文、罗双华、秦永松等。
缺失数据—发文量
专利文献>
论文:547066篇
占比:99.89%
总计:547642篇
缺失数据
-研究学者
- 赵志文
- 罗双华
- 秦永松
- 金勇进
- 刘银萍
- 庞新生
- 李英华
- 薛留根
- 冯健
- 刘星毅
- 刘金海
- 张化光
- 徐晓岭
- 李磊
- 童楚东
- 马大中
- 刘强
- 文吉刚
- 杨艳秋
- 谢鲲
- 付志慧
- 刘锋
- 刘鹏
- 卢森骧
- 吴迪
- 周鑫
- 康新梅
- 张利
- 张成毅
- 张磊
- 张香云
- 朱莹
- 李丽颖
- 李乃医
- 李宁
- 李建丽
- 李肯立
- 来赟冬
- 汪刚
- 王涛
- 王莉
- 王骏
- 胡锡健
- 赵培信
- 郑李玲
- 郭鹏江
- 黎玲
- 龙兵
- 于力超
- 于新龙
-
-
宋枝璘;
郭磊;
郑天鹏
-
-
摘要:
数据缺失在测验中经常发生,认知诊断评估也不例外,数据缺失会导致诊断结果的偏差。首先,通过模拟研究在多种实验条件下比较了常用的缺失数据处理方法。结果表明:(1)缺失数据导致估计精确性下降,随着人数与题目数量减少、缺失率增大、题目质量降低,所有方法的PCCR均下降,Bias绝对值和RMSE均上升。(2)估计题目参数时,EM法表现最好,其次是MI,FIML和ZR法表现不稳定。(3)估计被试知识状态时,EM和FIML表现最好,MI和ZR表现不稳定。其次,在PISA2015实证数据中进一步探索了不同方法的表现。综合模拟和实证研究结果,推荐选用EM或FIML法进行缺失数据处理。
-
-
陈晓;
刘长华;
刘志亮;
王旭;
王春晓;
贾思洋
-
-
摘要:
保障长期连续的数据完整性和质量可靠性是进行浮标数据应用的首要问题。本文基于中国科学院近海观测研究网络黄海站位于北黄海长海县附近海域的五套浮标于2010~2019年连续10 a采集到的海洋表层温盐数据,进行数据分析与处理方法的研究。为了辨识原始温盐数据中的异常值,综合运用极值法、拉依达准则和箱型图法给出适合温盐的异常数据分析与处理方法,并基于2σ原则和箱型图法修正了温盐界限。为了解决温盐数据的缺失问题,提出SoftImpute与IterativeImpute相结合的插补方法,有效降低了温盐数据的标准差。研究结果表明,采用本文的方法可有效消除异常和插补缺失,修正数据中的异常点,得到连续、平滑、具有显著年际变化特征与趋势的温盐数据分析曲线,也可增加对该海域海洋温盐特征、变化规律和发展趋势等的深入理解,为海上现场观测数据处理提供借鉴,并为后续应用研究提供更高质量的数据。
-
-
赵若男;
苏同生;
宋瑞;
何丽云;
宋虎杰;
王启桢;
吕晓颖
-
-
摘要:
目的评价多重插补法拟合中风队列研究量表缺失数据的效果,为今后开展相关临床研究提供方法学支撑。方法选取2017年1月-2020年12月陕西省5所三级甲等医院实施的多中心、前瞻性队列研究中的400例中风患者数据。应用R4.0.1软件分析美国国立卫生研究院卒中量表(NIHSS)、日常生活能力量表(ADL)、Fugl-Meyer运动功能评分量表(FMAS)、汉密顿抑郁量表(HAMD)和汉密顿焦虑量表(HAMA)的数据缺失特征;选取最优多重填补方法,采用SAS 9.4拟合缺失数据;通过标准误和95%置信区间(CI)宽度比较多重插补法与删除法的数据结果,评价多重插补法的填补效果。结果所有量表的数据缺失比例均小于20%,均为任意缺失模式,其中NIHSS为完全随机缺失机制,其余量表均为随机缺失机制。故选取马尔科夫链蒙特卡罗法(MCMC)作为最优多重填补方法。相较于删除法,MCMC产生更小的标准误及更窄的95%CI宽度,可更有效利用其他信息预测缺失数据并提高数据的利用率。结论通过应用多重填补的方法处理量表数据缺失后可有效提高中医综合方案治疗中风队列研究数据的利用率,减少浪费,使统计结果最大程度接近真实测量情况,同时提高研究数据完整性,进一步提升数据质量。
-
-
张巍巍;
萨如拉;
冯三营
-
-
摘要:
本文研究协变量随机缺失下异方差半参数变系数模型约束估计问题.首先在完全数据情形下,利用profile最小二乘方法构造模型参数和非参数分量的约束估计量;其次利用非参数核估计方法构造方差函数的约束估计量;随后基于逆概率加权法和加权profile最小二乘法构造模型参数和非参数分量的自适应逆概率加权profile最小二乘约束估计量;最后在一定正则条件下证明自适应逆概率加权profile最小二乘约束估计量的渐近性质,并通过蒙特卡洛数值模拟验证有限样本表现.
-
-
陈小杰
-
-
摘要:
传统k近邻填补算法中k个最近邻数据的权重分布不稳定且忽略了属性相关性,针对此问题,文章提出了一种基于k近邻填补算法的优化算法,在基于三阶明考夫斯基距离的基础上,对k个近邻数据采用了基于熵权法的权重系数,然后利用PCA算法原理考虑相关属性影响,得到属性影响因子。最终的填补值即为优化权重后的k-近邻填补算法与最后影响因子的和。构造缺失后,能有效得到填补值。实证表明,改进后的算法均方根误差为0.25,填补值最接近真实值,优于传统的k-近邻填补算法(均方根误差0.44)和普通加权的k-近邻填补算法(均方根误差为0.30)。
-
-
黄成章;
顾冲时;
何菁
-
-
摘要:
针对混凝土坝变形监测数据缺失使大坝服役状态分析困难甚至引起误判的问题,基于聚类和面板数据理论,提出了一种考虑时间和截面两种维度的混凝土坝变形监测缺失数据处理新方法。该方法兼顾了影响大坝变形的共同因素和特异因素,与传统方法相比,能更加全面地反映荷载和非荷载因素对大坝结构性能的影响,对大坝变形监测缺失数据的处理更加有效。某混凝土双曲拱坝变形监测缺失数据处理验证结果表明,该方法预测残差值低于SL 601—2013《混凝土坝安全监测技术规范》所规定误差限值,具有较高的精度,可对变形监测缺失数据进行有效处理。
-
-
朱荣慧;
许金芳;
王睿;
吴骋
-
-
摘要:
在医学研究数据采集与获取过程中,经常会碰到缺失值。例如,创新药开发临床试验中,导致缺失值的原因可能有受试者失访、或受试者由于不良事件、对干预措施的不耐受或缺乏疗效等原因中途退出试验[1]。缺失值不仅会给统计分析和结果解释带来挑战,而且可能会对临床试验结果造成偏倚,使其代表性和真实性受到影响[2]。对于缺失值处理的问题,欧洲药品管理局于2010年发布了《确证性临床试验中缺失数据处理指南》[3]。
-
-
赵志文;
高敏
-
-
摘要:
随机系数自回归模型能够较好地描述模型系数随时间变化的特性,因此得到了广泛应用。文章讨论具有缺失数据的随机系数自回归模型的参数估计问题,在缺失数据情形下给出了四种模型参数估计方法:无数据填充条件最小二乘法、均值填充法、条件均值填充法以及桥填充法。最后,通过随机模拟说明了上述估计方法的精确性,并给出了应用实例。
-
-
-
王敏会
-
-
摘要:
在部分数据缺失情形下,研究混合几何分布总体参数的矩估计,证明了此估计量的强相合性及其渐近正态性质.通过随机模拟,给出不同样本容量下总体参数估计的均方误差,模拟结果显示均方误差较小,说明此方法具有可行性.
-
-
-
-
张香云
- 《第十三届中国管理科学学术年会》
| 2011年
-
摘要:
本文以贝叶斯原理为理论依据,对于有缺失数据的混合模型,用EM算法推导了参数估计迭代公式。并以文献[13]中的数据建立混合模型。通过计算机模拟,得到了缺失10%,30%,50%时参数的估计结果,并把得到的结果与线性模型下三种方法的估计结果做了比较分析。
-
-
-
-
-
刘鹏;
雷蕾
- 《2005第一届中国分类技术与应用研讨会(CSCA)》
| 2005年
-
摘要:
缺失数据处理是数据挖掘过程中数据预处理的一个重要内容.介绍了缺失数据的产生机制和处理准则以及目前流行的缺失数据处理方法,提出了基于朴素贝叶斯分类器的缺失数据处理模型.通过实验分析与比较,以及在一个真实的健康医疗数据集上的实际应用,证明所提出的缺失数据处理模型是健壮有效的。
-
-
管河山;
姜青山;
Steven X.Wei
- 《第二十一届中国数据库学术会议》
| 2004年
-
摘要:
目前统计学上研究抽样调查时产生的缺失数据主要从减少误差入手,但对于含大量的缺失数据的数据集而言,就难以得到理想的估计效果.而对于许多含有缺失数据的数据集,统计学中处理这些数据集的方法主要有演绎估计、随机插补法、线性回归、聚类分析(均值插补法)及多重插补(MI)等方法.本文主要是介绍一种新的处理缺失数据的插补方法,它结合了回归分析和聚类分析的优点,能处理多种领域的数据.文中对数据集的处理都采用矩阵形式.
-
-
刘强
- 《2008第四届海峡两岸应用统计学术研讨会》
| 2008年
-
摘要:
考虑了解释变量带有测量误差,响应变量随机缺失情形下的非线性EV模型.通过利用核实数据,构造了响应变量均值θ的调整的经验对数似然比统计量.证明了所构造的经验似然比统计量渐近于标准X2分布,所得结果可以用来构造未知参数的置信区间.
-
-
刘强
- 《2008第四届海峡两岸应用统计学术研讨会》
| 2008年
-
摘要:
考虑了解释变量带有测量误差,响应变量随机缺失情形下的非线性EV模型.通过利用核实数据,构造了响应变量均值θ的调整的经验对数似然比统计量.证明了所构造的经验似然比统计量渐近于标准X2分布,所得结果可以用来构造未知参数的置信区间.