首页> 中文学位 >基于增量学习和阈值优化的自适应信息过滤
【6h】

基于增量学习和阈值优化的自适应信息过滤

代理获取

目录

文摘

英文文摘

独创性说明及大连理工大学学位论文版权使用授权书

1绪论

1.1信息过滤研究的背景

1.2信息过滤的概念,分类和评测

1.3自适应信息过滤

1.4研究的现状和当前研究的重点

1.4.1国内外研究的现状

1.4.2研究的技术路线

1.4.3当前研究中的难点和重点

1.5论文的重点和研究方法

1.5.1研究重点

1.5.2研究方法

1.6本文所做的具体工作

1.7论文的组织

2自适应信息过滤

2.1自适应信息过滤概念和特点

2.1.1自适应信息过滤概念

2.1.2自适应信息过滤的特点

2.2自适应信息过滤模型

2.2.1布尔模型

2.2.2向量空间模型

2.2.3概率模型

2.2.4其他模型

2.3自适应信息过滤新模型

2.4自适应信息过滤流程

2.5 TREC信息过滤任务与评测

2.5.1 TREC信息过滤任务

2.5.2信息过滤评测

3自适应信息过滤训练

3.1信息的预处理和特征选取

3.1.1 web网页文本信息的抽取

3.1.2特征的提取

3.1.3特征项的向量化

3.2过滤模板(Profile)的训练

3.2.1初始模板的建立

3.2.2伪相关反馈学习

3.2.3需求模板(profile)的训练

4自适应信息过滤测试

4.1自适应信息过滤的阈值优化

4.1.1阈值自适应调整方法简介

4.1.2一种新的阈值自适应调整方法

4.1.3文档相关信息的判定策略

4.2用户反馈的阈值自适应调整

4.3用户反馈的模板自适应调整

4.3.1模板向量的调整

4.3.2模板特征的学习

5实验结果与分析

5.1系统平台和语料来源

5.2实验结果分析

5.2.1训练集上两种伪相关反馈学习方法实验

5.2.2增量学习伪相关反馈中两种特征选择方法试验

5.2.3测试集上阈值调整的试验

5.2.4测试集上用户反馈模板调整的实验

5.2.5系统整体性能比较实验

5.3实验总结

5.4下一步的工作和目标

结 论

参考文献

附录A Html文档标签及其权重

附录B单次反馈学习与增量学习在训练集上实验数据

附录C增量学习中两种特征选择方法实验数据

附录D单次反馈与增量学习测试集上实验数据

攻读硕士学位期间发表学术论文情况

致 谢

展开▼

摘要

本文的主要工作就是研究自适应信息过滤中提高模板准确性的学习算法和过滤阈值优化的新方法。 给出了一种改进的自适应信息过滤模型,该模型将统计模型(向量空间模型)与概率方法(贝叶斯方法)相结合,通过在向量空间模型中对信息文本与用户需求进行向量表示和相似度计算来实现信息过滤。在需求模板的学习中运用向量中值法来构建初始的需求模板,通过增量学习伪相关反馈信息来提高需求模板的准确性。在过滤过程中以用户反馈信息为先验知识和训练数据,运用高斯指数分布和贝叶斯方法来推测文档的相关性概率,以线性效用函数最优为目标探测最优的过滤阈值。 在模型的训练阶段,给出了运用增量学习方法对附加的少量伪相关文档进行学习来训练需求模板的算法,采用文档词频方法来选择特征,运用Rocchio算法调整特征向量,以此提高过滤模板的准确性;在模型的测试阶段,以过滤系统效能函数最优为目标,给出了探索最优的过滤阈值的新算法。运用Rocchio算法实现系统自主地学习用户定期反馈的信息,并自适应地调整需求模板。 将该模型运用于自建的中文语料上进行相关主题的过滤测试实验,实验结果表明,利用增量学习方法和阈值优化策略,在较少的用户监督下能够有效地提高系统的过滤性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号