普适环境下轻量级垂直搜索中数据挖掘理论研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

在追求“以人为本，如影相随”普适环境下，由于人所携移动设备、手持设备及提供普适计算服务环境的特殊性，给传统垂直搜索带来了新挑战。在诸多的挑战中，针对适合普适计算环境下的轻量级垂直搜索，我们选择了垂直搜索必须的分类理论以及推荐理论展开了研究。在分类理论中，研究围绕分类理论两个重要的问题展开:如何寻求一种优秀的特征提取方法和探索出能适合普适计算应用的分类器算法。而在推荐理论中，针对普适计算需求实时响应的特点，侧重于能提高推荐精度而又能提高其推荐速度的推荐算法的研究。其主要贡献体现在以下几个方面:
　　 1)针对传统潜在语义LSI(Latent Semantic Indexing)降维模型，提出了一种奇异值矩阵的调整算法。我们推荐的基于该算法的LSI降维公式，给奇异值矩阵一个正强化形式的权重。因为运用雅克比定理，我们能揭示出，赋予反强化形式权重的传统降维公式会过早出现性能下降，在高维上降维性能差，这些缺点源自于Lanczos近似算法不精确性。我们的调整算法能有效地降低反强化形式权重带来的冲击。同时，我们运用雅克比定理展现出，现存的多种降维公式，可以归结到如何去选择SVD空间下的一个向量，从而消除了不同LSI降维公式以及不同解释带来的疑惑。三个测试集上测试结果表明，在不增加计算复杂度前提下，调整算法不仅可以提升传统LSI降维公式在文本分类上的性能，而且我们建议的LSI降维公式在性能也能超过最新算法SVR(Singular Value Rescaling)。
　　 2)提出了一种高性能的快速降维理论—不精确谱系分析。该降维仿效单边雅克比(Jacobi)算法模型，根据一个向量的模值，来对一个原始矩阵进行排序，然后按照模值大小，直接选择近似矩阵来替代原始矩阵，原空间下一向量直接与近似矩阵相乘，得到降维的向量。运用支持向量机，通过简单的推理，我们发现，不精确谱系分析在降维功能上等价于潜在语义分析(LSI)中的一个降维公式。我们实验验证了该LSI降维公式在降维中的可行性，从而也验证了不精确谱系分析在理论上的可行性。而且，我们给出该方法降维带来的误差。三个测试集上的测试结果一致表明，不精确谱系分析极快的降维效果可以达到或超过经典LSI降维公式。
　　 3)提出一种基于错误反馈和调整的推荐算法。我们将向错误学习的方法引入协同过滤（Collaborative Filtering）领域，用于改进最基础的推荐算法。在行推荐算法UPCC(User-based Pearson Correlation Coefficient)中，我们引入并定义预测误差，根据UPCC实际值和预测值的差值作为一个用户预测误差。我们用列推荐算法IPCC(Item-based Pearson Correlation Coefficient)来预测一个用户的习惯性的偏差。在实际使用UPCC预测用户在一个项目(Item)上的偏好时，我们用预测值减习惯性偏差，得到最后的用户可能偏好。四个测试集的测试结果一致表明，用户提供的样例数目超过五个时，预测一个用户习惯性偏差可以有效补偿UPCC预测方法本身不精确的缺陷。
　　 4)提出了一种有偏放大法用于提升列推荐算法(IPCC)的推荐精度。在列推荐算法(IPCC)上试图使用个例放大法(Case Amplification)时，我们发现，当只有一个项(Item)时，传统的个例放大法会给仅有的一个项过多的权重(100％)，去预测用户在其他项上的偏好。这样反而会降低列推荐算法(IPCC)推荐的精度。导致推荐精度降低的原因是在分子和分母上放上同等权重值。我们提出的有偏放大法保持分子和分母不同放大权重，来克服这一缺点。同时，我们引入用户的样例数目作为一个调节器，由调节器来自动分配预测公式中分子和分母的放大权重，当用户的样例数目很少时，有偏放大法将降低现有样例的依赖，当用户提供的样例相对较多时候，有偏放大法能自动调整权重，增加对于用户提供样例的依赖。四个测试集的测试结果表明，我们在可以不增加IPCC计算负担的基础上，有效地提高IPCC算法的推荐精度。
　　 5)提出了一种半稠密法来加速支持向量机训练和分类速度和推荐算法的推荐速度。我们发现并能揭示，目前最新的两个向量对比的稀疏算法存大量在重复遍历的场景。我们提出半稠密算法来克服重复遍历的缺陷:将被选择的稀疏向量先就近稠密化，然而保持其他稀疏向量的稀疏性。在进行批次对比过程中，重复遍历被选择稀疏向量的缺陷被就近的稠密化向量所解决，重复判断的缺陷也由此解决。半稠密法被用在线程加速上。针对半稠密法的特点，我们包装了一个线程池，用于多线程间加速。而在进程级别上，我们采用读取共享压缩文件的方法取代消息传递。我们选择被业界认同很耗时的列推荐算法(IPCC)作为加速对象，在四个测试集上，加速效果很好。
　　在垂直搜索上的实践表明，我们提出的挖掘理论能有效地服务于实践。

著录项

作者
管虎;
展开▼
作者单位

上海交通大学;

展开▼
授予单位上海交通大学;
学科计算机体系结构
授予学位博士
导师姓名过敏意;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
特征提取; 文本分类; 轻量级垂直搜索; 半稀疏算法; 不精确谱系分析; 有偏放大; 数据挖掘理论;

相似文献

中文文献
外文文献
专利

1. 普适教育环境下微课在3DS MAX课程教学中的运用 [J] . 莫洁美 . 西部素质教育 . 2019,第011期
2. 普适环境下射频识别技术在图书馆中的应用 [J] . 许强 . 图书馆学刊 . 2010,第001期
3. 普适环境下的信任管理及其在移动服务中的应用 [J] . 王益涵 ,陶莉 ,曹奇英 . 计算机工程与设计 . 2006,第008期
4. 普适教育环境下3DS MAX微课教学改革研究 [J] . 文晨 . 艺术科技 . 2016,第006期
5. 普适环境下基于区间值模糊理论的指纹定位算法 [J] . 钱梦竹 ,杨新凯 . 上海师范大学学报（自然科学版） . 2014,第002期
6. 普适环境下智能监护系统原型研究 [C] . 傅川 ,蒋巍巍 . 第十二届全国医药信息学大会 . 2011
7. 在增益半导体中TDFWM-IL普适信号强度的理论研究 [A] . 高深 . 2013

普适环境下轻量级垂直搜索中数据挖掘理论研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅