聚类分析中的相似性度量及其应用研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

在机器学习研究中，聚类作为一种无监督学习方式，得到了来自统计学、计算机科学等领域研究者的广泛关注，它不但是数据挖掘的重要组成部分，也是模式识别领域中备受关注的基础问题。在聚类分析中，数据元素是按照相互之间的相似性进行分类的。聚类的目标就是最大化同类数据元素之间相似性的同时，最大化不同类数据元素之间的差异性。并且，由于聚类的无监督特性，对于聚类结果合理性的判断也是需要探讨的课题。综合来看，聚类分析涉及到三类相似性度量，即数据对象之间的相似性、类对象之间的相似性以及不同聚类结果之间的相似性。因此，采用聚类分析方法来完成图像处理任务时，相似性度量是其中的关键问题。
　　本文首先对聚类分析的概念、处理过程、算法分类、相似性度量问题以及聚类在图像处理中的应用作了简要概述。然后本文以信息论中的经典理论为依据，从信息的角度分别对聚类分析中三类相似性度量问题进行了探讨，并针对图像处理中的几类问题，即图像聚类、轮廓编组、图像过分割的处理以及图像分割的评估，验证了所提出方法的合理性和有效性。本文的主要创新点简要概括为:
　　第一，数据对象之间的相似性度量之一——采用Bregman散度处理复杂数据对象的相似性度量。在对图像数据进行相似性度量时，需要同时考虑两方面的问题，即如何对图像数据进行表示，以及采用何种度量方法评价两个图像数据对象之间的相似程度。本文提出在信息瓶颈理论框架下，将“词袋”模型的图像表示与Bregman散度度量相结合，实现了更具有语义信息的图像内容聚类。该方法概括来说有以下三个特点:采用“词袋”模型的图像表示可以利用多种先进的特征提取算法（如各种兴趣点检测技术）捕捉到图像中更丰富的内容信息，并产生基于视觉单词的特征分布;根据信息瓶颈理论，图像聚类的目标是使得聚类后图像变量与特征变量之间的互信息损失量最小;采用Bregman散度聚类算法最小化互信息损失量，算法步骤与k-means相似，且Bregman算法中的KL距离对应着k-means算法中的欧氏距离。
　　第二，数据对象之间的相似性度量之二——利用数据对象之间的多元相似性关系提高聚类算法的抗干扰能力。对于用聚类方法来进行轮廓编组，我们提出在基于信息的聚类方法的框架下，通过多特征编组线索来计算数据对象之间的“集合相似度”，而不再限于二元相似性度量值，得到的度量量值也称为多特征相似度或多元相似度。然后，我们将多元相似度值作为输入，用信息聚类的方法来对边缘特征进行编组。实验结果表明，相对于二元相似度，基于多元相似度的轮廓编组质量在相同误差或干扰条件下（如存在特征描述误差及背景噪声数据）有明显的提高。
　　第三，类对象之间的相似性度量——提出将信息学习理论中定义的信息势和Renyi“交叉”熵用于聚类中子类间的相似性度量。对于一些容易产生过分割的算法，我们可在初始分割的基础上，根据类间信息熵的大小，采用聚合迭代的方法得到层次化的聚类结构。实验结果显示，在几种具有代表性的人造数据集上，基于信息熵的类间距离度量方法比三种传统度量方法（单联接、完全联接和平均联接）有更好的层次化聚类效果。此外，我们测试了在图像过分割的情况下，类间信息熵对于子分割区域的合并效果。
　　第四，不同聚类结果之间的相似性度量——扩展传统的正则化互信息度量指标，使其应用于算法聚类结果与多个标准聚类结果进行比较的情况。在实际应用中，对于某一幅图像，人为标定的标准分割结果通常不是唯一的，不同的测试对象会根据主观经验得出不同粒度等级下的分割结果。为了体现分割结果的不确定性和多样性，充分利用人为标定的分割信息，聚类结果之间的相似性度量应扩展为可处理包含多幅标准分割图像的情况，因此我们提出了一种基于信息论的相似性度量指标，正则化联合互信息评估指标，可看作是正则互信息的扩展。通过在Berkeley图像分割数据库上的测试，我们验证了正则化联合互信息评估指标在量化评估分割算法上的合理性。

著录项

作者
白雪;
展开▼
作者单位

北京交通大学;

展开▼
授予单位北京交通大学;
学科计算机应用技术
授予学位博士
导师姓名罗四维,黄雅平;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类自动推理、机器学习;
关键词
聚类分析; 相似性度量; 图像处理; 机器学习;

相似文献

中文文献
外文文献
专利

1. 相似性度量在基因表达聚类分析中的应用研究 [J] . 孙杰 ,吴陈 . 现代电子技术 . 2012,第006期
2. 基于相似性度量的聚类分析在边坡稳定性分级中的应用 [J] . 周楷峰 ,叶军 ,李博 . 绍兴文理学院学报 . 2018,第008期
3. 新相似性度量在文档模糊聚类中的应用研究 [J] . 郭建永 ,蔡勇 ,甄艳霞 . 计算机工程与应用 . 2009,第013期
4. 时间序列相似性度量在水文数据挖掘中的应用研究 [J] . 吴德 ,叶传标 . 现代计算机（专业版） . 2008,第011期
5. 基于聚类分析和信息熵的灰色关联分析在便携式呼吸机采购决策中的应用研究 [J] . 孙鹏 . 医疗卫生装备 . 2021,第009期
6. K-均值聚类分析算法在多波束海底底质分类中的应用研究 [C] . 金绍华 ,肖付民 ,崔杨 . 第二十七届海洋测绘综合性学术研讨会 . 2015
7. 相似性度量在多波油气储层分布预测中的应用研究 [A] . 张栋 . 2016

聚类分析中的相似性度量及其应用研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅