首页> 中文学位 >一种基于基因本体的无监督聚类方法
【6h】

一种基于基因本体的无监督聚类方法

代理获取

目录

文摘

英文文摘

1 引言

1.1 课题研究的背景及意义

1.2 国内外研究现状

1.2.1 基因表达聚类分析现状

1.2.2 基因本体研究现状

1.3 本文主要研究内容及组织结构

2 聚类分析

2.1 聚类算法的分类

2.1.1 按类间重叠度分类

2.1.2 按算法思路分类

2.2 相似性度量

2.3 基因表达聚类工作流程

2.4 基于无监督聚类的基因表达分析

2.4.1 层次聚类算法

2.4.2 K-均值算法

2.4.3 自组织映射神经网络

2.4.4 模糊C-均值算法

2.5 同无监督聚类结果分析

2.5.1 层次聚类结果

2.5.2 K均值结果

2.5.3 自组织映射结果

2.5.4 模糊C均值聚类结果

3 基于本体的模糊C均值算法及其有效性评价

3.1 基因本体

3.1.1 数据库概况

3.1.2 GOSlim

3.1.3 证据编码

3.2 聚类有效性评价

3.2.1 Xie-Beni有效性

3.2.2 Amine M.Bensaid有效性

3.2.3 S.H.Kwon有效性

3.3 基于本体的模糊C均值

4 模糊C均值和基于本体的模糊C均值结果分析

4.1 基于本体的模糊C均值结果

4.1.1 基于Xie-Beni的有效性评价

4.1.2 基于Amine M.Bensaid的有效性评价

4.1.3 基于S.H.Kwon的有效性评价

4.1.3 不同有效性评价比较

4.2 基于本体的与传统模糊C均值结果比较

4.2.1 聚类有效性及质量比较

4.2.2 本体对模糊C均值的影响

4.3 不同聚类结果比较

5 总结

6 参考文献

致谢

展开▼

摘要

随着DNA微阵列技术的发展,获得海量基因表达数据已成为可能,如何从这些数据中挖掘有用信息已成为亟待解决的问题。聚类分析是基因表达分析中应用最广泛且有效的方法之一。对基因进行聚类分析可以将具有相似表达模式的基因归纳成簇,同一簇内的基因在功能上可能相似或关联,因此可以根据同一簇中已知基因的功能推测未知基因的功能。本研究应用层次聚类、K-均值、自组织映射网格、模糊C均值方法进行了基因表达聚类分析,同时对模糊C均值方法引入基因本体进行改进,利用生物过程本体合理地确定了聚类数目,克服了聚类数目预先不可知的缺陷。其次,传统模糊C均值对初始聚类中心十分敏感,本文利用基因注释证据编码的可信度确定了初始隶属度矩阵。不同算法的聚类质量用Z值相互比较。另外,为了更好地比较基于本体的模糊C均值与传统模糊C均值的结果,本文还应用了三种有效性评价函数对基于本体的模糊C均值的聚类结果进行有效性评价,从数据集的几何结构特征上衡量类内的紧凑度和类间的分离度,并设置不同有效性评价方法下的最佳初始化参数值。实验发现,Amine M.Bensaid有效性函数最适合做本数据集的评价指标。通过比较模糊C均值和基于本体的模糊C均值结果的有效值,发现基因本体的应用有助于取得具有更好的类内紧凑度和类间分离度聚类结果。最后比较不同算法的聚类结果的质量,证明了基因本体可以大大地提高聚类的质量。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号