首页> 外文OA文献 >Optimization algorithms for SVM classification – Applications to geometrical chromosome analysis
【2h】

Optimization algorithms for SVM classification – Applications to geometrical chromosome analysis

机译:支持向量机分类的优化算法–在几何染色体分析中的应用

摘要

Le génome est très organisé au sein du noyau cellulaire. Cette organisation et plus spécifiquement la localisation et la dynamique des gènes et chromosomes contribuent à l'expression génétique et la différenciation des cellules que ce soit dans le cas de pathologies ou non. L'exploration de cette organisation pourrait dans le futur aider à diagnostiquer et identifier de nouvelles cibles thérapeutiques. La conformation des chromosomes peut être analysée grâce au marquage ADN sur plusieurs sites et aux mesures de distances entre ces différents marquages fluorescents. Dans ce contexte, l'organisation spatiale du chromosome III de levure a montré que les deux types de cellules, MATa et MATalpha, sont différents. Par contre, les données issues de l'imagerie electronique sont bruitées à cause de la résolution des systèmes de microscope et du fait du caractère vivant des cellules observées. Dans cette thèse, nous nous intéressons au développement de méthodes de classification pour différencier les types de cellules sur la base de mesures de distances entre 3 loci du chromosome III et d'une estimation du bruit. Dans un premier temps, nous nous intéressons de façon générale aux problèmes de classification binaire à l'aide de SVM de grandes tailles et passons en revue les algorithmes d'optimisation stochastiques du premier ordre. Afin de prendre en compte les incertudes, nous proposons un modèle d'apprentissage qui ajuste sa robustesse en fonction du bruit. La méthode évite les situations où le modèle est trop conservatif et que l'on rencontre parfois avec les formulations SVM robustes. L'amplitude des pertubations liées au bruit qui sont incorporées dans le modèle est controllée par l'optimisation d'une erreur de généralisation. Aucune hypothèse n'est faite sur la distribution de probabilité du bruit. Seule une borne estimée des pertubations est nécessaire. Le problème peut s'écrire sous la forme d'un programme biniveaux de grande taille. Afin de le résoudre, nous proposons un algorithme biniveau qui réalise des déplacements stochastiques très peu coûteux et donc adapté aux problèmes de grandes tailles. La convergence de l'algorithme est prouvée pour une classe générale de problèmes. Nous présentons des résultats numériques très encourageants qui confirment que la technique est meilleure que l'approche SOCP (Second Order Cone Programming) pour plusieurs bases de données publiques. Les expériences numériques montrent également que la nonlinéarité additionnelle générée par l'incertitude sur les données pénalise la classification des chromosomes et motivent des recherches futures sur une version nonlinéaire de la technique proposée. Enfin, nous présentons également des résultats numériques de l'algorithme biniveau stochastique pour la sélection automatique de l'hyperparamètre de pénalité dans les SVM. L'approche évite les coûteux calculs que l'on doit inévitablement réaliser lorsque l'on effectue une validation croisée sur des problèmes de grandes tailles.
机译:基因组在细胞核内非常有组织。这种组织,更具体而言,基因和染色体的定位和动态有助于细胞的遗传表达和分化,无论是否存在病理情况。该组织的探索将来可能有助于诊断和确定新的治疗目标。可以使用几个部位的DNA标记并测量这些不同荧光标记之间的距离来分析染色体的构象。在这种情况下,酵母中III号染色体的空间组织已显示出两种类型的细胞MATa和MATalpha是不同的。另一方面,由于显微镜系统的分辨率以及所观察到的细胞的存活特性,来自电子成像的数据是嘈杂的。在本文中,我们对基于三号染色体3个基因座之间的距离测量和噪声估计来区分细胞类型的分类方法的开发感兴趣。首先,我们通常对使用大型SVM的二进制分类问题感兴趣,并回顾一阶随机优化算法。为了考虑不确定性,我们提出了一种学习模型,该模型根据噪声来调整其鲁棒性。该方法避免了模型过于保守的情况,而健壮的SVM公式有时会遇到这种情况。模型中包含的与噪声相关的干扰的幅度由泛化误差的优化控制。没有假设噪声的概率分布。仅需要估计的摄动极限。该问题可以以大型两级程序的形式编写。为了解决该问题,我们提出了一种两级算法,该算法执行非常便宜的随机位移,因此适合于大问题。该算法的收敛性已针对一般问题进行了证明。我们提供了令人鼓舞的数值结果,这些结果证实了该技术比一些公共数据库的SOCP(二阶锥编程)方法更好。数值实验还表明,由数据中的不确定性产生的附加非线性会不利于染色体的分类,并会激发对所提出技术的非线性版本的进一步研究。最后,我们还给出了用于支持向量机中惩罚超参数自动选择的二项式随机算法的数值结果。该方法避免了在对大问题进行交叉验证时不可避免地要执行的昂贵计算。

著录项

  • 作者

    Wang Wenjuan;

  • 作者单位
  • 年度 2016
  • 总页数
  • 原文格式 PDF
  • 正文语种
  • 中图分类

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号