首页> 外文OA文献 >Une nouvelle approche pour la sélection des variables dans le cas de modèles de discrimination en grandes dimensions
【2h】

Une nouvelle approche pour la sélection des variables dans le cas de modèles de discrimination en grandes dimensions

机译:大规模判别模型中变量选择的新方法

摘要

Le Séparateur à Vaste Marge (SVM) est un algorithme d'apprentissage initialement défini pour la discrimination, c'est-à-dire, la prévision d'une variable qualitative binaire (ex. groupes malades et non-malades). Malgré son utilité dans plusieurs domaines d'applications, l'approche SVM standard ne permet pas la sélection des prédicteurs importants pour la discrimination, en particulier dans la présence d'un grand nombre de prédicteurs. Plusieurs régularisations de l'approche SVM ont été proposées dans la littérature. Parmi les plus importantes, on trouve l'approche de Wang et al. (2008). En imposant une contrainte de type ℓ1-ℓ2 sur la fonction de perte de la méthode SVM, cette approche favorise la parcimonie dans la sélection des prédicteurs et tient compte de la corrélation entre ces derniers. Yang et Zou (2013) proposent un algorithme de type descente par coordonnée qui est efficace et rapide. Dans certaines situations, les prédicteurs peuvent agir en groupes sur la variable réponse. Ainsi, l'exploitation de telle structure peut s'avérer très utile pour discriminer les deux classes de la variable réponse. Par exemple, dans le domaine de la génétique, les gènes opèrent en groupes pour la régularisation et la survie d'un organisme, et ils agissent de-même pour causer plusieurs maladies complexes comme les cancers. Dans ce mémoire, nous présentons une extension de la méthode SVM de Yang et Zou afin d'obtenir une meilleure discrimination de la variable réponse, dans le cas de données de grandes dimensions. Nous proposons un nouveau modèle pour ce type de données. Pour estimer les paramètres de notre modèle et remédier à plusieurs problèmes d'optimisation, nous proposons un algorithme d'estimation qui utilise les techniques de maximisation-minimisation et l'algorithme de descente par coordonnée. Ceci, afin d'accélérer la convergence de notre algorithme. Nous allons montrer que notre méthode favorise la parcimonie et tient compte de la structure de groupes des prédicteurs qui discriminent davantage les deux classes de la variable réponse. Nous illustrons la méthodologie proposée dans ce mémoire à l'aide des études de simulations. Finalement, nous analysons un jeu de données réelles contenant deux groupes de sujets, un groupe de patients atteints du cancer de la prostate et un groupe de sujets non-malades, et décrits par 6033 expressions de gènes (prédicteurs).
机译:大保证金分隔符(SVM)是最初定义的用于区分的学习算法,即预测二进制定性变量(例如,生病和非生病的群体)。尽管其在几个应用领域中很有用,但标准的SVM方法不允许选择对区分重要的预测因子,特别是在存在大量预测因子的情况下。 SVM方法的几种正则化已在文献中提出。在最重要的问题中,我们发现了Wang等人的方法。 (2008)。通过在SVM方法的损失函数上施加de1-ℓ2类型约束,该方法在选择预测变量时会优先考虑简约性,并考虑到它们之间的相关性。 Yang and Zou(2013)提出了一种有效且快速的按坐标类型下降的算法。在某些情况下,预测变量可以对响应变量进行分组操作。因此,证明这种结构的使用对于区分响应变量的两类非常有用。例如,在遗传学领域,基因成组地作用于生物体的调节和生存,并且它们以相同的方式起作用,从而导致多种复杂的疾病,例如癌症。在本文中,我们提出了对Yang和Zou的SVM方法的扩展,以便在大数据情况下更好地区分响应变量。我们为此类数据提出了一种新模型。为了估算模型的参数并解决一些优化问题,我们提出了一种使用最大化-最小化技术和坐标下降算法的估算算法。这是为了加快我们算法的收敛速度。我们将证明我们的方法有利于简约,并考虑了预测变量的组结构,从而进一步区分了响应变量的两类。我们通过仿真研究说明了本文提出的方法。最后,我们分析了一个真实的数据集,该数据集包含两组受试者,一组前列腺癌患者和一组非患病受试者,并由6033个基因表达(预测因子)描述。

著录项

  • 作者

    Kharoubi Rachid;

  • 作者单位
  • 年度 2016
  • 总页数
  • 原文格式 PDF
  • 正文语种 en
  • 中图分类

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号