首页> 外文学位 >Application de techniques de forage de textes de nature predictive et exploratoire a des fins de gestion et d'analyse thematique de documents textuels non structures.
【24h】

Application de techniques de forage de textes de nature predictive et exploratoire a des fins de gestion et d'analyse thematique de documents textuels non structures.

机译:预测性和探索性文本钻探技术在主题管理和非结构化文本文档分析中的应用。

获取原文
获取原文并翻译 | 示例

摘要

Depuis les dix dernieres annees, on observe une hausse considerable du nombre d'initiatives visant a numeriser et a rendre disponible le patrimoine informationnel des organisations et des differentes branches du savoir. Les consequences decoulant de ces initiatives sont importantes et tres nombreuses. Elles ont entre autres conduit a l'emergence d'applications permettant differentes operations complexes d'analyse et de gestion des documents. Malgre la diversite de ces applications, on constate que l'ensemble des disciplines reliees a l'analyse et a la gestion des documents textuels sont axees sur la comprehension et l'informatisation des processus d'identification des contenus thematiques et d'analyse thematique.;Au niveau cognitif, nous proposons d'explorer la pertinence et la fecondite de certaines theories d'inspiration linguistique et litteraire ayant aborde la question du theme pour nous aider dans l'identification du contenu thematique et l'analyse thematique des documents textuels. A ce niveau, notre objectif est de demontrer comment les theories retenues, celles de Kintsch et Van Dijk, de Rimmon-Kenan et de Rastier, ont defini le theme de telle sorte qu'il est possible d'en assister informatiquement l'identification et l'analyse a l'aide de la methodologie que nous proposons.;Au niveau informatique, un premier volet de notre demarche consiste a explorer et a comparer les performances des operations de categorisation et de classification automatiques a des fins d'identification du contenu thematique et d'analyse thematique des documents textuels non structures. Les resultats sont evalues en appliquant un systeme de categorisation hybride neuro-flou et un algorithme de classification neuronal non supervise sur un corpus d'articles de journaux.;Par ailleurs, la classification et la categorisation sont des operations traditionnellement appliquees a des documents entiers. Nous proposons une maniere alternative de realiser ces processus: notre demarche consiste d'abord a segmenter chacun des documents puis a soumettre aux processus de regroupement les differents segments de texte. Cette demarche a l'avantage de pouvoir attribuer plusieurs categories thematiques a chaque document, ce qui est plus difficilement realisable lorsque les documents sont traites en entier.;Le projet que nous presentons aborde precisement les problematiques de l'identification des themes et de l'assistance a l'analyse thematique des documents textuels. L'objectif general du projet est de developper et de valider deux methodologies informatiques fondees respectivement sur la categorisation et la classification automatiques permettant d'assister efficacement l'identification des themes et, surtout, l'analyse thematique des documents textuels. Il vise ainsi a effectuer un transfert de concepts et de methodologies provenant, d'une part, des recherches theoriques et pluridisciplinaires portant sur l'analyse thematique et, d'autre part, des recherches appliquees en classification et en categorisation automatiques des donnees afin de proposer une methodologie et un prototype d'application flexible visant a assister le chercheur dans son travail d'analyse thematique des textes. Le defi principal de ce projet reside donc dans l'operationnalisation de l'analyse thematique en employant certaines strategies de classification et de categorisation automatiques des textes.;Finalement, dans bon nombre d'applications d'analyse et de gestion des documents textuels, le processus de categorisation est effectue en utilisant un plan de classification ou une taxinomie de categories predefinies. Le developpement de ces taxinomies, bien qu'il puisse etre assiste dans certains cas par des applications informatiques, s'avere couteux et tres complexe. Dans ce projet, nous demontrerons qu'il est possible, en l'absence de taxinomies, d'employer certains termes du lexique initial du corpus comme etiquettes thematiques.;Mots-cles. analyse thematique, identification de themes, Lecture et Analyse de Textes Assistees par Ordinateur (LATAO), classification automatique, categorisation automatique.
机译:在过去的十年中,旨在数字化和提供组织和知识的不同分支的信息遗产的举措的数量已大大增加。这些举措的后果是重要的,而且是众多的。除其他事项外,它们还导致了应用程序的出现,这些应用程序允许文档分析和管理的不同复杂操作。尽管这些应用程序的多样性,但可以看出,与文本文档的分析和管理有关的所有学科都集中在对主题内容识别和主题分析过程的理解和计算机化上。在认知层面,我们建议探讨某些语言和文学灵感理论的相关性和成果,这些理论解决了主题问题,以帮助我们识别主题内容和对文本文件进行主题分析。在此级别上,我们的目标是证明保留的理论(金特斯和范·迪克,里蒙·肯南和拉斯蒂尔的理论)如何定义主题,以便可以协助计算机识别和使用我们提出的方法进行分析;在IT级别,我们方法的第一部分在于探索和比较自动分类和分类操作的性能,以识别主题内容。和非结构化文本文档的主题分析。通过在报纸文章的语料库中应用混合神经模糊分类系统和无监督神经分类算法对结果进行评估,分类和分类是传统上应用于整个文档的操作。我们提出了执行这些过程的另一种方法:我们的方法首先包括对每个文档进行分段,然后对不同的文本段进行分组。这种方法的优点是可以为每个文档分配多个主题类别,而在完整处理文档时,很难实现这一目的。协助对文本文件进行主题分析。该项目的总体目标是开发和验证分别基于自动分类和分类的两种计算机方法,从而可以有效地帮助主题识别,尤其是文本文档的主题分析。因此,它旨在从概念分析和多学科研究方面转移概念和方法论,另一方面,将其应用于数据的自动分类和分类中以进行研究。提出一种灵活的应用方法和原型,旨在协助研究人员进行主题文本分析工作。因此,该项目的主要挑战在于通过对文本采用某些自动分类和分类策略来进行主题分析的操作;最后,在许多用于文本文件分析和管理的应用程序中,使用分类计划或预定义类别的分类法执行分类过程。尽管可以在某些情况下通过计算机应用程序来辅助这些分类法的开发,但事实证明该分类法非常昂贵且非常复杂。在这个项目中,我们将证明在没有分类法的情况下,可以将语料库的最初词典中的某些术语用作主题标签。主题分析,主题识别,计算机辅助文本(LATAO)的阅读和分析,自动分类,自动分类。

著录项

  • 作者

    Forest, Dominic.;

  • 作者单位

    Universite du Quebec a Montreal (Canada).;

  • 授予单位 Universite du Quebec a Montreal (Canada).;
  • 学科 Computer Science.
  • 学位 Ph.D.
  • 年度 2006
  • 页码 286 p.
  • 总页数 286
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类
  • 关键词

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号