Les données médicales en langage naturel ne peuvent être exploitées à des fins statistiques. Dans ce but ont été développés des systèmes de classification de type ICD-9-CM offrant la possibilité de relier des concepts significatifs aux données des patients. Cependant, les expressions utilisées dans l'ICD-9-CM diffèrent considérablement de celles qu'utili-sent les praticiens dans leur travail journalier. Aboutir au code adéquat exige de leur part un effort supplémentaire. La publication décrit le développement d'un thésaurus clinique et d'un système de recherche ad hoc basé sur la théorie des ensembles. Ces deux outils aident le praticien à trouver un ensemble de codes ICD-9-CM significatifs au départ d'une expression diagnostique en langage naturel. Bien que très puissante, l'approche ne peut tenir compte de toutes les difficultés linguistiques. Nous démontrons que les performances d'un tel système de recherche peuvent être accrues en étudiant l'information syntaxique pour rendre moins ambigueuml; les interprétations sémantiques complexes.
展开▼