Forage de texte, catégorisation et analyse de contenu (LATAO)

Projet : Forage de texte, catégorisation et analyse de contenu

Chercheur principal : Jean-Guy Meunier

Période : 2000-2001

Organisme subventionnaire : Conseil de recherches en sciences humaines du Canada (CRSH)

Titre du programme : Initiatives de développement de la recherche

 

Résumé :

Le projet « Forage de texte, catégorisation et analyse de contenu » a généré des résultats de recherche importants à plusieurs niveaux.

Premièrement, ce projet a permis d’effectuer un recensement des principales approches et des principaux logiciels dans le domaine de la Lecture et de l’Analyse de Texte Assistées par Ordinateur (LATAO). Au-delà du simple travail de recension, ce volet a permis une meilleure compréhension des forces et des limites des approches classiques d’analyse de contenu assistées par ordinateur et, surtout, de confirmer le besoin et la pertinence des approches de pointe fondées sur les opérations de classification et de catégorisation automatiques.

Deuxièmement, au niveau technique, ce projet a permis d’explorer et de valider plusieurs techniques, très souvent issues de travaux dans les domaines de l’intelligence artificielle et de l’apprentissage machine, de classification et de catégorisation automatiques, dans leur application au traitement des documents textuels (dans une optique d’analyse de contenu). A cet égard, ce travail a été mis à contribution afin de valider une des hypothèses principales du projet selon laquelle les analyses de contenu assistées par ordinateur peuvent être réalisées à l’aide de classifieurs et catégoriseurs numériques. Ainsi, dans le cadre du projet, nous avons exploré la pertinence de différentes approches (réseaux de neurones artificiels, approches hybrides neuro-floues, algorithmes d’induction de règles, etc.) dans leur application à la catégorisation de textes à des fins d’analyse de contenu.

Finalement, le projet a contribué à la conception et à la validation de méthodologies d’analyse et de chaînes de traitement (progiciels) adaptées à l’analyse de contenu de textes théoriques. En effet, en nous basant sur les travaux mentionnés précédemment, nous avons développé et validé plusieurs méthodologies d’analyse et certaines chaînes de traitement destinées à l’analyse de contenu assistée par ordinateur. Ainsi, le projet a permis de valider une méthodologie d’analyse originale fondée sur la catégorisation automatique permettant d’identifier les principaux thèmes présents dans des corpus théoriques et philosophiques.