Catégorisation et analyse thématique de documents textuels (LATAO)

Projet : Catégorisation et analyse thématique de documents textuels

Chercheur principal : Jean-Guy Meunier

Période : 2005-2008

Organisme subventionnaire : Conseil de recherches en sciences humaines du Canada (CRSH)

Titre du programme : Subventions ordinaires de recherche

Résumé :

Le projet de recherche portait sur l’exploration de méthodes d’assistance à la lecture et l’analyse expertes des textes dans l’horizon émergente de la numérisation systématique des livres. Le premier objectif, et le plus important de ce projet, visait à dépasser la manipulation informatique classique des textes (numérisation, édition, rappel, concordance, description statistique, etc.) pour assister les analyses thématiques d’un texte de haut niveau théorique. Ce type d’analyse présentait des difficultés spécifiques en raison des phénomènes linguistiques relevant tant de la textualité (processus discursif, pragmatique, etc.) que de l’organisation et la structure d’un corpus numérique. Pour atteindre cet objectif, le projet a effectué un transfert de concepts et de méthodologies provenant de la linguistique sur l’analyse thématique et de l’intelligence artificielle (classification automatique, apprentissage machine, réseau de neurones, forage de textes, etc.). Ce transfert a permis de développer une méthodologie de lecture et d’analyse des textes assistées par ordinateur (LATAO), qui se déploie en une chaine de traitement qui comprend a) la préparation des données, b) leur sélection à des fins d’analyse, c) la classification thématique, d) la représentation visuelle, e) l’interprétation. Cette méthodologie est devenue une référence pour plusieurs chercheurs dont la pratique de lecture et d’analyse experte doit être appliquée sur des données textuelles numérisées. Et elle a été expérimentée sur des données textuelles de haut niveau théorique (philosophique, littéraire, journalistique, etc.).

Le second objectif était de type informatique. Il visait à dépasser une technologie qui, à ce moment, n’offrait qu’un ensemble fermé et limité de fonctionnalités. Il s’inscrivait ainsi dans une nouvelle génération de systèmes d’assistance à la construction de chaines de traitement adaptée aux traitements de données textuelles (WEKA, PROVALIS, GATES, T2K, etc.). Ainsi, le projet a permis de construire un prototype de plateforme modulaire (NUMEXCO). Celle-ci a servi à de nombreuses expérimentations. Elle a permis aussi de révéler la portée et les limites de ces types de plateformes. Cette plateforme est devenue l’embryon de la plateforme SATIM. Les résultats de cette recherche ont été publiés dans les conférences locales (ACFAS, Sociétés Savantes du Canada), mais surtout au plan international (Digital Humanities, JADT, FLAIRS, etc.) .Elle a permis à l’équipe d’instaurer une dynamique très forte avec la communauté canadienne anglophone de TAPOR œuvrant dans ce même paradigme. Des mémoires de maitrise, des thèses de doctorat et plusieurs sous-projets de recherche subventionnés en ont émergé.