Lecture et analyse conceptuelle de textes assistées par ordinateur (LATAO)
Projet : Lecture et analyse conceptuelle de textes assistées par ordinateur
Chercheur principal : Jean-Guy Meunier
Période : 2008-2012
Organisme subventionnaire : Conseil de recherches en sciences humaines du Canada (CRSH)
Titre du programme : Subventions ordinaires de recherche
Résumé :
Ce projet s’inscrivait en continuité avec le programme de recherche développé depuis une dizaine d’années dans le domaine de la lecture et de l’analyse de texte assistées par ordinateur (LATAO). Ce programme de recherche s’articule sur deux volets. Le premier vise l’étude des fondements théoriques et des opérations impliquées dans les différentes méthodes de lecture et d’analyse de texte dans les Lettres et les Sciences Humaines. Le second volet vise le développement de technologies informatiques capables d’émuler ces opérations et d’assister le lecteur et analyste expert à l’aide de différents algorithmes.
Le présent projet portait sur une problématique particulière de ce domaine. Son premier volet visait l’étude des fondements théoriques et des opérations impliquées dans l’une des pratiques classiques de la lecture et de l’analyse de textes : la lecture et l’analyse conceptuelle. Son deuxième volet portait sur le développement et l’expérimentation de différents algorithmes capables d’assister computationnellement cette lecture et analyse conceptuelle de texte.
Retombées du volet 1 :
La recherche liée à ce premier volet consistait à fonder théoriquement les opérations (formelles et cognitives) réalisées dans la pratique effective de l’analyse conceptuelle experte. La recherche a consisté à recenser, comparer et déconstruire cette pratique telle qu’elle est pratiquée dans différentes disciplines comme la philosophie, la littérature, la théologie, la philologie, la linguistique, la psychologie, la sociologie, l’anthropologie, l’ingénierie des connaissances en informatique. La compréhension technique de cette pratique dans ces nombreuses disciplines a mis en lumière les variations complexes que peut prendre la relation entre la théorie du concept et son expression linguistique dans un texte.
À partir des différentes théories du concept, le concept a été défini comme un ensemble d’opérations cognitives; dont certaines sont endogènes (notamment la généralisation, la schématisation, la synthèse et la singularisation); d’autres sont exogènes (notamment la référentialité, l’inférentialité, la décision, la perception, la communication); et qui s’exprime dans des formes sémiotiques, en particulier le langage naturel. Dans le contexte d’une telle définition, l’analyse conceptuelle apparait alors comme une méthode pour identifier dans une de ses formes langagières — le texte — les divers types d’opérations cognitives et linguistiques mises en œuvre par l’énonciateur d’un texte.
Retombées du volet 2 :
La recherche liée à ce deuxième volet était expérimentale. Les expérimentations étaient à la fois informatiques et empiriques. Les expérimentations informatiques consistaient à évaluer la pertinence et la portée de certains algorithmes issus de domaines tels la fouille de données, la recherche d’informations, la reconnaissance de formes et l’apprentissage machine, à des fins de lecture et d’analyse conceptuelle de textes. L’objectif était de traduire en algorithmes, c’est-à-dire sous la forme de chaînes de traitement, certains des opérations internes à une analyse conceptuelle de texte et à implémenter celles-ci dans différents prototypes informatiques. Plusieurs algorithmes ont été évalués : des algorithmes liés à l’indexation lexicale, la lemmatisation et la racinisation (en français et en anglais); des algorithmes liés à différents calculs de similarités dans un espace vectoriel (métrique euclidienne, cosinus, jaccard, etc.); des algorithmes liés à la réduction dimensionnelle dans un espace vectoriel (analyse factorielle, analyse en composante principale, analyse sémantique latente, etc.); des algorithmes liés à la classification mathématique (k-means, réseaux neuronaux ART, carte topologique SOM, classification hiérarchique, etc.); et plusieurs autres algorithmes liés à la catégorisation, l’annotation, l’extraction de règles et de motifs fréquents.
Les expérimentations empiriques consistaient à étudier des concepts spécifiques dans des corpus de textes de différents horizons (philosophiques, journalistiques, web, etc.). L’objectif consistait à évaluer la valeur heuristique de la méthode de lecture et d’analyse conceptuelle de texte assistées par ordinateur (LACTAO) sur des données textuelles réelles. Parmi les études menées, il y a eu l’analyse du concept D’ACCOMMODEMENT RAISONNABLE dans la presse du Québec, le concept de LANGAGE et le concept D’ÉVOLUTION chez dans les écrits du philosophe Henri Bergson, le concept de MIND dans les écrits de Peirce, le concept d’ÉVOLUTION dans Les origines de l’espèce de Darwin, le concept d’ÉDUCATION chez Rousseau. La recherche se poursuit actuellement sur l’analyse du concept d’ÉTUDIANT dans la presse du Québec lors du conflit étudiant de 2012, l’analyse du concept de l’ALTÉRITÉ dans les médias écrits du Canada, le concept de l’ÉPISTÉMÉ dans les écrits de Foucault.
Réseautage, formations, communications et publications :
Ce projet de recherche s’inscrit dans un programme scientifique qui s’étale sur une dizaine d’années. Il a permis de construire un réseau de collaborateurs au Canada et à l’étranger, de former plusieurs dizaines de doctorants des sciences humaines et de l’informatique et générer des communications et des publications à la fois locales et internationales.