Accueil > Recherche > Projets > Axe B - Penser en langues et traduire > Analyse textuelle automatique pour la préservation des langues
Analyse textuelle automatique pour la préservation des langues
Thierry POIBEAU – Lattice
Depuis 2017
Projet en collaboration avec Michael RIESSLER (Albert-Ludwigs-Universität Freiburg, Allemagne)
Présentation
On sait que de nombreuses langues disparaissent chaque année, et le mouvement va hélas en s’accentuant. Dans ce contexte, la documentation des langues en danger est un enjeu majeur. Ce travail de documentation passe de manière essentielle par la collecte de données (souvent orales), la transcription de ces données et leur préservation dans des formats et sur des supports pérennes. Les techniques de traitement automatique des langues sont assez rarement employées dans ces tâches, d’une part parce que ces techniques reposent sur un savoir faire difficile à acquérir par les non-spécialistes, et d’autre part parce qu’elles nécessitent souvent de grandes masses de données. Or les corpus accumulés par les linguistes de terrain sont presque toujours de taille modeste.
On a affaire ici à un problème circulaire : les données sont de taille modeste car tout le travail de transcription et d’analyse est fait manuellement. Si cette analyse pouvait bénéficier de techniques automatiques, l’acquisition de données pourrait être plus efficace et les corpus seraient alors de taille suffisante pour développer des outils automatiques, qui permettraient à leur tour d’améliorer les tâches de transcription et d’analyse.
Le but de ce projet est de faire se rencontrer des chercheurs de ces différentes communautés (linguistes de terrain et spécialistes du traitement automatique), afin de dresser un état des lieux de la situation, examiner les pratiques innovantes, voire spécifier et développer de nouveaux outils utiles aux linguistes de terrain.