EIIDA
Études interdisciplinaires et interlinguistiques du discours académique

Jeanne-Marie DEBAISIEUX et Shirley CARTER-THOMAS – Lattice
2012-2017

Sommaire

1 2 3

Corpus

Constitution

Au cours des trois premières années, les travaux de l’équipe se sont concentrés sur l’échantillonnage, la constitution et le traitement du corpus. L’aspect multiparamétrique des données à observées (trois langues, deux modalités de transmission et deux domaines scientifiques) a nécessité une réflexion épistémologique approfondie, que ce soit en termes de collecte de données ou de procédures d’analyses des données (aspects qualitatifs et quantitatifs). La collecte des données a représenté un coût temporel important : les données sont considérées comme des données sensibles dans le monde académique Les publications scientifiques sont soumises à des droits d’éditeurs et le recueil de communications orales, notamment de jeunes chercheurs n’est pas une pratique courante. La constitution de corpus comparables a constitué une difficulté supplémentaire. Par ailleurs, la masse et la diversité des données justifient une implémentation informatique qui a nécessité un lourd traitement manuel

1. Les données de travail
Pour chaque langue (français, anglais, espagnol) le groupe a collecté 60 textes répartis en deux domaines : « Géochimie » ( 15 publications et 15 communications orales transcrites) et « Linguistique générale » (15 publications et 15 communications orales transcrites). Le corpus à analyser compte 180 textes (écrit et oral) pour un total d’environ 900.000 mots. La partie orale (300.000 mots) correspond à une vingtaine d’heures d’enregistrement et constitue un des premiers corpus oral multilingue de données académiques. La partie « français » des données doit être mise à disposition dans le cadre de l’ANR Orfeo (http://www.projet-orfeo.fr/).

2. Le traitement des données
Hormis une partie des données de l’espagnol, l’ensemble du corpus oral a été transcrit et corrigé. Les transcriptions ont été vérifiées et amendées par au moins deux chercheurs afin d’en garantir la validité. Les métadonnées de chaque texte, qui doivent constituer des champs de requêtes, ont été saisies en XML. L’hétérogénéité des textes, notamment en termes écrit/oral a nécessité une adaptation des modèles afin de garantir l’interrogation de l’ensemble des champs. Les textes écrits ont été convertis et harmonisés en termes de format (traitement des figures, traitement des notes de bas de page). Les annotations concernent le découpage textuel en sections majeures : introduction, texte, conclusion et en sous-section : titres, intertitres. Compte tenu des objectifs de la recherche, certains segments ont donné lieu à un balisage spécifique : citations, exemples, emplois métalinguistiques, caractéristiques typographiques.

Objectifs scientifiques

Le premier axe de recherche concerne le degré de spécialisation et de codification des textes académiques en fonction de la langue et de la spécialité. Il s’agit d’interroger le degré de « spécialisation » des textes étudiés, selon leur modalité de transmission, le domaine scientifique et la langue concernés. L’analyse de l’impact des facteurs impliqués dans le caractère plus ou moins asymétrique de la relation émetteur/destinataire sera couplée à la recherche d’indices de codification du texte : schémas récurrents, constructions phraséologiques, organisation textuelle en parataxe vs hypotaxe, structure informationnelle. L’hypothèse de départ est double : le degré de spécialisation ne recoupe pas une opposition transmission écrite vs orale mais repose sur une pratique de vulgarisation scientifique inégalement présente dans les différentes langues concernées ; le degré de codification, sensible au domaine de spécialité, serait modulé en fonction d’une représentation collaborative vs informative de la transmission des savoirs.

Le deuxième axe traite de l’analyse du positionnement du chercheur scripteur/locuteur. Cette recherche s’attache à la dimension interpersonnelle construite par le chercheur au travers notamment de l’analyse des verbes de citations et des modalités de renvois à d’autres recherches. L’hypothèse est que cette dimension est liée à l’aspect individuel vs collectif de la recherche selon le domaine et la plus ou moins forte cohésion de la communauté de pratiques dans les pays concernés.

Le troisième axe concerne la traduction automatique. La nature du corpus EIIDA devrait permettre de dégager des patrons lexico-syntaxiques tels que ceux utilisés dans l’étude des erreurs de traduction des systèmes automatiques. Il sera également innovant d´étendre cette étude au domaine de la traduction automatique orale, afin de déterminer quelle méthodologie – de la traduction du signal source ou de la traduction des transcriptions du signal – est la plus probante.

Mise à disposition du corpus

La spécificité du corpus EIIDA en fait un outil très précieux pour les linguistes travaillant sur le discours académique (voir schéma). Pendant l’année 2016 le corpus a été nettoyé et formaté avec l’aide de nos partenaires à l’université de Grenoble. L’objectif est de le rendre accessible à la communauté sur le site de Scientext : http://scientext.msh-alpes.fr

Crédits : Revue CHIMERA
Corpus EIIDA. Descrition de la structure et nombres des textes et mots
Shirley Carter-Thomas, Marie-Paule Jacques (2017). « Introduction. Interdisciplinary and interlinguistic perspectives on Academic Discourse : the mode variable ». CHIMERA. Romance Corpora and Linguistic Studies. vol 4, N°1, page 10