Antoine Doucet

Antoine Doucet est enseignant-chercheur au laboratoire informatique, image et interaction (L3i) et membre du laboratoire franco-vietnamien ICTLab. Il travaille sur l’analyse automatique du texte, sous toutes ses formes.

Antoine Doucet

Antoine Doucet est professeur des universités à La Rochelle Université. Il enseigne au département informatique de l’IUT et effectue ses recherches au Laboratoire informatique, image et interaction (L3i), au sein de l’équipe « images et contenus ». Il est également membre du laboratoire franco-vietnamien ICTLab.

Antoine Doucet, quel est votre domaine de recherche ?

Mon domaine de recherche est à l’intersection entre la recherche d’informations, le traitement automatique des langues, la fouille de données textuelles et l’intelligence artificielle. En clair, je travaille sur l’analyse automatique du texte, sous toutes ses formes (écrit/transcrit, numérisé/natif, soutenu/parlé, etc.), avec pour ligne directrice d’opter pour des méthodes qui soient le plus générique possible, c’est à dire qui fonctionnent de la même façon pour toutes les langues. Cela requière de s’appuyer principalement sur des éléments statistiques plutôt que sur des ressources linguistiques spécifiques aux langues telles que des dictionnaires ou des outils d’analyse linguistique automatique (syntaxique, morphologique, etc.), dont la qualité est variable en fonction des langues et qui n’existent d’ailleurs pas pour toutes.

L’intérêt de ce choix est que tout type de texte peut être analysé et c’est particulièrement utile dans les nombreux cas où les ressources sont insuffisantes voire inexistantes : de nombreuses langues, dites « peu dotées », ne disposent en effet pas d’outils d’analyse linguistique ou de ressources dédiées de qualité permettant d’entraîner des modèles d’intelligence artificielle. C’est également le cas de certaines formes de langages comme celles utilisées sur les réseaux sociaux ou dans les SMS, avec de nombreux raccourcis, abréviations, hashtags et autres émojis.

Les approches génériques permettent même aussi d’analyser des textes dit « bruités », comme ceux qui sont issus d’une reconnaissance automatique de la parole ou d’un processus de numérisation de documents : le texte est alors imparfaitement extrait, par exemple à cause d’une ambiguïté ou d’un bruit de fond dans le cas d’une retranscription orale ou d’une tâche d’encre, d’une pliure ou d’un coup de tampon dans le cas d’un document numérisé.

Une grande partie de mon activité, depuis que j’ai été recruté à La Rochelle Université en 2014, est d’ailleurs consacrée à l’analyse sémantique des documents numérisés, où elle trouve un terrain favorable puisque le L3i compte de nombreux spécialistes de l’analyse de documents, qui est la partie « amont » à ma spécialité puisqu’il s’y agit principalement d’utiliser les aspects graphiques des documents pour en extraire du contenu, contenu que j’analyse ensuite avec des méthodes robustes à d’éventuelles erreurs de reconnaissance.

Qu’est-ce que le projet NewsEye ?

NewsEye est un projet que j’ai le plaisir de coordonner et qui est soutenu par le programme-cadre de recherche et d’innovation de la commission européenne Horizon 2020. Sur 139 dossiers déposés, il fait partie des 3 projets financés par l’appel « Comprendre l’Europe, promouvoir l’espace public et culturel européen ». Il implique 11 équipes de différents pays d’Europe (France, Allemagne, Finlande et Autriche), incluant 3 bibliothèques nationales, 4 groupes de recherche en sciences humaines et 4 groupes de recherche en informatique. Il se déroule de mai 2018 à avril 2021.

L’objectif principal du projet est d’améliorer l’accès à la presse ancienne européenne. Il s’agit d’un enjeu très important car les journaux recueillent des informations sur les événements culturels, politiques et sociaux d’une manière plus détaillée que tout autre document accessible au public. Depuis leurs débuts au 17e siècle, ils ont enregistré quotidiennement des milliards d’informations dans presque toutes les langues, et tous les pays. La presse ancienne offre une fenêtre très riche sur un passé décrit au présent, et sa richesse thématique la rend essentielle pour toute personne intéressée par le patrimoine culturel européen.

Au cours des dernières décennies, les efforts de numérisation ont été très nombreux, menant à la mise en ligne de dizaines de millions de pages de journaux conservés dans des bibliothèques européennes. Ces efforts sont amenés à s’intensifier dans les années à venir car la demande du public est forte.

Cependant, l’accès à ces immenses collections reste difficile, avec des plateformes sous l’égide de bibliothèques nationales qui ne sont pas interconnectées, et dont la plupart ne permet qu’une simple recherche par mots-clefs, sans prise en compte des spécificités de la presse par rapport à d’autres types de documents anciens (comme le simple fait que la structuration sémantique de la presse est faite sous forme d’articles).

En plus de l’amélioration de l’utilisabilité des collections historiques des bibliothèques, NewsEye s’attache à relever plusieurs défis, à même d’engendrer des progrès scientifiques dans plusieurs disciplines des sciences humaines et de l’informatique. La partie du projet consacrée à la recherche en sciences humaines est la plus importante, car c’est elle qui valide l’utilité des données extraites et des outils fournis aux étapes précédentes. Dans le cadre d’un cercle vertueux de retour d’expérience et d’amélioration continue, les chercheur·euses en sciences humaines contribuent de façon essentielle à la qualité et à la pertinence des développements informatiques. Cette réussite est illustrée par le développement de connaissances nouvelles dans le contexte du projet, en littérature et en histoire, autour de 4 études de cas recherche : les migrations, le genre, le nationalisme et les révolutions, les médias et le journalisme.

Dans le cadre de NewsEye, La Rochelle Université est en charge de la coordination du projet, mais aussi de l’enrichissement sémantique des collections, c’est-à-dire de signaler et d’identifier les noms de personnes, les lieux et les organisations, ainsi que les opinions afférentes et les évènements émergents. Tout cela est fait quelle que soit la langue de rédaction et de façon robuste aux erreurs d’extraction du contenu textuel. Enfin, LRUniv développe la plateforme du projet, actuellement en version Beta, et qui rend accessibles tous les outils et collections du projet au sein d’une interface Web.

Quels en sont les principaux apports de Newseye ?

L’intérêt premier est évidemment un meilleur accès à la presse ancienne avec des approches déclinables dans n’importe quelle langue, et donc applicable à toute collection de presse ancienne. Nous avons d’ailleurs été approchés par plusieurs entités hors projet souhaitant acquérir un statut de partenaire associé :  des bibliothèques souhaitant voir les résultats du projet appliqués à leurs collections et des groupes de recherche en humanités numériques souhaitant utiliser nos outils et collections.

Pour le grand public, l’impact du projet réside dans la mise à disposition de la plateforme, qui permet de parcourir et d’analyser conjointement des collections des bibliothèques partenaires du projet (bibliothèques nationales d’Autriche, de Finlande et de France). Les outils et enrichissements sémantiques des contenus seront par ailleurs fournis aux bibliothèques, qui pourront les intégrer à leurs plateformes (Anno, Digi, Gallica ). En outre, toutes les publications et jeux de données sont mis à disposition de façon libre, ainsi que le code source des outils logiciels développés.  Du matériel pédagogique est également en cours de développement, afin de fournir des séquences d’enseignements s’appuyant sur la plateforme NewsEye, dans le cadre d’interventions en collège, lycée, et université.

Enfin, les résultats obtenus par exemple dans l’enrichissement sémantique des contenus sont transposables à d’autres types de documents, ce qui offre des perspectives de transfert.

Travailles-tu sur d’autres projets en parallèle ?

Il y a en effet plusieurs autres projets en parallèle. Celui qui est le plus directement lié à NewsEye est un autre projet du programme H2020, intitulé Embeddia (Cross-Lingual Embeddings for Less-Represented Languages in European News Media) et qui se déroule de janvier 2019 à décembre 2021. Coordonné par l’institut Jozef Stefan de Ljubljana en Slovénie, il vise à améliorer l’analyse des langues européennes peu dotées. Nous y mettons en œuvre des approches d’apprentissage cross-lingue, c’est-à-dire qui visent à mieux analyser les textes dans une langue dite « cible » à l’aide de ressources dans une ou plusieurs autres langues (par exemple, utiliser un dictionnaire français pour une meilleure analyse automatique du croate).

Par ailleurs, la région Nouvelle-Aquitaine va financer un projet complémentaire à NewsEye, intitulé ANNA, qui a pour objectif de développer une plateforme dédiée à la presse ancienne de Nouvelle-Aquitaine.

Je contribue également à divers degrés à plusieurs efforts de valorisation et de transfert, par exemple dans le cadre d’une thèse CIFRE qui vise à détecter les sujets émergents de l’actualité financière, mais aussi dans le cadre de la détection de fraude et l’analyse sémantique de documents administratifs (contemporains) en lien avec le laboratoire commun IDEAS entre le L3i et la société Yooz.

Ces derniers travaux mettent en œuvre des approches multimodales, c’est-à-dire des approches qui combinent informations visuelles et textuelles, ce qui est un pan plus récent de mon activité. La généralité de l’applicabilité de certaines méthodes d’intelligence artificielle m’a même récemment amené à changer de terrain et à encadrer au ICTLab des travaux en analyse d’image, visant la détection de mélanomes.

En résumé, il y a beaucoup de sujets intéressants à traiter. Heureusement, grâce aux moyens obtenus je suis actuellement entouré d’une formidable équipe de jeunes chercheur·euses qui rendent toutes ces choses possibles. Je tiens d’ailleurs à souligner qu’absolument toutes les activités mentionnées ci-dessus sont des efforts collectifs.

Lire l’article d’Antoine Doucet « Covid-19 et grippe espagnole : quand la presse du XXᵉ siècle rappelle celle de 2020″.