IA et découvrabilité scientifique :

enjeux pour la francophonie​

Jeudi 30 avril 2026

UQAM, Montréal (Québec), Canada

– ÉVÉNEMENT HYBRIDE –

Enjeux d’adaptation et d’autonomie pour l’IA francophone

de 14h45 à 15h45

14h45 - 15h05 | Le Québec à l’heure de l’IA : une banque de données publique pour renforcer la souveraineté culturelle et numérique
Geneviève Gamache Vaillancourt – Bibliothèque et Archives nationales du Québec (BAnQ)
Viriya Thach – Bibliothèque et Archives nationales du Québec (BAnQ)

À l’ère des grands modèles de langage et de l’intelligence artificielle générative, les modes d’accès aux savoirs se transforment profondément. Dans ce contexte, la découvrabilité des contenus scientifiques en français devient un enjeu stratégique pour la francophonie. Les systèmes d’IA dominants, majoritairement entraînés sur des corpus anglophones, contribuent à une sous-représentation des savoirs francophones et soulèvent des risques pour la souveraineté numérique des nations francophones.

Cette présentation s’appuie sur les constats issus de l’étude de faisabilité du projet de Banque de données gouvernementales et culturelles en français et en langues autochtones, portée par Bibliothèque et Archives nationales du Québec (BAnQ). Cette étude analyse les conditions de mise en place d’une infrastructure publique de données destinée à soutenir des usages responsables de l’IA, notamment pour la valorisation des contenus numériques francophones.

L’étude met en lumière plusieurs enjeux : l’accès limité à des corpus juridiquement exploitables pour la recherche en IA, le renforcement de la traçabilité des usages des données, ainsi que l’importance de préparer des données « prêtes pour l’IA », dans le respect des droits et des principes de souveraineté des données.

La présentation défend l’hypothèse qu’une banque de données publique, conçue comme un tiers de confiance au sein de l’écosystème de l’IA au Québec, constitue un levier pour renforcer la découvrabilité scientifique en français. En articulant gouvernance des données et encadrement des usages des données pour l’IA, une telle infrastructure peut améliorer la représentativité des spécificités culturelles québécoises dans les modèles d’IA et soutenir une circulation des savoirs plus équitable.

Présenté par
Geneviève Gamache-Vaillancourt est directrice de la recherche et de la diffusion des collections à la Direction générale de la découvrabilité et de la Bibliothèque nationale à BAnQ. Bibliothécaire de formation, elle a œuvré en milieu universitaire pendant près de 14 ans avant de se joindre à BAnQ, en 2018.
Viriya Thach travaille à BAnQ depuis 2019, où elle est responsable de la gouvernance des données. Elle contribue à la transformation numérique de l’institution et à l’amélioration des services numériques destinés aux citoyens. Elle joue notamment un rôle clé dans l’étude de faisabilité visant la création d’une banque de données gouvernementales et culturelles, un projet destiné à soutenir le développement et l’usage responsables de l’intelligence artificielle à partir de données reflétant les spécificités culturelles et linguistiques du Québec.
15h05 - 15h25 | Adaptation dialectale à faible ressource de grands modèles linguistiques : une étude de cas sur le dialecte québécois
Eeham Khan – Université Concordia
Firas Saidani – Université Laval (ULaval)
Owen Van Esbroeck – Université Concordia
Richard Khoury – Université Laval (ULaval)
Leila Kosseim – Université Concordia

Malgré l’adoption généralisée des grands modèles de langages (LLM), leurs performances demeurent largement limitées à un petit nombre de langues disposant de ressources importantes et de données d’entraînement abondantes. Récemment, le pré-entraînement continu (CPT) a émergé comme une méthode permettant d’affiner ces modèles pour les dialectes régionaux à faibles ressources. Dans le cadre de cette recherche, nous étudions l’utilisation du CPT pour l’apprentissage dialectal avec des ressources de données et de calcul limitées. Grâce à l’adaptation de bas rang (LoRA) et au pré-entraînement continu à faible coût de calcul, nous adaptons trois LLMs au dialecte québécois à partir d’un très petit ensemble de données et les évaluons sur la suite d’évaluation COLE. Nos expériences démontrent une amélioration par rapport aux performances de référence pour les dialectes minoritaires, avec une régression minimale par rapport aux performances de référence pour les langues de prestige, et ce, avec environ 1% des paramètres du modèle mis à jour. L’analyse des résultats montre que les gains dépendent grandement de la composition du corpus. Ces résultats indiquent que le CPT peut réduire l’écart dialectal en fournissant une création de ressources linguistiques rentable et durable, et en élargissant l’accès à des LLMs de haute qualité aux communautés linguistiques minoritaires. Afin de favoriser la reproductibilité et d’élargir l’accès, nous publions les premiers LLM québécois en français sur Hugging Face.

Présenté par
Eeham Khan est un doctorant à l’Université Concordia, où il travaille en traitement automatique du langage naturel et en apprentissage continu, avec un intérêt particulier pour la mémoire à long terme des grands modèles linguistiques (LLM). Auparavant, il a effectué un stage de recherche au Centre de recherche informatique de Montréal (CRIM), où il a travaillé sur des systèmes RAG fiables et explicables pour des applications spécifiques à un domaine.
15h25 - 15h45 | Des outils d'IA pour la science en français : exemples et perspectives
Gaëlle Laperrière – Université du Québec à Montréal (UQAM)

Cette présentation explore comment les outils d’intelligence artificielle peuvent renforcer ou fragiliser la science en français dans un contexte marqué par la domination de l’anglais.

Elle donnera un aperçu des outils utilisés pour la découvrabilité scientifique, des moteurs de recherche traditionnels jusqu’aux systèmes d’IA générative. Si ces derniers semblent dotés d’un fort potentiel pour découvrir et valoriser les contenus scientifiques multilingues, ils soulèvent surtout des risques importants : standardisation des savoirs, dépendance et enjeux de souveraineté des données et de propriété intellectuelle.

Seront ensuite présentées deux initiatives concrètes liées au traitement automatique de la parole.

La première concerne CEREALES, un nouvel ensemble de données d’environ 350 heures de parole spontanée en français québécois, partagé afin de soutenir la recherche pour le traîtement d’accents francophones sous-représentés. Cette ressource vise à améliorer la repérabilité de ses contenus scientifiques oraux, notamment les conférences, entretiens, archives orales et événements savants.

La seconde porte sur Calame, un logiciel de traitement automatique multilingue de la parole, libre, gratuit et convivial. Sa couverture linguistique cible la francophonie, avec une première spécialisation pour le français québécois. Permettant notamment le traitement de fichiers audio en usage local ou distant, Calame vise à réduire la dépendance aux solutions commerciales coûteuses, peu flexibles, et généralement peu scrupuleuses quant à leur gestion des données d’utilisation.

Ensemble, ces deux initiatives illustrent des perspectives pour des outils d’IA accessibles, ouverts et adaptés aux réalités francophones.

Présenté par
Gaëlle Laperrière est stagiaire postdoctorale de l’Université du Québec à Montréal (UQAM) au sein du Centre interuniversitaire de recherche sur la science et la technologie (CIRST). Elle détient depuis 2024 un doctorat en Informatique, obtenu au Laboratoire Informatique d’Avignon (LIA), qui lui a permis de se spécialiser dans le domaine de l’intelligence artificielle pour le traitement automatique et la compréhension de la parole multilingue. Ses recherches s’orientent tout particulièrement autour du traitement automatique du langage naturel (TALN) pour des langues et domaines peu dotés. Elle est actuellement co-coordinatrice de la Chaire de recherche du Québec sur la Découvrabilité des contenus scientifiques en français.