IA et découvrabilité scientifique :
enjeux pour la francophonie
Jeudi 30 avril 2026
UQAM, Montréal (Québec), Canada
– ÉVÉNEMENT HYBRIDE –
Enjeux d’adaptation et d’autonomie pour l’IA francophone
de 14h45 à 15h45
14h45 - 15h05 | Le Québec à l’heure de l’IA : une banque de données publique pour renforcer la souveraineté culturelle et numérique
À l’ère des grands modèles de langage et de l’intelligence artificielle générative, les modes d’accès aux savoirs se transforment profondément. Dans ce contexte, la découvrabilité des contenus scientifiques en français devient un enjeu stratégique pour la francophonie. Les systèmes d’IA dominants, majoritairement entraînés sur des corpus anglophones, contribuent à une sous-représentation des savoirs francophones et soulèvent des risques pour la souveraineté numérique des nations francophones.
Cette présentation s’appuie sur les constats issus de l’étude de faisabilité du projet de Banque de données gouvernementales et culturelles en français et en langues autochtones, portée par Bibliothèque et Archives nationales du Québec (BAnQ). Cette étude analyse les conditions de mise en place d’une infrastructure publique de données destinée à soutenir des usages responsables de l’IA, notamment pour la valorisation des contenus numériques francophones.
L’étude met en lumière plusieurs enjeux : l’accès limité à des corpus juridiquement exploitables pour la recherche en IA, le renforcement de la traçabilité des usages des données, ainsi que l’importance de préparer des données « prêtes pour l’IA », dans le respect des droits et des principes de souveraineté des données.
La présentation défend l’hypothèse qu’une banque de données publique, conçue comme un tiers de confiance au sein de l’écosystème de l’IA au Québec, constitue un levier pour renforcer la découvrabilité scientifique en français. En articulant gouvernance des données et encadrement des usages des données pour l’IA, une telle infrastructure peut améliorer la représentativité des spécificités culturelles québécoises dans les modèles d’IA et soutenir une circulation des savoirs plus équitable.
Présenté par
15h05 - 15h25 | Adaptation dialectale à faible ressource de grands modèles linguistiques : une étude de cas sur le dialecte québécois
Malgré l’adoption généralisée des grands modèles de langages (LLM), leurs performances demeurent largement limitées à un petit nombre de langues disposant de ressources importantes et de données d’entraînement abondantes. Récemment, le pré-entraînement continu (CPT) a émergé comme une méthode permettant d’affiner ces modèles pour les dialectes régionaux à faibles ressources. Dans le cadre de cette recherche, nous étudions l’utilisation du CPT pour l’apprentissage dialectal avec des ressources de données et de calcul limitées. Grâce à l’adaptation de bas rang (LoRA) et au pré-entraînement continu à faible coût de calcul, nous adaptons trois LLMs au dialecte québécois à partir d’un très petit ensemble de données et les évaluons sur la suite d’évaluation COLE. Nos expériences démontrent une amélioration par rapport aux performances de référence pour les dialectes minoritaires, avec une régression minimale par rapport aux performances de référence pour les langues de prestige, et ce, avec environ 1% des paramètres du modèle mis à jour. L’analyse des résultats montre que les gains dépendent grandement de la composition du corpus. Ces résultats indiquent que le CPT peut réduire l’écart dialectal en fournissant une création de ressources linguistiques rentable et durable, et en élargissant l’accès à des LLMs de haute qualité aux communautés linguistiques minoritaires. Afin de favoriser la reproductibilité et d’élargir l’accès, nous publions les premiers LLM québécois en français sur Hugging Face.
Présenté par
15h25 - 15h45 | Des outils d'IA pour la science en français : exemples et perspectives
Cette présentation explore comment les outils d’intelligence artificielle peuvent renforcer ou fragiliser la science en français dans un contexte marqué par la domination de l’anglais.
Elle donnera un aperçu des outils utilisés pour la découvrabilité scientifique, des moteurs de recherche traditionnels jusqu’aux systèmes d’IA générative. Si ces derniers semblent dotés d’un fort potentiel pour découvrir et valoriser les contenus scientifiques multilingues, ils soulèvent surtout des risques importants : standardisation des savoirs, dépendance et enjeux de souveraineté des données et de propriété intellectuelle.
Seront ensuite présentées deux initiatives concrètes liées au traitement automatique de la parole.
La première concerne CEREALES, un nouvel ensemble de données d’environ 350 heures de parole spontanée en français québécois, partagé afin de soutenir la recherche pour le traîtement d’accents francophones sous-représentés. Cette ressource vise à améliorer la repérabilité de ses contenus scientifiques oraux, notamment les conférences, entretiens, archives orales et événements savants.
La seconde porte sur Calame, un logiciel de traitement automatique multilingue de la parole, libre, gratuit et convivial. Sa couverture linguistique cible la francophonie, avec une première spécialisation pour le français québécois. Permettant notamment le traitement de fichiers audio en usage local ou distant, Calame vise à réduire la dépendance aux solutions commerciales coûteuses, peu flexibles, et généralement peu scrupuleuses quant à leur gestion des données d’utilisation.
Ensemble, ces deux initiatives illustrent des perspectives pour des outils d’IA accessibles, ouverts et adaptés aux réalités francophones.
