beandeau>

Programme > Mercredi 26 novembre


8h30 - 9h00 | Café d'accueil


Session 2 : Diversité des interdépendances entre science ouverte et intelligence artificielle 

Session animée par Violaine Louvet

9h00 - 9h30 | Les plateformes de découverte du projet LUMEN : un enjeu majeur d'interdisciplinarité et de promotion de la science

  • Suzanne Dumouchel (CNRS)
Résumé : La présentation vise à introduire le projet LUMEN et en particulier ses objectifs dans le contexte de la science ouverte et de la mise en oeuvre de la fédération EOSC. 4 plateformes de découvertes sont en cours de développement, dédiées chacune à des communautés scientifiques différentes. Elles s'appuient sur des technologies variées dont l'IA pour répondre au plus près aux besoins des communautés tout en créant des ponts dans une perspective d'innovation.
 

9h30 - 10h00 | No Science Without Source: Collecting, Preserving and Sharing Software in a Risky World

  • Roberto Di Cosmo (Software Heritage)

Abstract : Software is a public good—and today it is also a public risk if we fail to preserve it. Software Heritage was created to collect, preserve, and share all publicly available source code at planetary scale (now 26+ billion unique files from ~400 million projects) and to make each artifact citable and verifiable via the intrinsic SWHID identifier (ISO 18670).

This talk shares what we have learned while operating a universal archive at scale:

  • handling GDPR-driven requests (e.g., author name changes) and takedowns with due process;
  • the huge challenge of the massive sharing of unlicensed code, or how copyright law is in practice nullifying a big part of existing software altruism;
  • maintaining provenance, integrity and accountability across diverse forges;
  • and, more recently, confronting the AI wave and the fragility of modern digital infrastructure.

I will summarize our “LLMs for code” stance—three simple principles: giving back the foundation models, transparency about training data, respect for authorship and licensing—then discuss how the CodeCommons initiative operationalizes them to enable responsible, open AI on software.

Finally, I’ll address a clear and present danger: Europe’s dependence on non-EU platforms for critical code and packages. A single disruption can stall research pipelines, and much more, overnight.
We propose a coalition effort—grounded in data altruism—to fund a rapid, massive expansion of Software Heritage (mirrors, package-manager fallbacks, 24/7 resilience) so academia can fulfill its duty to provide trustworthy digital resources to society, inform policy, and foster fair innovation.

SUPPORT

10h00 - 10h30 | Construire des LLM de taille moyenne véritablement ouverts, centrés sur le français : pourquoi et comment

  • Julie Hunter (Linagora)

Résumé : Il existe aujourd'hui une large gamme de LLM pouvant être utilisés pour diverses tâches telles que la traduction, la synthèse ou l'interrogation de bases de données. Les LLM traditionnels posent toutefois des défis importants. Bien qu'il y ait eu une tendance vers les modèles « open-weights », qui peuvent être affinés par les utilisateurs finaux et utilisés pour générer des données sans passer par une API externe, une grande partie de leur développement, y compris les données utilisées pour les entraîner, reste opaque. Cette opacité limite la recherche, laissant les connaissances entre les mains de quelques grandes entreprises, et encourage la dépendance à des modèles généralistes qui peuvent ne pas être bien adaptés à une langue ou à un cas d'utilisation donné. Cette présentation décrit l'initiative OpenLLM France, dont l'objectif est de développer des LLM de taille moyenne entièrement ouverts, centrés sur la langue française. Nous décrivons notre processus ainsi que les défis que nous avons rencontrés dans notre démarche visant à construire une IA véritablement ouverte.

SUPPORT

10h30 - 11h00 | Pause

11h00 - 11h30 | Intérêt et limites des données en open data pour les recherches en IA juridique

  • Etienne Vergès (Centre de Recherches Juridiques, UGA)
Résumé : Dans le domaine juridique, les données en sources ouvertes sont très nombreuses. En particulier, en France, l'ensemble des dispositions légales et des décisions de justice sont progressivement mises en accès libre par les institutions publiques. Cette stratégie de libération des données juridiques offre des opportunités dans le domaine de la recherche juridique et le développement des modèles d'IA générative participe au déploiement de nouveaux outils dans une matière qui est essentiellement constituée par du langage naturel. La libération des données a généré une nouvelle économie au sein du secteur de la legaltech. Toutefois, si l'ouverture des données contribue à transformer en profondeur la pratique du droit, elle n'est pas sans limites pour le développement des projets, notamment dans le secteur de la recherche publique

11h30 - 12h00 | De RAGaRenn à ILaaS, des plateformes d'IA allant du local au national

  • Olivier Wong (Université de Rennes)

RésuméLa présentation vise à détailler les projets RAGaRenn et ILaaS, qui sont des solutions d'IA générative sur une infrastructure locale à partir de composants open source tels que open web ui, vLLM, Litellm, aristote-dispatcher. Initialement le projet RAGaRenn est lancé en mars 2024 comme une expérimentation visant à comprendre les technologies sous-jacentes, dimensionner plus précisément les ressources nécessaires, en estimer l'impact carbone direct et mieux cerner les usages spécifiques pertinents dans un contexte professionnel, avec des exemples dans certains domaines scientifiques.
L'expérimentation RAGaRenn change d'échelle à l'occasion du Sommet pour l'action sur l'IA en février 2025 en ouvrant des accès à l'ensemble des acteurs de l'ESR souhaitant collaborer sur le sujet, grâce à la fédération d'identité Education-Recherche (Renater). Début 2025 marque aussi le démarrage du projet de fédération ILaaS qui regroupe plusieurs établissements partageant les mêmes constats autour des enjeux de soutenabilité économique et environnementale, de résilience, de confiance et de souveraineté. En lien avec la trajectoire de RAGaRenn, je présenterai l'offre actuelle de l'infrastructure fédérée ILaaS et des éléments de la feuille de route 2026, ainsi que des perspectives de mutualisation au niveau national en lien avec l'AMUE et la DINUM.

SUPPORT


12h00 - 14h00 | Déjeuner


Session 3 : Panorama des pratiques de la science ouverte et de l'intelligence artificielle 

Session animée par Lucie Albaret et Maxence Larrieu

14h00 - 14h30 | Vers un monde de lecteurs et d'auteurs machiniques ? Les effets massifs de l'IA générative sur la production académique

  • Didier Torny (CNRS) 

Résumé : Les AI génératives sont porteurs de promesses et de menaces à moyen terme sur les publications scientifiques. Mais dès aujourd'hui, on peut observer des usages massifs de production de textes à la chaîne, que ce soit dans des usines à articles dédiées ou par des auteurs plus ordinaires. La présentation discutera des objectifs variés de ces productions, ainsi que de leurs effets délétères.

14h30 - 15h00 | Intégration d'IA générative dans le projet ISIDORE

  • Stéphane Pouyllau (CNRS)

Résumé : ISIDORE est un assistant et moteur de recherche pour les chercheurs et chercheures des Lettres, des Sciences Humaines et des Sciences Sociales. Réalisé par l'infrastructure de recherche IR* Huma-Num (CNRS, Campus Condorcet, Aix-Marseille Université) avec l'aide de plusieurs prestataires français (Antidot, Ourouk, Sparna, NodeIA, etc.), ISIDORE est au cœur d'un programme de recherche, ISIDORE 2030, initié et porté par le Huma-Num Lab visant à renouveler ses fonctionnalités de recherche, de suggestions de recherche, espace utilisateurs, etc. Lancé en 2010, ISIDORE est, comme les outils de découverte, en évolution permanente et la généralisation des IA (génératives, de traitement, implémentations de RAG et GraphRAG, etc.) impactent fortement les instruments de recherche qui doivent ainsi « muter » tout en restant fonctionnel pour les communautés qu’ils desservent.
Après 13 ans d'évolution et de fonctionnement comment le renouveler ? et vers quoi ? L’intervention tracera les principaux chantiers d’ISIDORE 2030 tout en revenant sur les étapes franchies depuis ces dernières années.

15h00 - 15h30 | L'IA pour la science ouverte : un allié ambigu 

  • Eric Jeangirard (MESR)

Résumé : L’intelligence artificielle occupe une place croissante dans les pratiques de la science ouverte, en contribuant au suivi, à la classification, à la diffusion (voire à la production) des connaissances scientifiques. Des projets tels que le Baromètre de la Science Ouverte, OpenAlex ou Softcite illustrent l’apport des techniques d’apprentissage automatique et profond pour pallier le manque de métadonnées ouvertes et améliorer la découvrabilité des publications, des données et des logiciels. Parallèlement, les contenus issus de la science ouverte nourrissent à leur tour les modèles d’IA, posant la question d’un équilibre entre accès ouvert, exploitation commerciale et bien commun de la connaissance. Ces évolutions s’accompagnent de tensions nouvelles : concentration des ressources informationnelles, questions liées au droit d’auteur, et prolifération de contenus générés automatiquement qui mettent à l’épreuve l’intégrité scientifique.
Dans ce contexte, des initiatives comme le Works-magnet tentent d’ébaucher un modèle associant automatisation et curation humaine, pour garantir la qualité et la gouvernance partagée des métadonnées. L’enjeu est de construire un écosystème où l’IA et la science ouverte se renforcent mutuellement, dans le respect des principes de transparence, de traçabilité et d’expertise collective.

SUPPORT

15h30 - 16h00 | Présentation des posters et des stands

16h00 - 16h30 | Pause + visite des posters et des stands

16h30 - 17h00 | Codabench, une plateforme pour organiser des compétitions scientifiques

  • Magali Richard (Laboratoire d'Informatique de Grenoble - UGA)
Résumé : Codabench est une plateforme open source, accessible via le web, principalement utilisée par la communauté du machine learning pour organiser des compétitions publiques dans le domaine de l’analyse de données. Codabench offre la possibilité d’organiser des compétitions et des benchmarks de manière flexible, contribuant ainsi au développement de méthodes avancées en analyse de données et à la promotion de la reproductibilité des résultats.
De plus, la plateforme favorise l’apprentissage pratique et encourage la collaboration au sein de la communauté scientifique. Je présenterai une vue d’ensemble de la plateforme Codabench, de ses fonctionnalités, et mettrai en lumière son importance dans les domaines de la bioinformatique et de la biologie computationnelle, où la comparaison équitable des algorithmes est essentielle. Plus précisément, je présenterai deux études de cas illustrant comment Codabench peut contribuer efficacement à la fois à l’enseignement et à la recherche scientifique au sein de la communauté bioinformatique.

17h00 - 17h30 | Retour d’expérience et dynamiques autour de la transcription automatisée

  • Max Beligné  (PUD-GA - UGA) 
Résumé : En septembre 2022, la société OpenAI sort le modèle Whisper en open-weight entrainant un changement majeur dans le monde de la transcription automatisée. Après avoir explicité ce changement, nous verrons qu’entre la sortie du modèle et son utilisation par un grand nombre de chercheurs, il y a quelques étapes à franchir. Ce parcours sera illustré par l’exemple de la mise en place de la plateforme grenobloise de transcription TADDDAM (Transformations, Analyses et Développements de Données, Documents et Archives Multimédia) et du groupe national de travail TIPS-IA (Transcription Interface Pipeline Synergie - Intelligence Artificielle : https://mate-shs.cnrs.fr/les-groupes/groupes-thematiques/tips-ia/). Nous nous attarderons sur les dynamiques liées au caractère open-weight (en non closed-source) de ce modèle Whisper.
Si ce dernier a été pendant plus de deux ans dominant, de nouveaux modèles plus efficients sont maintenant disponibles. Quels sont les enjeux de ce moment post-Whisper en cours ?
 

17h30 - 19h30 | Echanges autour des posters et stands + cocktail

Chargement... Chargement...