Bandeau SAGEO 2025

Ateliers MAGIS [21 mai] > Humanités numériques spatialisées (journée complète)

Les humanités numériques spatialisées à l’ère des graphes de connaissances et des grands modèles de langage

 

Actions de Recherche du GdR MAGIS : AR 04 (Ontologies pour l’interdisciplinarité), AR 07 (Humanités Numériques Spatialisées), AR 08 (Graphes de Connaissances Géohistorique)

Responsable(s)/animateur.trice.s : Nathalie Abadie, Damien Arvor, Carmen Brando, Bertrand Duménieu, Raphaëlle Krummeich, Éric Masson et Ludovic Moncla.

Contact : bertrand.dumenieu@ehess.fr

 

Programme

 

9h30 : Introduction de la journée - mot d'accueil des AR organisatrices

9h45
: Présentation invitée : Isabelle Mougenot (Université Montpellier, UMR 228 Espace Dev)

Graphes de connaissances spatio-temporels pour l'interdisciplinaire

Résumé :
Les sciences dans leur généralité se voient souvent dans l'obligation de traiter de la manière la plus appropriée qu'il soit, deux dimensions qu'elles partagent, et qui sont le temps et l'espace. Nous verrons dans cette présentation comment ces deux dimensions peuvent être représentées au sein de graphes de connaissances (KGs),  et quelles peuvent en être les portées. Les KGs sont envisagés sur la base de structures inter-reliant des entités et qui facilitent à la fois la compréhension des dynamiques sous-jacentes et l'intégration de données multi-sources. Les KGs seront envisagés préférentiellement comme très fortement apparentés aux ontologies adossées aux langages du W3C (OWL 2 en particulier). A ce titre, les ontologies OWL Time (temps) et GeoSPARQL (espace) seront explorées en adéquation avec différentes thématiques (sciences du vivant et de la santé, sciences de l'environnement et humanités numériques). Les technologies, à l'exemple des systèmes de gestion de données graphes et des triplestores, qui viennent appuyer les travaux autour de la construction et la manipulation des KGs seront également brièvement introduites et illustrées. La fin de la présentation sera consacrée à la place des KGs aujourd'hui dans les IA génératives avec un focus particulier sur l'IA dite explicable (XAI), et la génération augmentée par récupération (RAG).

10h45
: Pause café

11h15
: Session LLM et information géographique

Guillaume Touya, Jérémy Kalsron, Laura Wenclik, Quentin Potié and Bérénice Le Mao
Il s’agit d’une carte OpenStreetMap - Description de cartes par des grands modèles de langage

Antoine Taroni, Ludovic Moncla and Frédérique Laforest
Vers une extraction automatique de structures spatiales statiques pour le français

Cristophe Claramunt
Les défis des LLMs dans la gestion et l'extraction d'informations géographiques

12h30
: Déjeuner

14h00
: Présentation invitée : Caroline Parfait (Sorbonne Université, ObTIC)

Explorer la collection Française d'ELTeC avec l'outil de cartographie textuelle Epiméthée

Résumé :
Dans le cadre de l’exploration de la collection française de l'European Literary Text Collection (ELTeC), nous avons développé Épiméthée, un outil de cartographie textuelle centré sur la reconnaissance d'entités nommées (REN) géographiques. Ce projet a pour objectif de faciliter l’analyse spatiale de corpus littéraires, tout en tenant compte des défis liés à la qualité des données textuelles issues de la reconnaissance optique de caractères (OCR). En effet, les textes ainsi transcrits demeurent sujets à des erreurs, introduisant du bruit (ajouts ou substitutions) et des silences (omissions), susceptibles d’altérer la qualité des processus de REN.
Une première étude conduite sur plusieurs œuvres de la collection ELTeC révèle de manière surprenante que de nombreuses entités, bien que mal orthographiées ou contaminées, sont malgré tout reconnues par les systèmes de REN. Cette analyse montre également que, contrairement à une idée largement répandue, une part significative des erreurs observées n'est pas directement imputable aux défauts de l’OCR, mais résulte des limites propres aux modèles de REN. Une seconde étude, portant sur l'impact de la correction automatique des transcriptions OCR, indique que si certaines erreurs peuvent effectivement être rectifiées, des sur-corrections introduisent de nouveaux artefacts, complexifiant ainsi l’extraction fiable des entités spatiales.
Face à ces constats, nous avons conçu Épiméthée comme une chaîne de traitement intégrée, combinant la transcription OCR, l’extraction d’entités, la visualisation cartographique et des outils d’assistance au filtrage des données, notamment par la combinaison de plusieurs systèmes de REN et par l’utilisation de méthodes de clustering pour regrouper les formes contaminées d’une même entité. Cette approche vise à permettre l’exploitation effective de corpus imparfaits. À l’issue du traitement, Épiméthée fournit un fichier au format CSV, réexploitable par l’utilisateur, comportant les entités reconnues, leurs coordonnées géographiques et les regroupements réalisés.

15h00
: Pause café

15h30
: Echanges sur les actions à venir pour les AR

17h00
: Clôture

 

Objectif scientifique de l’atelier :

La question centrale de cet atelier est la suivante : comment les grands modèles de langage (LLMs) peuvent-ils contribuer à l’extraction, la
structuration et la gestion de connaissances spatio-temporelles relatives ou imparfaites (floues, fragmentaires, incertaines, imprécises), tout
particulièrement dans le cadre des humanités numériques spatialisées ?

Les documents textuels constituent des sources de connaissances privilégiées dans la plupart des disciplines des sciences humaines et
sociales, voire peuvent en être le principal objet d’étude. Les humanités numériques se sont donc très tôt intéressées aux approches de traitement
automatique du langage naturel pour traiter de grands corpus textuels.

L'avènement récent des grands modèles de langage (LLM) a permis d’obtenir des performances jusque là inédites, sur de nombreuses tâches
d’extraction et de gestion de connaissances : création (semi-)automatique d’ontologies, peuplement de graphes de connaissances, développement
de systèmes de questions-réponses, de systèmes de recommandation, liage de ressources similaires, etc.

L’atelier cherche à interroger les différentes utilisations des LLM pour la gestion des informations spatiales, temporelles ou spatio-temporelles dans
le cadre le cadre des humanités numériques spatialisées :

- Dans quelle mesure les LLM permettent-ils de reconnaître et de structurer des connaissances spatiales, temporelles ou spatio-temporelles à partir de textes ?
- Quels sont leurs éventuels apports en matière de reconnaissances et de structuration d’informations spatio-temporelles relatives ?
- Quels types d’imperfections les LLMs doivent-ils gérer dans les textes ou les graphes de connaissances à traiter (au sens de [Batton-Hubert et al., 2019]) ?
- Comment évaluer la capacité des LLM à reconnaître et restituer des informations relatives ou imparfaites ?
- Comment représenter, manipuler et tirer parti de ces connaissances dans des ontologies ou des graphes de connaissances ?
- Quelles complémentarités peuvent être mises à profit pour extraire et analyser des connaissances spatiales, temporelles ou spatio-temporelles entre approches numériques (LLM et autres
modèles de langage) et symboliques (ontologies, graphes de connaissances) ?

L’objectif est d’ouvrir un espace de discussion sur ces enjeux, en croisant les perspectives de chercheurs et chercheuses de la communauté MAGIS
et de spécialistes d’autres disciplines, pour faire avancer les humanités numériques autour de problématiques de spatialisation, de représentation
et de raisonnement sur les objets spatio-temporels. La journée d’atelier vise à la fois à dresser un aperçu des approches récentes du domaine sur
ces questions et à préfigurer une possible réorganisation des AR organisatrices autour de ces enjeux.

[Batton-Hubert et al., 2019] Batton-Hubert, M., Desjardin, E., & Pinet, F. (2019). L’imperfection des données géographiques 1: Bases théoriques (Vol. 1). ISTE Group.

 

Modalités de fonctionnement : présentations avec keynote, mode hybride, table ronde



Chargement... Chargement...