Création automatique de métadonnées sémantique dans les articles Stylo

Ce projet a l’ambition d’aider les auteur·e·s et les éditeur·ice·s à produire et gérer un contexte sémantique qui définit un article par l’enrichissement sémantique automatique. Ces données enrichies reposent sur des langages contrôlées et des langages issus du web sémantique dans l’intérêt d’une découvrabilité définie en amont par les créateur·ice·s de contenus référencés et non en aval par les stratégies de moissonnage des moteurs de recherche.

Problématique

Dans le cas de la recherche documentaire, les moteurs de recherche font de plus en plus l'objet d'approches inductives essayant d'extraire des informations sémantiques qui n'ont pas été déterminées par les créateur·ice·s des publications savantes, mais plutôt induites selon une logique de synthétisation, voire de vulgarisation de l'information, sans que la cohérence avec le vocabulaire spécialisé du domaine n'ait été vérifiée. Cela nous expose de manière croissante à un risque de perte de contrôle sur l'information que nous produisons et de son sens. À l'époque de l'emploi généralisé des LLMs génératifs pour des tâches diverses sur lesquelles leur utilisation n'est encore bien évaluée, il devient encore plus urgent de réintroduire dans les textes que nous produisons des couches sémantiques que nous maîtrisons. C'est la raison pour laquelle ce projet se concentre sur l'expérimentation de diverses techniques pour l'enrichissement sémantique des articles dans Stylo par l'emploi de méthodes d'extractions basées non seulement sur des modèles inductifs que sur des stratégies déductives dans l'optique d'une production transparente de métadonnées sémantiquement riches.

Enjeux techniques

Analyse des algorithmes existants et de leurs implications théoriques et épistémologiques
Modélisation de protocoles d'enrichissement sémantique d'articles
Analyse des besoins des revues partenaires
Conception d'un prototype à intégrer dans le module d'écriture de Stylo

Actions de recherche

Choix des métadonnées pertinentes pour l'enrichissement sémantique
Benchmark des systèmes pour l'identification de ces données à l'état de l'art (ex: NER, keyword extraction)
Prototype pour l'intégration à différents moments (écriture, avant l'export) du module
Évaluation sur une instance de développement
Déploiement du module sur Stylo public

Livrables

Un prototype d'annotation sémantique des articles intégré dans Stylo.

Création automatique de métadonnées sémantique dans les articles Stylo

Problématique

Enjeux techniques

Actions de recherche

Livrables

Personnes

Partenaires