Création automatique de métadonnées sémantique dans les articles Stylo
Ce projet a l’ambition d’aider les auteur·e·s et les éditeur·ice·s à produire et gérer un contexte sémantique qui définit un article par l’enrichissement sémantique automatique. Ces données enrichies reposent sur des langages contrôlées et des langages issus du web sémantique dans l’intérêt d’une découvrabilité définie en amont par les créateur·ice·s de contenus référencés et non en aval par les stratégies de moissonnage des moteurs de recherche.
Problématique
Dans le cas de la recherche documentaire, les moteurs de recherche font de plus en plus l'objet d'approches inductives essayant d'extraire des informations sémantiques qui n'ont pas été déterminées par les créateur·ice·s des publications savantes, mais plutôt induites selon une logique de synthétisation, voire de vulgarisation de l'information, sans que la cohérence avec le vocabulaire spécialisé du domaine n'ait été vérifiée. Cela nous expose de manière croissante à un risque de perte de contrôle sur l'information que nous produisons et de son sens. À l'époque de l'emploi généralisé des LLMs génératifs pour des tâches diverses sur lesquelles leur utilisation n'est encore bien évaluée, il devient encore plus urgent de réintroduire dans les textes que nous produisons des couches sémantiques que nous maîtrisons. C'est la raison pour laquelle ce projet se concentre sur l'expérimentation de diverses techniques pour l'enrichissement sémantique des articles dans Stylo par l'emploi de méthodes d'extractions basées non seulement sur des modèles inductifs que sur des stratégies déductives dans l'optique d'une production transparente de métadonnées sémantiquement riches.
Enjeux techniques
- Analyse des algorithmes existants et de leurs implications théoriques et épistémologiques
- Modélisation de protocoles d'enrichissement sémantique d'articles
- Analyse des besoins des revues partenaires
- Conception d'un prototype à intégrer dans le module d'écriture de Stylo
Actions de recherche
- Choix des métadonnées pertinentes pour l'enrichissement sémantique
- Benchmark des systèmes pour l'identification de ces données à l'état de l'art (ex: NER, keyword extraction)
- Prototype pour l'intégration à différents moments (écriture, avant l'export) du module
- Évaluation sur une instance de développement
- Déploiement du module sur Stylo public
Livrables
Un prototype d'annotation sémantique des articles intégré dans Stylo.