Article : Le réservoir RDF de FranceArchives

Les métadonnées archivistiques sur FranceArchives sont constituées des :

Ainsi, à partir de données essentiellement linéaires et bidimensionnelles que sont les inventaires en XML EAD et les notices producteurs en XML EAC-CPF, FranceArchives constitue-t-il un modèle de données éclaté composé d’entités liées entre elles par des relations.

Les autorités lieux, agents et thèmes sont harmonisées et alignées vers des référentiels nationaux et internationaux, afin de les rendre compatibles avec les principes de qualité des données FAIR (Findable Accessible Interoperable Reusable / Recherchable Accessible Interopérable Réutilisable). Ce réservoir d’autorités vérifiées est dit « autorités de qualité », qui est accessible en consultation à partir de la page d’accueil, en données ouvertes (open data) et dans l’entrepôt SPARQL.

Afin d’inscrire les métadonnées archivistiques françaises dans le web de données liées, le portail FranceArchives a converti en RDF les données suivantes en utilisant les ontologies :

  • RiC-O (Records in Contexts)  : inventaires et composants, notices descriptives de producteurs d'archives, autorités de qualité ;
  • schema.org : fiches signalétiques des services dans l’annuaire.

Le choix de l’ontologie RiC-O v0.2 s’est naturellement imposé pour les métadonnées archivistiques à la suite des travaux réalisés par les Archives nationales pour le prototype PIAAF en 2017, puis RiC-O converter en 2019 et le démonstrateur Sparnatural en 2022, qui ont prouvé que le modèle RiC permet de décrire efficacement les archives en RDF. Ce modèle est cependant peu adapté pour décrire les renseignements pratiques relatifs aux services d’archives tels que figurant dans la norme ISDIAH traduite en XML EAG. Ces derniers ont donc été convertis en utilisant schema.org.

La conversion en RDF est réalisée à partir des informations extraites des fichiers XML et stockées dans la base de données CubicWeb. Des tables de concordance entre données en XML EAD et EAC-CPF, et le RDF, inspirées de celles publiées par les Archives nationales dans le cadre du projet RiC-O converter, ont été adaptées au modèle et à la qualité des données sur FranceArchives. Pour pallier l’hétérogénéïté des autorités, seules celles dites de qualité sont converties en RDF.

Les données présentes sur le portail ont imposé des choix et ont fait apparaître quelques limites :

  • L’inventaire et la notice producteur complets en XML sont liés aux entités en tant qu’instantiation.
  • Pour certains éléments, deux traductions ont été réalisées.
  • Certaines données, en particulier les notices descriptives de producteurs réalisées par les Archives nationales, pointent vers des référentiels internes qui ne sont pas exposés sur le web avec des URI. Ces derniers sont exploités par les requêtes, mais les informations ne peuvent pas être affichées dans les résultats de recherche (ex. fonction, activité).
  • L’absence d’une indexation des producteurs dans la balise Origine (<origination>) ne permet pas d’utiliser la relation de provenance « HasProvenance » avec un agent présent sur le portail. Les informations sont alors converties en texte libre dans une entité History.
  • L’hétérogénéïté de l’utilisation de l’attribut @level au niveau de l’inventaire et des composants n’a pas permis son exploitation pour une conversion fine en RDF. Tous les inventaires et composants sont donc traités comme des entités « RecordRessource », interdisant d’utiliser certains attributs comme HasDocumentaryType.

Les autorités lieux et agents, respectivement alignées vers Geonames et Wikidata, sont enrichies de relations provenant de ces deux réservoirs de données. Il est ainsi possible d’étendre la recherche aux entités administratives supérieures d’un lieu grâce aux relations inclusives de Geonames. Quant aux personnes, ce sont les relations de parenté et d’appartenance ou de participation à un organisme qui sont exploitées, telles qu’elles existent sur Wikidata qui est une entreprise participative en constante évolution.

FranceArchives met à disposition les données en RDF par :

Les données du portail sont converties en RDF tous les six mois.

Liens