Article : Effectuer des requêtes SPARQL guidées avec l'outil Sparnatural

L’outil Sparnatural est un outil d’aide à formuler des requêtes SPARQL sans en connaître le langage, développé par la Société Sparna. Il est utilisé par plusieurs projets : OpenArcheo, data.bnf ou encore le démonstrateur des Archives nationales.

Il est proposé sur FranceArchives pour offrir un accès nouveau aux métadonnées archivistiques, complémentaire de la recherche classique par le moteur du portail, puisqu'il permet de fouiller les données et d'obtenir des résultats de recherche comportant des liens vers les pages du portail pour visualiser les notices complètes. Afin de limiter le risque de requêtes sans résultats ou se terminant par une impasse, le périmètre des données interrogées est restreint aux inventaires, composants, notices descriptives de producteurs d’archives et fiches signalétiques des services d’archives liés à une autorité de qualité, soit environ 70% des métadonnées du portail. Ce réservoir continuera à s’enrichir au fur et à mesure de l’import de nouvelles données, de l’avancement des travaux de mise en qualité des autorités et de l'amélioration des données fournies au portail par les services d'archives partenaires.

Pourquoi utiliser SPARQL plutôt que la recherche avancée ?

Une requête SPARQL s’apparente à une recherche avancée dans laquelle il faut décomposer tous les éléments de la requête pour les combiner ensuite entre eux de différentes façons. Construire une requête SPARQL implique de choisir un point d’entrée puis de le relier à différents éléments au moyen de relations. Dans le domaine des archives, il est ainsi possible d'effectuer des requêtes sur les archives dans leur contexte de production puis leur contexte d’évolution et de conservation tout au long de leur cycle de vie, comme le prévoit le nouveau modèle de description, Records in Contexts (RiC).

La recherche avancée et SPARQL permettent une interrogation fédérée quel que soit le lieu de conservation, SPARQL explorant néanmoins plus finement les données en abolissant les frontières entre types de données au sein du portail. Voici un exemple de requête croisée entre documents d'archives et notices de producteurs d'archives :

"Documents d'archives produits par Jean Petit, notaire à Paris" va interroger l'inventaire des minutes notariales de Jean Petit, l'autorité personne Jean Petit, et sa notice descriptive en tant que producteur d'archives.

Les alignements des autorités de qualité vers les notices descriptives de producteurs ou des référentiels et ressources externes à FranceArchives permettent d'enrichir les données du portail. Sparnatural permet également d'exploiter ces informations :

  • Hiérarchie administrative d'un lieu telle que fournie par GeoNames, comme par exemple toutes les communes d'un département ou d'un pays.
  • Relations familiales telles que renseignées dans Wikidata : parents, enfants, fratries, époux/épouse, relation familiale.
  • Relations entre un individu et un organisme telles que décrites dans Wikidata.

Des requêtes SPARQL masquées sont exploitées sur FranceArchives pour offrir des suggestions de recherches supplémentaires, comme par exemple :

Une requête SPARQL permet de faire des statistiques sur les documents d'archives et autres entités présentes dans l'entrepôt. Il est par exemple possible d'obtenir la liste des personnes nées avant 1900, qui sont le sujet de documents d'archives conservés dans une institution.

Attention, l'outil Sparnatural ne permet pas de rédiger des requêtes équivalentes à l'opérateur booléen "OU". Tous les critères renseignés sont cumulatifs.

Les données dans Sparnatural

L'outil Sparnatural interroge un réservoir restreint de données, celles liées aux personnes et institutions, lieux et thèmes de qualité. Il est construit sur un modèle de données spécifique comportant des entités dotées d'attributs et des relations.

Les sept entités/points d'entrée sont :

  • Inventaire d'archives qui correspond à l'intitulé de l'instrument de recherche et affiche par défaut la valeur de l'élément <unittitle>.
  • Document d'archives qui correspond à l'intitulé d'un composant dans un instrument de recherche et affiche par défaut la valeur de l'élément <unittitle> d'un composant <c>.
  • Personne : autorité personne de FranceArchives extraite de l'élément <persname> dans les instruments de recherche et alignée vers une notice de producteurs, Wikidata et/ou data.bnf.
  • Institution : autorité institution de FranceArchives extraite de l'élément <corpname> dans les instruments de recherche et alignée vers une notice de producteurs, Wikidata et/ou data.bnf.
  • Famille : autorité famille de FranceArchives extraite de l'élément <famname> dans les instruments de recherche et alignée vers une notice de producteurs. Voir la liste des familles référencées sur FranceArchives.
  • Lieu : autorité lieu de FranceArchives extraite de l'élément <geogname> dans les instruments de recherche et alignée vers GeoNames.
  • Thème : autorité thème de FranceArchives extraite des éléments <subject>, <genreform>, <function> ou <occupation> dans les instruments de recherche et alignée vers le Thesaurus pour l'indexation matières des archives locales.

Certains points d'entrée disposent d'attributs :

  • Document et Inventaire d'archives : title (élément <unittitle>, contenu (élément <scopecontent>), cote (élément <unitid>), date de création ou date de fin (élément <unitdate>), document numérisé (élément <dao>).
  • Personne : nom, activité (éléments <function> et <occupation> des notices de producteurs d'archives) et dates de naissance, mort, début d'activité et fin d'activité. Les dates de naissance ou de mort proviennent des notices producteurs, de Wikidata ou de data.bnf, les dates d'activités, uniquement des notices de producteurs.
  • Institution : nom, type d'institution (élément <function> des notices producteurs) et dates provenant des notices de producteurs, Wikidata ou data.bnf.
  • Famille : nom.
  • Lieu : nom.
  • Thème : nom.

Les entités sont reliées entre elles par des relations :

  • Relations entre les archives et les entités externes :
    • Document / Inventaire d'archives : contient / fait partie de.
    • Archives / Personne, Institution, Lieu ou Thème : est le sujet de / a pour sujet.
    • Archives / Personne ou Institution : est le producteur de / a pour producteur.
    • Archives / Institution : est conservé / a pour lieu de conservation.
  • Relations entre entités externes :
    • Personne / Institution : appartient / a pour membre.
    • Personne / Personne : relations familiales (parents, enfants, fratries, époux en particulier).
    • Personne / Famille : est membre de / a pour membre (attention, cette relation ne fonctionne que pour les familles décrites dans des notices producteurs).
    • Institution / Institution : a autorité sur / dépend de.
    • Lieu / Lieu : contient / fait partie de.

Faire une requête dans Sparnatural

Avant de rédiger une requête, il faut en décomposer les termes. Ainsi, la requête "Toutes les archives produites par Jean Petit, notaire à Paris" se construit ainsi : Documents faisant partie d’un Inventaire qui a pour producteur Jean Petit (informations présentes dans l’inventaire), dont l’Activité est notaire à Paris (information dans la notice producteur).

Pour rechercher des documents d'archives, il est conseillé de choisir comme point d'entrée "Document d'archives" ou "Inventaire d'archives" et de les lier ensuite à une autre entité. Un clic sur le chevron vert de la relation permet de rendre la relation optionnelle ou négative.

Exemple de bouton pour rendre la relation optionnelle ou négative

Le nombre de réponses est limité à 1 000 par défaut. Pour lever cette limite, il faut la modifier dans "Afficher/masquer éditeur SPARQL".

Changer la limite de résultats dans la requête SPARQL

Pour créer un état des sources sur un thème, il est possible de choisir "Inventaire d'archives" a pour sujet Thème et choisir le thème dans la liste en autocomplétion. Il est possible d'ajouter des propositions, par exemple : Inventaire d'archives relié à une Cote avec pour valeur "tous.tes", pour afficher le titre, la cote, le contenu, le lieu de conservation, etc. Il est possible d'exporter les résultats sous forme d'un fichier csv.

Liens