Sommaire

Article : Permaliens et identifiants pérennes

Comprendre les permaliens et les identifiants pérennes

Qu’est-ce que qu’un permalien ? A quoi servent-ils ?

Un « permalien » est un lien actionnable, un point d’entrée construit pour maintenir dans la durée l’accès à une ressource numérique.

Le permalien, constitué d’un nom de serveur rendant le lien « actionnable »  et d’un « identifiant pérenne » (ARK, DOI, URN, Handle…) associé à une ressource particulière, a vocation à garantir un accès stable et durable à la ressource identifiée indépendamment des changements d’infrastructures technologiques et informatiques, des noms des sites Internet abritant l’objet numérique en cas de changement de nom de l’institution ou si la ressource est transférée d’une institution à une autre, d’un changement des protocoles de communication qui évoluent au fil du temps.

Un permalien est un point d’accès. Il permet la possibilité de citation et d’appel d’un objet numérique, qu’il s’agisse d’une cote d’archives ou d’un ensemble de cotes, d’un sous-ensemble ou d’une collection thématique : une page numérisée, un registre, un fonds composé de multiples cartons…

Permaliens et identifiants pérennes : gare à la confusion !

La confusion entre ce qu’est un « permalien » et un « identifiant pérenne » est souvent de mise.

Le permalien est un lien et plus généralement une URL, «actionnable » par l’utilisateur qui en cliquant dessus, sera redirigé vers la ressource à laquelle il souhaite accéder.  

L’identifiant pérenne est l’un des composants du permalien. Il identifie la ressource en tant que telle.

Le permalien est composé de trois sous-ensembles :

  • le protocole d’accès (« http:// » ou « https:// »)
  • le nom du serveur d’accès (ou nom d’hôte, dit « hostname »)
  • l’identifiant pérenne qui peut correspondre à plusieurs schémas (Handle, ARK, DOI, PURLs…).

 

Schéma d'un lien ark composé du protocole d'accès, du serveur d'accès de l'autorité d'adressage et de l'identifiant pérenne lui même composé dans l'exemple de l'étiquette ark, de l'identifiant de l'institution et du l'identifiant unique (=nom ark)
Schéma d'un permalien composé d'un identifiant ARK

 

L’identifiant « pérenne » est dénommé ainsi car il est en principe généré selon des recommandations qui permettent de le prémunir contre toute modification et toute réplication au sein de l’environnement web. En résumé, l’identifiant pérenne est dit pérenne car il restera toujours identique et unique au monde. Cependant, cette pérennité pour être effective est conditionnée par de nombreux facteurs (voir Sans maintenance, pas de pérennité).

Le permalien n’est pas non plus pérenne en lui-même :

  • Le protocole d’accès peut changer
  • Le nom du serveur d’adressage est transitoire et sera peut-être amené à changer au cours du temps, en fonction des mutations et fusions institutionnelles, des transferts de ressources d’une organisation culturelle à une autre, de la refonte d’un site web, ou de la cessation d’activité d’un service ou d’une administration.

Sans maintenance, pas de pérennité

La pérennité n’est jamais donnée une fois pour toutes. Pour être assurée elle doit être maintenue dans la durée et faire à cette fin l’objet d’une veille régulière et permanente aux niveaux organisationnel et technique. La pérennité de l’accès à une ressource n’est effective qu’au prix d’un effort constant de maintenance.

L’identifiant pérenne, qu’il s’agît d’un ARK ou d’un DOI, pourra répondre à toutes les normes garantissant sa « pérennité », il ne sera réellement utile et exploitable uniquement tant que derrière lui seront déployés les efforts nécessaires à la maintenance du permalien auquel il est associé afin de garantir l’accès à la ressource.

Cette maintenance ne tient pas qu’à des enjeux techniques et technologiques, mais elle s’illustre également sur le plan organisationnel et juridique. Les infrastructures pourront être bien mises en place, la maintenance du lien ne sera vraiment optimale et réussie que lorsqu’une gouvernance anticipée et concertée sera développée au niveau de l’organisation comme au niveau national et international.

L’identifiant ne fonctionne pas seul : identification et accès, les fondements indissociables de l’ARK

Identification et accès, ce sont là les deux fonctions liées attendues de l’identifiant et de son permalien.

  • L’identification est la première association unique et univoque entre une chaine de caractères et la ressource à laquelle elle est attribuée. Une fois assigné à une ressource l’identifiant n’est en principe jamais réattribué.
  • Après l’identification est nécessaire l’accès à cette ressource. C’est là qu’intervient le résolveur : mécanisme technique d’adressage, il permet la redirection de l’utilisateur via le permalien vers la ressource recherchée. Il est, dans le permalien, matérialisé par la partie initiale et est composé du protocole d’accès et du nom du serveur web de l’autorité d’adressage.

Identifiants pérennes et résolveurs : le fonctionnement d’une combinaison gagnante

La résolution est un mécanisme technique d’adressage permettant de fournir l’accès à la ressource identifiée par l’identifiant pérenne. La résolution est nécessaire à la permanence du permalien, car c’est elle qui va rediriger, en cas de changement de nom de serveur web (protocole d’accès « https »/ « http » et nom de domaine ) ou de changement d’infrastructure technique la ressource vers le serveur Web actuel où elle est hébergée. La résolution est un procédé qui aboutit à une redirection.

La résolution est effectuée par un « résolveur », un serveur Web, global ou local, spécialisé dans la réorientation des identifiants afin de continuer à fournir l’accès à la ressource demandée.

resolver.png

 

Deux types de résolveurs existent :

  • Des résolveurs d’institutions, dits « locaux », par exemple sur le site web d’une bibliothèque ou d’un service d’archives, donnant l’URL à jour d’un identifiant produit par cette institution, et ceci même à partir d’une adresse obsolète comprenant l’identifiant de l’institution en question.

    Par exemple, la Bibliothèque nationale de France dispose de son propre résolveur : http://ark.bnf.fr/

    Un résolveur local, propre à une institution, redirige et résout des identifiants ‘ARK’ pour les ressources de l’institution.

    Resolveur local ARK.jpg

    Un résolveur local a l’avantage de pouvoir être plus adapté pour un chercheur ou un usager qui fréquenterait assidument une institution.

    L’institution de son côté est totalement indépendante et le paramétrage du résolveur local est entièrement maitrisable. Elle peut par exemple maitriser plus finement les qualificatifs.

    Disposer de son propre résolveur implique pour l’institution des opérations de maintenance régulières afin de garantir une mise à jour constante des URLs actives.

    Il est nécessaire de mettre en place des « pages fantômes » afin que l’utilisateur soit averti lorsque l’identifiant ne pointe plus vers une ressource. Par exemple lorsque la ressource a été déplacée ou renumérisée, une page spécifique apparait avec des explications afin que l’utilisateur soit averti de la raison de cette indisponibilité ( à la place par exemple d’une « erreur 404 »).

  • Des résolveurs généralistes disposant d’un registre régulièrement mis à jour des URLs institutionnelles, ils permettent de rediriger toute URL contenant un ARK vers le site web le plus à jour de l’institution hébergeant la ressource. Exemple : le résolveur global http://n2t.net

    Un résolveur global peut quant à lui résoudre n’importe quel identifiant, indépendamment de son institution de conservation et rediriger l’URL vers le site institutionnel en question.

    Ex :  Une référence dans un ouvrage cite l’ « Autorisation donnée par l'évêque de Saint-Flour aux choriers du chapitre de Notre-Dame […]» de 1454 sous la forme « ark:16075/a011350284478fSDfDc ». Le résolveur général va renvoyer à la page adéquate des Archives départementales du Cantal :

    Resolveur global ARKCantal.jpg

Le résolveur est un système où il peut être nécessaire de rentrer individuellement chaque identifiant à rechercher (des APIs peuvent exister), mais a priori plus durable que la redirection, car plus simple à maintenir.

N’hésitez donc pas à les utiliser lorsque le préfixe du permalien est modifié (la partie de l’adresse URL correspondant au nom du site) ou absente.

Le système ARK

Les acteurs d’un identifiant ARK

Comme l’URL, l’identifiant ARK repose sur un partage successif des responsabilités entre les acteurs suivants.

L’ARK Alliance, une communauté structurée autour de la California Digital Library (CDL) et regroupant différentes institutions. Elle maintient le système ARK dans son ensemble.

Elle fournit gratuitement à toute institution qui en fait la demande un numéro unique. Il est consigné dans le registre des autorités nommantes (en anglais, « NAAN registry »), co-hébergé à la CDL et à la Bibliothèque nationale de France.

Elle permet la mise à jour des résolveurs transverses à partir des informations du registre NAAN.

Les autorités nommantes, ou Name Assigning Authority (N.A.A.), habilitées gratuitement et sur simple demande, reçoivent un identifiant unique dans le registre NAAN. Elles peuvent dès lors attribuer des identifiants ARK à partir de cette racine et à les associer aux ressources qu’elles produisent.
Cela peut être réalisé par des prestataires extérieurs ou alors délégué en interne à des unités de l’institution.

Les autorités d’adressage, ou Name Mapping Authority (N.M.A.), sont les services chargés de résoudre l’identifiant ARK, c’est-à-dire de le rendre « actionnable » en permettant l’accès à la ressource qu’il identifie (ou à un substitut approprié), à ses métadonnées et à une déclaration de permanence via l’URL le plus à jour.

Qui utilise le système ARK ? ARK et DOI, les principaux systèmes d’identifiants pérennes

Le système ARK

Le Service interministériel des Archives de France recommande l’adoption et la bonne utilisation du système ARK, système d’identifiants pérennes cité par le Référentiel général d’interopérabilité de l’État.

Le schéma ARK (Archival Resource Key) est un format d’identifiant pérenne créé en 2001 par la California Digital Library (CDL) qui a vocation à identifier des ressources de tout type – physiques (échantillons destinés à une expérience scientifique, produits éditoriaux, etc.), numériques (livres numérisés, notices de catalogue, etc.) ou même immatériels (concepts). Son but est de fournir des identifiants adaptés aux besoins des producteurs et diffuseurs de données sur le web, mais également capables de durer sur le long terme. 

Le système ARK est gratuit et décentralisé : après avoir demandé un identifiant d’institution (NAAN), chaque organisme est responsable du maintien des identifiants des objets numériques de ses collections : les identifiants peuvent être déployés au rythme des projets.

Pour en savoir plus sur les ARKs : la FAQ en français du projet Arks in the Open

Combien d’institutions françaises ? Le reste du monde

Plus de 750 institutions dans le monde sont inscrites au registre ARK – entre autres exemples la California Digital Library, Library and Archives Canada, Bibliothèque et Archives nationales du Québec, Österreiche national Bibliothek, Internet Archive, la National Library of Medicine des États-Unis, la New York Public Library, la Biblioteca Nacional de Portugal, la British Library, etc. Les USA et l’Europe sont majoritaires sur la carte indiquant où sont les utilisateurs d’ARKs dans le monde.

En France, outre la Bibliothèque nationale de France qui a été l’établissement pionner et champion de l’usage des ARKs, plus de 360 organisations sont inscrites à ce jour au registre ARK. Il s'agit essentiellement d'institutions publiques à vocation patrimoniale, mais non exclusivement. On citera notamment

  • des bibliothèques : la bibliothèque municipale à vocation régionale de Toulouse, la Bibliothèque interuniversitaire Cujas, la Bibliothèque Publique d’Information, Médiathèque de Rueil-Malmaison etc. ;
  • des archives : les Archives nationales (AN) et archives nationales d'outre-mer (ANOM), Mémoire des Hommes (Ministère de la Défense), 80 services d’Archives Départementales et près de 40 services d’archives municipales ;
  • des institutions spécialisées dans la préservation des données numériques : le Centre Informatique national de l'Enseignement Supérieur (CINES), l’Institut national de physique nucléaire et de physique des particules (IN2P3), etc. ;
  • des universités : Claude Bernard Lyon 1, Lille 3, Sciences-Po Paris, la Cité numérique de la Méditerranée, etc. ;
  • des musées : le musée des Augustins, les archives du musée Picasso, la Cité des Sciences et de l'Industrie, le musée d’Histoire naturelle de Toulouse, etc. ;
  • d’autres organismes publics à vocation patrimoniale : le Centre de Musique Baroque de Versailles (CMBV), le site Son d’Aquí pour le patrimoine musical ; l'Institut national d'Histoire de l'Art (INHA) ; l’Institut de Recherche et d’Histoire des Textes (IRHT), la Maison de l’Orient et de la Méditerranée, la Fédération des Ressources sur l’Antiquité (FRANTIQ) ;
  • Il est également utilisé par d'autres organismes publics tels que le Ministère de la Culture et de la communication (MCC), le Centre national de documentation pédagogique (CNDP), la Ville de Paris, la Ville de Besançon et le Conseil général de la Martinique; il est enfin utilisé par l'Agence régionale ACCOLAD et l’Assemblée Nationale.
  • Enfin, certaines organisations du secteur privé l’utilisent, en particulier le monde de l’édition (Éditis, Hachette Livre, etc.) et de l’éducation (Effios, Explorateur de métiers, English Attack!).

Les autres systèmes existants : DOI, Handles, URNs, PURLs

Si ARK est le schéma d’identifiant pérenne le plus répandu au sein des institutions patrimoniales françaises, il existe d’autres schémas qui possèdent peu ou prou la même structure et répondent à des objectifs similaires : DOI, Handle, PURL et URN... Tout comme ARK ils sont utilisés comme références (profils Data Citation Index™, Wikipedia, ORCID.org) et même si certains d’entre eux sont plus utilisés pour un type de ressources plutôt qu’un autre, ils permettent de citer des contenus divers (objets numériques, physiques, concrets ou abstraits).

 

Système

Protocole d’accès

Autorité d’adressage

Etiquette

Identifiant de l’autorité nommante

Identifiant de la ressource

ARK

https://

n2t.net/

ark:/

99999

12345

DOI

https://

doi.org/

 

10.99999

12345

Handle

https://

hdl.handle.net/

 

10.99999

12345

PURL

https://

archive.org/services/purl/

 

 

12345

URN

https://

<divers>/

urn:

99999

12345

 

Aucun de ces schémas n’est pérenne en soi et ne peut garantir de façon durable un accès à la ressource si derrière des efforts de maintenance (humains, techniques, juridiques) ne sont pas fournis (voir 10 mythes persistants sur les identifiants pérennes et Sans maintenance, pas de pérennité ).

Le DOI (Digital Object Identifier) est un identifiant numérique et international de ressource qui offre un accès pérenne aux ressources sur internet (publications, données, revues, rapports, etc.) grâce à un lien unique et stable. Il est formé d’un préfixe et d’un suffixe séparés par un slash " / ". Au niveau international, l’attribution de DOI pour les données de la recherche est gérée par l’organisme DataCite. En France, l’agence d’attribution est l’Inist-CNRS.

Pour attribuer des DOI à des données de recherche, il faut posséder un compte DataCite. La création de celui-ci nécessite d’établir au préalable un contrat entre l’organisme souhaitant obtenir des DOI et l’Inist-CNRS. Un préfixe propre à l’organisme lui sera alors attribué. L’organisme pourra ensuite générer des DOI en fonction des besoins de ses chercheurs (https://opidor.fr/identifier/). Pour pouvoir enregistrer des DOI, les organismes ou institutions de recherche doivent souscrire un abonnement payant.

 

Utiliser et citer les permaliens et les identifiants ARK

Citation et référence : quelle stratégie adopter ?

Plusieurs cas de figure :

  • Si vous citez l’identifiant et non le permalien dans son entièreté: si vous citez la partie du permalien commençant par l’étiquette « ark:/ » ou « ark : », cela réduira le risque d’atterrissage sur une page introuvable et diminuera en parallèle l’irritation des utilisateurs. Cependant, cela inclut une manipulation supplémentaire pour l’utilisateur, qui n’est pas nécessairement averti de l’usage d’un résolveur.
  • Si vous citez le permalien dans son entièreté : cela a l’avantage de rendre la ressource accessible, ce qui, pour l’expérience utilisateur, présente nombre d’avantages, mais elle peut aussi avoir un inconvénient si le permalien n’est pas maintenu de façon optimale et aboutit à une page introuvable.

Recommandations de citation : 

  • Replacez la ressource dans son contexte institutionnel et documentaire: citez l’institution de conservation, éventuellement les informations descriptives de l’acte, du livre ou de la page citée tel que vous le feriez pour d’autres références de sources ou bibliographie. Pour les documents en ligne, référez-vous aux formules de citation affichées en général en début ou fin d’article. Cette remise en contexte(s) permettra au chercheur de disposer des informations clés liées à la localisation tant documentaire qu’institutionnelle de la ressource.
  • Une solution mixte : citer un permalien sera plus aisé pour un utilisateur d’accéder à la ressource. Pour en garantir un accès sur le long terme, citez l’identifiant ARK de votre ressource et adjoignez-lui comme préfixe un résolveur global, par exemple https://n2t.net

 

Exemple :

Votre permalien : https://archives.cantal.fr:443/ark:16075/a011350284478fSDfDc

La citation :            https://n2t.net/ark:16075/a011350284478fSDfDc

 

En pratique : certaines institutions patrimoniales offrent des références de citation « clé en main » dans les données associées à un objet ou une vue. Utilisez-les !

Ces recommandations vont de pair avec d’autres paramètres liés à la qualité même de l’identifiant pérenne : par exemple, plus celui-ci sera court, plus il sera facile pour l’utilisateur de s’en saisir.

 

Où puis-je trouver le permalien ou l’identifiant pérenne d’une ressource ?

  • Dans la barre URL une fois que vous avez accédé à la ressource
    • Sur la page d’accueil du registre, selon les choix d’implémentation du service
Site internet des Archives Départementales de la Somme
Site internet des Archives Départementales de la Somme

 

    • Directement dans la visionneuse
      Site internet des Archives Départementales de la Somme
      Visionneuse des Archives Départementales de la Somme
  • Grâce à l’icône   Icone permalien   présente sur de nombreux sites internet
Visionneuse des Archives Départementales de la Gironde
Visionneuse des Archives Départementales de la Gironde

 

 

  • Directement cité sur le site internet:
Notice du "scribe accroupi" - Musée du Louvre
Notice du "scribe accroupi" - Musée du Louvre

 

 

  • En note de bas de page

Citation d'un permalien en note de base de page

Comment reconnaitre un identifiant pérenne ?

Vous pouvez reconnaitre le type d’identifiant grâce à son étiquette :

  • Pour les ARKs : « ark:/» ou « ark: »
  • Pour les DOIs : « doi:»
  • Pour les URNs : « urn:»
  • Pour les Handles : « hdl:»

Notez  : Pour certains identifiants, comme les identifiants DOIs et Handles, leur étiquette n’apparait pas dans le permalien.

Reconnaitre le type de schéma de l’identifiant pérenne vous permettra de choisir le résolveur adéquat pour le résoudre.

 

Si je trouve un ARK dans une note en bas de page, comment élucider l’énigme ?

 

Il est de plus en plus courant de découvrir à la lecture d’un ouvrage un identifiant pérenne utilisé en guise de référence dans les notes de bas de page. Dans l’idéal, l’ARK est accompagné des références bibliographiques permettant de recontextualiser la ressource identifiée par l’ARK.

  • S’il s’agit uniquement d’un ARK, il peut être difficile d’identifier l’institution de conservation.
  • Si l’identifiant contient une indication de pagination, dans un registre par exemple, il se peut également qu’il ne corresponde plus à la page précise initialement citée, car les éléments de pagination sont plus susceptibles de changer au gré des campagnes de (re)numérisation, des ajouts ou des retraits de vues modifiant le nombre total de pages.

Recommandations :

S’il s’agit d’un permalien entièrement cité qui ne fonctionne pas :

  • Si l’institution dispose d’un résolveur local

Utilisez le en inscrivant l’identifiant ARK (commençant par l’étiquette « ark:/ » ou « ark : ») à la fin pour accéder à la ressource identifiée. Attention, les résolveurs locaux fonctionnent uniquement pour les ARKs institutionnels.

  • Si l’institution ne dispose pas de résolveur local

Utilisez résolveur global (http://n2t.net ), qui lui sera à même de résoudre n’importe quel identifiant ARK. Pour cela il vous suffit d’inscrire l’adresse du résolveur dans la barre URL de votre navigateur Web, puis directement à sa suite l’identifiant ARK, les deux séparés d’un simple slash (‘/’).

S’il s’agit d’un élément de pagination qui est caduc et vous guide à une page différente que celle à laquelle il vous guidait auparavant :

  • Feuilletez le registre dans un sens ou dans l’autre. Ces décalages de pagination sont dus principalement à des ajouts ou des suppressions de ressources en ligne, et il se peut que la ressource que vous recherchiez ne soit qu’une ou deux pages avant ou après celle à laquelle le permalien et l’identifiant pérenne vous ont mené.
  • Si le problème persiste, contactez le service responsable de la ressource afin de pouvoir accéder de façon certaine à la ressource que vous souhaitez consulter.

AUTRE CAS LIE A L’IMPLEMENTATION DES SPECIFICATIONS ARK:

  • Certains résolveurs locaux, lorsque l’institution a émis des ARKs comprenant des demi-cadratins ou traits d’union (‘-‘), peuvent en demander pour pouvoir résoudre un ARK. Dans ces cas-là, en cas d’impossibilité de résolution, nous vous conseillons de vous rapprocher d’un résolveur global (ex : https://n2t.net/)

 

Quel résolveur puis-je utiliser ?

Pour le système ARK, le résolveur global N2T : https://n2t.net. Il permet de résoudre n’importe quel identifiant ARK, indépendamment de son institution de conservation. N2T peut résoudre près de 700 systèmes d’identifiants. Vous pouvez l’utiliser si vous cherchez à résoudre un DOI par exemple.

Pour les DOIs, utilisez le résolveur global https://dx.doi.org. Le résolveur global DOI ne peut résoudre que des identifiants de type DOI.

Pour les Handles : https://hdl.handle.net

Comment dois-je utiliser un résolveur ?

  • Accédez à la page d’accueil du résolveur, par exemple https://n2t.net ;
  • Collez ou inscrivez manuellement l’identifiant dans la barre URL en haut de la page, à la suite du nom du résolveur ;

Exemple :

Utilisation du résolveur global "N2T"
Résoudre un identifiant ARK avec le résolveur global "N2T"

 

  • Validez.

La résolution et la redirection sont automatiques, et vous accéderez directement à la ressource identifiée.

Certaines institutions disposent de leur propre résolveur local, et si vous cherchez à accéder à une ressource détenue par une telle organisation dont vous savez qu’elle dispose de ce dispositif, vous pouvez résoudre l’identifiant exactement de la même façon qu’avec un résolveur global. Par exemple la Bibliothèque nationale de France dispose de son propre résolveur : http://ark.bnf.fr/

Attention : le résolveur local ne vous permet d’accéder qu’à une ressource précise identifiée par l’autorité nommante qui a développé le résolveur en question. Si par exemple, vous cherchez à accéder à une ressource identifiée par un service d’Archives Départementales par le biais du résolveur de la Bibliothèque nationale de France, cela ne fonctionnera pas.

 

Message d'erreur

Message d’erreur s’affichant sur la page du résolveur http://ark.bnf.fr/  lorsque l’on cherche à accéder à une ressource qui n’est pas détenue par la BnF.

 

Fabriquer et maintenir des identifiants pérennes

 Définir une politique de gouvernance

La pérennisation d’une ressource et de son accès n’est jamais fixe, c’est un processus constant d’anticipation, de prévision, de choix concertés, sur le plan technique, juridique, financier, au sein de l’organisation elle-même et sur un plan collaboratif plus large.

Il est nécessaire de :

  • Définir au sein de l’organisation une politique claire et planifiée d’assignation des identifiants : avant la création de la ressource ? Au moment de sa création ? Plus tardivement ? Sous quel format ? Avec quels outils ?
  • (Re)connaitre les engagements auxquels l’institution est tenue et les faire connaitre: en termes d’attribution des identifiants, en termes de politique(s) de maintenance, ce qui a été prévu en cas de cessation d’activité ou d’impossibilité à remplir ses engagements.

Il est de bonne pratique de disposer d’un document récapitulatif de ces choix institutionnels, de leurs justifications et de leurs implémentations et de partager ce document de synthèse pour la documentation des agents et des utilisateurs au sein de l’institution et au-dehors.

Recommandation :  ce document doit être accessible par tout utilisateur en ajoutant le suffixe « .policy » à la fin d’un ARK dans la barre d’adresse URL.

  • Exemple de la page ‘.policy’ de la Bibliothèque nationale de France :
Page '.policy' de la BnF

Définir une politique de nommage

La génération et l’attribution aux ressources des noms d’identifiants sont laissées à l’entière liberté des organisations ou de leurs unités, mais ils ne peuvent être générés de manière aléatoire.  Ils doivent être générés selon des règles syntaxiques précises qui participeront à garantir leur unicité et leur utilisabilité.

Recommandations (selon la spécification ARK) :

    • Des noms courts: des noms courts faciliteront la citation par les utilisateurs et réduiront les risques d’erreur de saisie.
    • Des caractères à privilégier et à éviter :
    • Utiliser des consonnes (excepté le « l » pour ne pas le confondre avec un « I » majuscule) et des chiffres (excepté le « 0 » pour ne pas le confondre avec un « O »).
    • L’utilisation des voyelles est déconseillée pour ne pas risquer de former un terme ou un acronyme, transitoires dans le temps et sémantiquement, ce qui nuirait à l’opacité du nom d’identifiant.
    • L’intégration dans le nom d’identifiant de plus de 2 lettres qui se suivent dans l’ordre alphabétique est déconseillée.
    • Les caractères = ˜ * + @ _ $        sont autorisés.
    • Les caractères % -  .  /               ont un usage réservé (granularité, service, encodage de caractères particuliers…) et leur intégration dans le nom d’identifiant est déconseillée.
    • L’intégration d’un caractère de contrôle: il doit être calculé automatiquement à partir du nom d’identifiant par le logiciel générant l’identifiant lors de sa création. Il apparait au bout du nom d’identifiant et doit permettre de renseigner l’utilisateur, lorsque celui-ci saisit l’identifiant manuellement dans la barre URL, d’une potentielle erreur de saisie.

Exemple d’un identifiant ARK ( Archives Départementales de la Gironde) :

ark:/25651/vta2d384d6460e229a6

S’inscrire au registre international ARK

Pour pouvoir mettre en place un système correct et fiable d’attribution d’identifiants pérennes ARK, vous devez au préalable formuler une demande au nom de votre institution via ce formulaire pour recevoir un numéro d’autorité nommante, aussi appelé Name Assigning Authority Number.

Le NAAN identifie de manière unique sur l’ensemble du globe votre institution, en lui attribuant un identifiant composé de 5 chiffres. Le registre est public et vous pouvez le consulter librement ici.

Disposer d’un NAAN fait de votre institution une autorité nommante, une Name Assiging Authority (NAA), et vous permet, dans un délais de 48h après votre demande de commencer à attribuer des identifiants ARK à vos ressources.

Disposer d’un NAAN est la condition sine qua non pour vous assurer que les identifiants que vous attribuez à vos ressources sont bien des identifiants uniques au niveau mondial. En effet, bien plus qu’un chiffre identifiant votre institution de manière globale et unique, il est avant tout l’espace de nom de niveau supérieur qui préviendra vos noms d’identifiants de tout conflit avec des noms d’identifiants identiques qui pourraient être attribués par d’autres institutions.

Recommandation : Si vous souhaitez réaliser des tests avant l’implémentation concrète du système ARK pour votre institution, vous avez la possibilité d’emprunter un NAAN de test (99999, 12345, 99152, 99166) réservés pour cet usage.

Gérer son ou ses espaces de nom

Un espace de nom est un domaine au sein duquel une autorité nommante attribue des identifiants à ses ressources.

Un identifiant pérenne n’est unique que dans un espace de nom défini. Un nom d’identifiant n’est qu’une suite de caractères alphanumériques, générée selon des règles syntaxiques définies par votre institution. Deux institutions peuvent très bien générer localement deux noms d’identifiants identiques. C’est là que le NAAN intervient, puisqu’étant unique de par le monde, et rattaché au nom d’identifiant que vous avez créé, c’est lui qui va permettre à votre identifiant pérenne d’être unique au monde.

Attention : il ne faut pas confondre :

  • Le nom identifiant : suite de caractères alphanumériques, généré localement, associé une ressource issue d’une chaine de production au sein de l’institution.
  • L’identifiant pérenne : globalement unique, composé (entre autres) du NAAN et du nom d’identifiant de la ressource.
Gestion des espaces de nom 1
Le NAAN - Espace de nom supérieur

 

Si le NAAN représente l’espace de nom du plus haut niveau (celui de l’institution dans son ensemble), il n’est pas exclu que d’autres espaces de nom (des sous-espaces de nom) puissent être définis au sein de l’institution ou de l’organisation, par exemple en fonction des départements et des pôles institutionnels, des équipes et des projets différents qui ponctueront la vie de votre institution et qui peuvent représenter autant de ‘sous-autorités nommantes’ à partir du moment où vous lui déléguez la création et l’attribution d’identifiants ARK pour ses propres ressources. Par exemple, si au sein de votre institution plusieurs chaines de numérisation opèrent en parallèle, vous pouvez lui déléguer la création et l’attribution d’identifiants à ses ressources pour accélérer le processus. Chacune de ces chaines sera une sous-autorité nommante.

De même que le NAAN garantit l’unicité de votre identifiant à l’échelle globale, l’identifiant de votre sous-espace de nom (un préfixe placé juste entre le NAAN et le nom d’identifiant) garantit l’unicité de votre identifiant à l’échelle de votre organisation, et empêche la conflictualité entre deux identifiants qui seraient identiques.

L’attribution des noms d’identifiants étant pour le système ARK très décentralisée, une bonne gestion des espaces de nom est cruciale pour garantir l’unicité de vos identifiants à l’échelle de votre organisation et à l’échelle mondiale, au risque sinon de créer des conflits entre plusieurs identifiants.

Gestion sous-espaces de nom
Les sous-espaces de nom

 

En outre, même si deux organisations distinctes disposent des mêmes identifiants-préfixes pour identifier leurs unités respectives, l’unicité globale de l’identifiant sera garantie par le NAAN.

La définition des sous-espaces de nom est laissée à la liberté de l’organisation.  Cependant il est fortement recommandé de définir une politique concertée de gestion et d’attribution de sous-espaces de noms au sein de votre institution dès votre adhésion au registre ARK.

Recommandations pour l’élaboration des identifiants des sous-espaces de nom :

  • L’identifiant du sous-espace de nom se situe entre le NAAN et le nom d’identifiant.
  • Si l’identifiant du sous-espace de nom est séparé du NAAN par un ‘/’, il ne peut en aucun cas être séparé du nom d’identifiant, auquel il doit être directement rattaché. Le ‘/’ est un caractère réservé pour les éléments faisant référence à une granularité dans la ressource, comme les éléments de pagination.

Exemple :

ark:12345/xt3zbc1dfg2

 

  • Attribuez des identifiants de sous-espace de nom courts, ne comportant que des consonnes (excepté le « l » pour ne pas confondre avec un « I »), et un chiffre (excepté le « 0 »).
  • La « first digit convention» : terminez le nom du sous-espace de nom par un chiffre unique. Ainsi, l’administrateur sait que le premier chiffre rencontré marquera la fin de l’identifiant du sous-espace de nom.

 

Recommandation : les sous-espaces relèvent de politiques internes, souvent pour gérer les filières de production et les projets. Il est déconseillé de les communiquer aux lecteurs car il n’existe aucun engagement de permanence et cela nuirait à l’opacité de l’identifiant. Par exemple, un identifiant choisi au départ pour une filière de numérisation précise pourrait être ensuite élargi à une autre.

Les questions de granularité : de la collection aux métadonnées

Optionnellement, l’autorité nommante et l’autorité d’adressage pourront définir des qualificatifs, c’est-à-dire des suffixes permettant d’identifier des composantes ou variantes d’une ressource et ainsi de dévoiler la relation entre deux ressources :

Les qualificatifs de granularité, commençant par un « / », permettent d’identifier une ressource contenue dans une autre (ex. : page d’un document). Ils suivent immédiatement le nom ARK ;

Les qualificatifs de service, commençant par un « . », permettent d’identifier une variante particulière d’une ressource (ex. : format, version d’un document, etc.). Ils suivent le nom ARK ou, s’il en existe, tous les qualificatifs de granularité. 

ARK pouvant identifier tout type de ressource, le choix de celles devant recevoir un ARK est laissé aux autorités nommantes, selon les critères suivants :

  • Quelles ressources doivent pouvoir être citées par mes utilisateurs ?
  • Puis-je m’engager à maintenir la résolution de ces identifiants sur le long terme (c.-à-d. au-delà des changements techniques de plateforme de diffusion) ? Bien que des ARK puissent être attribués à des ressources dont la durée de vie est limitée, il est préférable de ne les attribuer qu’à des ressources que l’on souhaite pérenniser.
  • En fonction des réponses ci-dessus, à quel(s) niveau(x) de granularité attribué-je un ARK ?
  • Si j’attribue un ARK à différents niveaux de granularité, vais-je révéler la relation entre ceux-ci par le biais de qualificatifs de granularité ?
    • Exemple : si l’on attribue un ARK à un livre et à chacun de ses chapitres, donne-t-on à ces derniers un nom ARK différent de celui du livre, où utilise-t-on le nom ARK du livre suffixé par un qualificatif de granularité ?
  • Si mes ressources identifiées par un ARK sont disponibles sous différentes formes, quels qualificatifs de service vais-je définir ?

À retenir : un ARK est un identifiant avant d’être un permalien. Sa pérennité résidera dans votre capacité à gérer la ressource sur le long terme et son association avec la chaîne de caractères qui l’identifie.

Il est primordial que l’autorité nommante définisse en amont et explicite clairement à l’autorité d’adressage ses besoins en termes de granularité de la ressource à laquelle elle souhaite donner accès : registre, page, image dans la page etc… De cette façon l’autorité d’adressage pourra concevoir de manière la plus pérenne possible un qualificatif de granularité et le maintenir de façon optimale.

Le qualificatif étant optionnel, il est obligatoire pour l’autorité nommante de disposer d’une « version originale » de l’identifiant sans son ou ses qualificatif(s), qu’ils soient de granularité ou de service. Les qualificatifs portent en engagement beaucoup moindre en termes de pérennité, et sont plus susceptibles d’évoluer au cours du temps et des évolutions technologiques. De fait, disposer de la « version originale » d’un identifiant permettra à l’avenir, en cas de changement de granularité ou si le format est amené à évoluer de disposer d’un accès durable à la ressource quoiqu’il advienne.

  • Les inconvénients et les avantages de l’indication des éléments de pagination dans l’identifiant pérenne :

Exemple de cas : Un service d’archives numérise ses 300 registres de baptême du XVIIe-XIXe siècles. Pour ne pas avoir à gérer de trop nombreux ARKs, il attribue un ARK à la notice de chaque registre numérisé et des numéros de page aux images associées, les « pages ». Ainsi, il n’y a qu’un ARK unique par registre, qui reste le même pour toutes les pages, seul l’élément de pagination varie.

Avantages :  Le service n’a donc besoin que de 300 ARKs, le coût de maintenance informatique est alors très léger. Il aura la possibilité de changer par exemple de visionneuse au fur et à mesure des évolutions et nouvelles offres techniques, sans avoir à gérer la correspondance entre un ARK de page et l’identifiant d’une vue dans la succession des systèmes : on peut rajouter des pages, des transcriptions…

Inconvénient : l’ARK réfère au registre et non à une de ses pages. Si l’URL copiée est celle d’une page, donc avec un numéro de vue après l’identifiant ARK, l’ajout a posteriori d’une vue manquante ou la suppression d’une vue en doublon  provoquera une modification dans la pagination et donc un décalage entre la ressource à laquelle on accédait originellement par le permalien et celle à laquelle il amènera ensuite. C’est une situation fréquemment rencontrée et qui contrarie les utilisateurs.

La redirection, une solution courante 

Certaines institutions pratiquent la redirection automatique via la redirection du nom de domaine par exemple s’il est amené à changer, en gardant une table des URLs obsolètes mises en regard des URLs à jour, et un renvoi de l’utilisateur vers la nouvelle adresse de la ressource demandée. Ce type de redirection est masqué, elle s’opère en arrière-plan sans être signalée à l’utilisateur, qui est redirigé vers la page à jour sans signalement des étapes intermédiaires.

Tables de redirection
Exemple de table de correspondance entre les nouvelles et les anciennes URLs.

 

La redirection n’est pas efficace sur le long terme : en effet, au fur et à mesure l’accumulation des redirections risque de ne plus donner accès à la ressource, par exemple lorsqu’il y a de trop nombreuses redirections de noms de domaine ou si les redirections s’opèrent dans une boucle infinie.

Malgré ces inconvénients, la redirection reste la solution couramment adoptée car la plus pratique mais elle nécessite une transmission d’informations dans la durée, éventuellement entre prestataires différents ou lors de changement de nom de domaine.

Mettre en place un résolveur interne

Résoudre des ARK revient à rediriger, le cas échéant, l’identifiant pérenne, voire le permalien dans son entièreté vers la localisation actuelle de la ressource sur le Web. En d’autres termes, la résolution fait correspondre l’identifiant pérenne avec l’URL du site web le plus à jour de l’institution de conservation de cet identifiant afin de générer un lien actif qui mènera l’utilisateur à la ressource identifiée. Cette redirection automatique est invisible aux yeux de l‘utilisateur qui peut néanmoins s’en rendre compte s’il s’aperçoit que l’adresse URL dans la barre d’adresse de son navigateur internet a changé.

En interne et côté serveur, l’établissement d’un mécanisme de résolution implique la mise en place de tables de correspondance URLs-ARKs et surtout de veiller à leur maintenance . Une table sera affectée à l’enregistrement des URLs du site web, tandis que l’autre sera consacrée aux identifiants pérennes.

La maintenance des tables d’URLs implique un stockage des anciennes URLs afin de garantir la correspondance entre URLs anciennes et actuelles et par extension le bon fonctionnement de la redirection. En effet, même si les recommandations des navigateurs Web sont d’inciter à garder les URLs anciennes pendant un an en général, les crawler peuvent parfois effectuer l’indexation plusieurs années après. Il est donc recommandé de garder les anciennes URLs à vie.

Recommandation : sur la page d’accueil de votre résolveur local, indiquez une barre similaire à une barre de moteur de recherche afin de faciliter la manipulation et de la rendre plus intuitive pour l’utilisateur cherchant à résoudre un identifiant.

Dans ce cas, votre serveur agit comme un résolveur local. Si vous ne souhaitez pas l’implémenter vous-même, il existe des outils et services logiciels ARK qui peuvent vous aider tel EZID lié au résolveur général http://n2t.net

Utiliser un résolveur externe

Une autre approche consiste à laisser votre serveur Web fonctionner en l’état et, au lieu de mettre à jour ses tables locales, de maintenir des tables de correspondance ARK/URL sur un résolveur distinct. Cette approche est adoptée par nombre d’éditeurs de logiciels et par les organisations maintenant leurs tables via le service EZID (qui est lié au résolveur n2t.net et met à jour les tables de résolution de ce dernier).

Dans un marché, que demander ?

Lors d’un contrat établi entre une institution autorité nommante, dite « le client », et une autorité d’adressage devant assurer l’accès à la ressource, dite « le prestataire », certains points du contrat doivent être impérativement abordés, car ce sont autant de clauses qui participeront à une meilleure pérennisation de l’accès à vos ressources.

Clauses :

  • Clause de durée de service: elle indique la durée durant laquelle le service est rendu entre le prestataire et le client et doit préciser les clauses de renouvellement et de dénonciation du contrat.
  • Clause de durée de conservation: le prestataire s’engage à respecter la durée d’hébergement des ressources convenue avec le client. Le prestataire doit assurer à son client sa capacité à procéder à la réversibilité et l’interopérabilité de sa solution pour permettre de respecter le délai d’hébergement.
  • Clause de qualité de service: le prestataire s’engage sur une qualité de service. C’est au prestataire que revient la responsabilité de l’engagement pour l’accès à long terme des ressources, en termes de maintien du nom du serveur web et de la déclaration des qualificatifs de service, notamment des formats.
  • Clause de sécurité et de protection des données: le prestataire doit conserver l’intégralité des documents et éléments électroniques que son client lui a transmis au cours du contrat. Il doit en garantir la sécurité et l’intégrité, sa traçabilité, et en fournir un accès sécurisé.
  • Clause d’information et de conseil: Le prestataire doit informer le client des risques d’obsolescence des formats de ressources en fonction de la durée du contrat prévue, et le cas échéant proposer éventuellement une prestation de conversion de format, en informant au préalable le client.
  • Clause de réversibilité : elle doit préciser les éléments et ressources transférées ainsi que les modalités et les conditions dans lesquelles le transfert est effectué, du point de vue logistique et juridique, notamment en ce qui concerne le transfert de responsabilités notamment. Elle doit prévoir un tarif prévisionnel et révisable pour permettre le calcul des coûts de la réversibilité quand elle surviendra.
  • Clause de confidentialité: le prestataire doit garantir la confidentialité de toutes les informations qui lui sont confiées et ceci peu importe la manière dont il en a eu connaissance : par l’intermédiaire d’échanges avec son client, par sa connaissance des systèmes d’information de son client, des opérations effectuées sur les ressources qu’il héberge. Ces informations ne sont communicables qu’à des personnes de confiances désignées par le client, exceptés les tiers à qui il est légalement tenu de les communiquer.
  • Clause d’assurance professionnelle: le prestataire doit être couvert par une assurance de « responsabilité civile professionnelle » qui lui assurera une protection financière en cas de mise en cause de sa responsabilité. Il peut également contracter des assurances complémentaires adaptées à des risques plus spécifiques, par exemple en cas de dysfonctionnement de ses systèmes informatiques.
  • Clause de sous-traitance : le prestataire doit informer son client de toute sous-traitance de service, intégrale ou partielle, et il reste quoiqu’il en soit responsable des opérations sous-traitées.
  • Clause d’audit: elle détermine les modalités d’expertise du prestataire par le client ou ses mandataires.
  • Clause de localisation: elle spécifie les exigences de localisations des données. Le prestataire doit s’assurer de la bonne localisation des documents numériques et de sa compatibilité avec la réglementation en vigueur.

Succession et changement de prestataire : la clause de réversibilité

L’un des principes garant de la pérennité des ressources concerne le principe de succession des ressources, et surtout les accords conclus entre l’autorité nommante et l’autorité d’adressage.

Dans le cas d’un changement du prestataire chargé de fournir l’accès aux ressources, par action volontaire d’une des deux parties ou par cessation d’activité d’une ou l’autre des parties, le nom du serveur hôte peut changer et l’hébergement des ressources transféré d’un serveur à un autre. Ainsi, le permalien constitué de ce résolveur (protocole « https:// » auquel on ajoute le nom du serveur hôte) et de l’identifiant pérenne « ark : » immuable, est rendu caduc et l’accès à la ressource est impossible.

Recommandation :

Il est primordial pour l’autorité nommante détentrice des ressources de prévoir, dans le cadre de l’accord conclu entre elle et le fournisseur d’accès une clause de réversibilité (art. 34 du CCAG-TIC) lui permettant de recouvrer la responsabilité technique qu’elle avait confiée audit fournisseur d’accès et arrivant à terme, afin de la confier, si elle le souhaite, à un autre prestataire.

Il est nécessaire que le prestataire restitue à l’autorité nommante les identifiants ARK cités avec le moyen de reconnaitre les ressources associées pour pouvoir les charger dans le nouveau système technique, afin que l’association soit maintenue entre les identifiants ARK et les ressources.

Cette clause permet de prévenir les éventuels changements néfastes à la pérennité des permaliens et permet, en conséquence, d’assurer de manière stable et continue un accès à la ressource en ligne.

Processus de réinjection des objets et de leurs identifiants dans un nouveau système :

  • Récupérez les objets et leurs identifiants associés ;
  • Effectuez des tests au préalable avant de procéder à l’injection des objets et de leurs identifiants dans le nouveau système ;
  • Procédez à l’injection de ces objets et des identifiants associés dans le nouveau système et dans les tables et procédez à la mise en production ;
  • Rendez-compte de ce processus de transfert dans la page ‘.policy’. 

 

Les identifiants pérennes et permaliens pour les services d'archives

Le 17 octobre 2022, le Service interministériel des Archives de France a organisé un webinaire d'introduction aux identifiants pérennes et permaliens à l'attention des services d'archives.

De nombreux services d'archives souhaiteraient proposer des permaliens (reposant sur des identifiants pérennes) à leurs usagers mais ne savent pas toujours comment mettre en place un tel dispositif. Par ailleurs, les services offrant déjà cette fonctionnalité aimeraient souvent renforcer la pérennité des liens, régulièrement brisés par des événements extérieurs au métier :

SIAF | Tutoriel : Les identifiants pérennes et permaliens pour les services d'archives

Bien qu'usuellement sollicités pour la diffusion d'archives numérisées ou de leurs descriptions, les identifiants pérennes et permaliens sont également mobilisables autour des archives nativement numériques : 

Programme Vitam | La gestion des identifiants pérennes par un Système d'Archivage Electronique (SAE) : l’exemple de Vitam

 

 

 

Liens