1L’année dernière, je concluais un article intitulé « La normalisation, les bibliothèques et le Web sémantique » par la mise en avant du sens (Angjeli, 2012). Le sens y est considéré comme médiateur pour atténuer les tensions entre la normalisation comme processus qui négocie la réduction des spécificités et la diversité des réalités documentaires. Je reviens aujourd’hui sur cette assertion, car il me semble que ce sont précisément les discours autour du sens qui avivent les débats et suscitent des tensions.
2Je tenterai d’illustrer ces tensions avec quelques exemples issus des processus de normalisation en cours dans le domaine bibliographique, celui de la description archivistique et enfin, celui des identifiants internationaux. Décrire et identifier font partie intégrante de l’organisation des connaissances.
Que se passe-t-il dans le domaine bibliographique ?
3Le domaine de l’information bibliographique est engagé depuis plusieurs années dans les travaux autour de RDA (Resource Description and Access [1]), le nouveau code international de catalogage qui vise à organiser la description des documents non de manière linéaire, mais comme un ensemble d’informations interconnectées. RDA assurera le socle des réseaux d’information bibliographique d’une nouvelle génération et permettra la mise en œuvre des technologies du Web sémantique. En France, les travaux sont menés au sein de l’Afnor. Parallèlement, quelques acteurs réalisent des projets spécifiques avec ces technologies. C’est le cas de la Bibliothèque nationale de France (BNF) avec son service <data.bnf.fr> [2] qui fédère les informations des différents catalogues et les réorganise autour des concepts centraux « auteur », « œuvre » et « thème », permettant d’accéder à ces ressources directement depuis une page web.
4Or, dans ce contexte international, la publication en novembre 2012 par la Bibliothèque du Congrès du BibFrame (Bibliographic Framework as a Web of Data) – modèle de données visant à remplacer le format actuel MARC de catalogage – a déclenché une avalanche de réactions. Lançant de manière unilatérale cette initiative, la Bibliothèque du Congrès annonce la réalisation d’un cadre afin de permettre l’expression de « plusieurs modèles de contenu, y compris RDA ». Une lecture plus avertie permet de comprendre cette initiative comme une alternative pour traduire de manière appauvrie le format de description MARC en Linked Data*. Philippe Le Pape (2013) y constate d’ailleurs « la négation de tout le travail de modélisation accompli dans les années 1990 et 2000, qui a le mérite d’avoir opéré un changement de point de vue sur l’objet même de la description bibliographique : du contenant (pré-FRBR*) [Functional Requirements for Bibliographic Records] au contenu (FRBR). Un point de vue qui est le seul pertinent dès lors que les ressources se dématérialisent. »
5Faut-il y voir une tentative pour prendre de la distance par rapport à RDA et par conséquent du modèle FRBR ? Rappelons que la Bibliothèque du Congrès a été pionnière et reste force motrice dans ce même processus. Est-elle prise dans les tensions suscitées par les questions de compte à rebours – une nécessité, en quelque sorte, d’agir vite pour produire à tout prix du Linked Data ? En d’autres termes, via un artifice, prolonge-t-elle la vie des pratiques traditionnelles (dans le modèle de BibFrame la classe Instance conserve les traits de la notice bibliographique dans les bases existantes), au lieu de s’engager dans une véritable modernisation ? Si la Bibliothèque du Congrès persiste dans sa position, ses choix ne resteront pas sans conséquence sur l’ensemble des acteurs concernés par l’information bibliographique à travers le monde.
6De façon concomitante, Niso (National Information Standards Organization) aux États-Unis a lancé l’initiative « Bibliographic Roadmap Development Project » (Niso, 2012). L’objectif annoncé est de faire participer des représentants de toutes les communautés concernées dans l’élaboration d’une feuille de route pour l’avenir de l’écosystème de l’information bibliographique. La volonté affichée est de définir collégialement les multiples besoins d’utilisation et de circulation des données bibliographiques dans un environnement en réseau, avec des données liées en croissance.
7Niso veut-elle contrebalancer l’initiative unilatérale BibFrame de la Bibliothèque du Congrès ? Réussira-t-elle à faire valoir son rôle de tiers neutre dans l’engagement d’un dialogue entre parties intéressées ? Notons qu’en France, cette initiative est plutôt perçue positivement car elle semble vouloir permettre à tous les acteurs d’être entendus, bien que Niso reste un organisme de normalisation nord-américain et non pas international.
Les archives en mouvement
8Dans le domaine de la normalisation des descriptions de fonds d’archives, deux initiatives visant à faire évoluer ce champ animent la communauté archivistique au niveau international. Il s’agit d’une part du processus en cours de la révision de l’EAD (Encoded Archival Description) et d’autre part du lancement des travaux pour l’élaboration au niveau mondial d’un modèle conceptuel du domaine archivistique.
EAD, les tensions de révision d’un standard
9L’EAD est un standard relevant de la Société des archivistes américains. Son utilisation est telle qu’il est géré par un sous-comité technique réunissant des représentants de la communauté internationale. La version en vigueur de l’EAD date de 2002 (avec une version dans le format DTD ainsi qu’un schéma XML). Rappelons qu’il a initialement été conçu pour permettre le traitement rétrospectif des instruments de recherche existants, dans la perspective d’une édition papier.
10L’EAD a marqué un tournant comme outil facilitant l’accès aux instruments de recherche archivistiques et permettant leur exposition sur le Web. Sa révision est devenue nécessaire dix ans plus tard. Les raisons sont en grande partie liées aux évolutions technologiques qui conduisent à un changement dans la conception même de l’instrument de recherche, à savoir un appareil non plus calqué sur le modèle imprimé mais ouvert, capable d’opérer en réseau et de dialoguer avec d’autres modèles de données.
11Si la communauté internationale est en accord sur les grands principes, le processus de révision n’est pour autant pas exempt de tensions. Et celles-ci sont tant de nature politico-économique ou culturelle, qu’intellectuelle ou technique. En effet, bien que le groupe de travail soit de composition internationale, dès l’engagement des travaux, une emprise des représentants nord-américains s’est fait sentir. Elle prend forme par une tendance à imposer une vision façonnée par des pratiques locales du format, avec pour toile de fond la défense des intérêts de toute une économie d’instruments de recherche existants.
12Pour contrebalancer ce lobby, différentes stratégies d’action prennent forme. Les uns, comme les représentants français, tentent d’asseoir leur autorité en se positionnant comme porteurs de la contribution de toute la communauté des utilisateurs français s’exprimant au nom du groupe d’experts Afnor GC46 / CN357 / GE3 « EAD » – forum au sein duquel sont conduits les travaux de normalisation autour de l’EAD. Tel est également le cas de la représentante allemande, bénéficiant de son rôle dans le projet APEx, qui s’exprime au nom des membres européens du projet. Le représentant des Pays-Bas, quant à lui, met en avant le rôle de l’EAD comme épine dorsale de tout le système archivistique des Archives nationales des Pays-Bas, dont tout changement représente des enjeux économiques de taille. Entre rapports de forces et conflits d’intérêts, l’équilibre reste précaire.
13Tant sur le plan intellectuel que technique, l’enjeu de cette révision est de réaliser un modèle de données mettant en œuvre les principes de décloisonnement et de mise en relation, centré sur la sémantique des données pour faciliter les traitements automatiques et pour donner ainsi une nouvelle vie aux instruments de recherche déjà encodés avec EAD2002. Là aussi, d’autres types de tensions surgissent mais cette fois-ci pratiquement générationnelles. Les défenseurs de l’ancien modèle, centré sur une conception issue de la culture de l’instrument de recherche imprimé, s’opposent à tout changement qui « déconstruit » cette conception. Reste donc à voir dans quelle mesure le processus de révision pourra marquer la rupture avec ces pratiques traditionnelles afin de répondre aux besoins actuels.
14Pas de défaitisme ! Faisons confiance au processus qui, en acteur, participe à un changement de vision. Une première version est en test actuellement et une enquête internationale est ouverte. Espérons qu’à travers ces actions, le professionnalisme et l’intelligence collective de la communauté internationale l’emporteront.
EGAD (Expert Group on Archival Description) – ou pour un modèle conceptuel du domaine archivistique
15Le deuxième projet vient à peine de s’engager à la fin de l’année dernière et les enjeux sont de toute autre nature. Sous l’égide du Conseil international des archives (ICA), un Groupe d’experts sur la description archivistique a été créé en 2012. Il aura comme première mission d’élaborer un « modèle conceptuel » pour la description archivistique, afin de traiter l’interrelation des composants dans un système de description archivistique et permettre la mise en relation de cette description avec les normes associées du patrimoine culturel.
16Pour mémoire, la communauté des archivistes, sous l’égide du Conseil international des archives, a élaboré depuis 1994 quatre normes prescrivant le contenu et l’organisation des descriptions archivistiques [3]. Elles ont contribué largement à la réalisation et à la diffusion des instruments de recherche structurés et ont servi de socle pour la réalisation des formats de diffusion, notamment l’EAD et l’EAC-CPF (Encoded Archival Context : Corporate Bodies, Persons and Families). Cependant, d’une part ces normes reflètent l’histoire de leur élaboration : l’une après l’autre elles ont tenté de couvrir différents besoins de la description archivistique sans pour autant assurer une véritable cohérence de l’ensemble, et de l’autre, elles n’abordent pas les catégories et concepts fondamentaux du domaine et leurs relations. Elles ne peuvent donc pas tenir lieu d’ontologie(s) du domaine archivistique.
17Ces dernières années, plusieurs projets dans le domaine archivistique mettant en place les technologies du Web sémantique et des Open Linked Data, à défaut d’une ontologie de référence du domaine, se tournent vers des solutions utilitaires, « construisant » des ontologies locales, tout en empruntant des concepts issus d’ontologies existantes. Or, depuis déjà plus de dix ans, les deux autres domaines patrimoniaux, dont les noms sont couramment associés à celui des archives – les musées et les bibliothèques – se sont dotés de modèles conceptuels. Il s’agit du CIDOC CRM pour le domaine muséal, voulant plus largement embrasser le domaine patrimonial, et du FRBR pour celui de l’information bibliographique. Bien plus encore, le FRBR a été « harmonisé » avec le CRM donnant naissance au modèle FRBRoo (« oo » désignant « object-oriented ») notamment pour assurer l’interopérabilité des deux domaines. Arrivants tardifs dans le processus de modélisation, les archivistes ont prudemment cherché leur voie. Au nom des principes de l’interopérabilité, de « réutilisation avec profit » des modèles existants et de celui d’une vision englobant tout le domaine du patrimoine culturel, une solution aisée aurait pu être d’adopter le CRM en y ajoutant ce qui est propre au domaine archivistique. Pourtant, le chemin choisi a été celui de création authentique d’un modèle propre au domaine archivistique. À l’origine de ce choix, la conviction que seules l’analyse et la définition précise des besoins, des concepts et des objets d’étude propres au domaine, fondées sur une longue théorie et pratique curatoriale peuvent garantir le succès de l’entreprise de modélisation. Respecter en amont la nature spécifique des données permet également de fournir aux autres la clé de compréhension correcte des concepts du domaine, leurs interrelations et les données qui en relèvent. L’articulation et l’interopérabilité avec d’autres domaines n’en seront que davantage facilitées.
18Ainsi, pour le mandat 2012-2016, le groupe d’experts EGAD aura pour mission d’élaborer un « modèle conceptuel » pour la description archivistique, afin de traiter l’interrelation des composants de la description dans un système de description archivistique et permettre ainsi la mise en relation de la description archivistique avec d’autres modèles relatifs au patrimoine culturel.
19Faut-il interpréter cette initiative comme un repli sur soi par crainte de se faire assimiler par les autres domaines du patrimoine culturel, ou au contraire, comme une affirmation identitaire, une volonté de marquer le particularisme, pour ensuite mieux s’adapter au monde en mouvement ?
ISNI et ORCID – concurrence ou interopérabilité ?
20Dans le domaine des identifiants internationaux, éléments clé pour interconnecter les ressources, deux identifiants, gérés par deux organismes distincts, se juxtaposent pour ce qui est de l’identification des individus.
21ISNI (Code international normalisé des noms ISO 27729, 2012) a pour vocation d’identifier de manière unique et pérenne tout contributeur aux contenus créatifs, y compris ceux des scientifiques, ainsi que les acteurs impliqués dans la chaîne de la distribution et de la gestion des droits. Il se positionne comme un identifiant passerelle à travers domaines, communautés d’intérêts et frontières géographiques. En novembre 2011, la base centrale de données a été ouverte au public et depuis s’enrichit de manière exponentielle. L’unicité de l’identification est contrôlée par des mécanismes automatiques qui confrontent des données provenant de sources d’autorité.
22ORCID (Open Researcher and Contributor ID), quant à lui, est une initiative émanant du monde de la recherche pour un registre ouvert et interdisciplinaire d’identifiants pour les chercheurs. Le registre a été lancé en octobre 2012. L’objectif est de relier les chercheurs à leurs œuvres, d’inclure l’identifiant dans les workflow, tel que dans les soumissions de manuscrits, ou de demandes de subventions pour la recherche, etc. L’unicité de l’identifiant au sein du registre est essentiellement basée sur le principe d’affirmation par l’intéressé (self-claim).
23Cependant, l’existence de deux identifiants pour un même individu n’est pas sans poser de problème. Les systèmes concernés par l’identification, aussi bien des chercheurs que d’autres types de contributeurs aux contenus, devront gérer les deux identifiants. C’est typiquement le cas des bases bibliographiques académiques, où sont représentées toutes sortes de contributeurs. Mise en place d’infrastructures pour intégrer deux identifiants distincts, coûts de traitement et de vérification, sans parler de la confusion possible des deux identifiants mêmes, tels sont les frais à payer par les usagers.
24Quelle est la position de chacun des identifiants ? Alors qu’ISNI prône un identifiant global pouvant servir à de multiples besoins, ORCID met en avant les besoins spécifiques de la communauté des chercheurs. Cependant, face aux usagers, ISNI et ORCID ne peuvent pas rester indifférents et ont ouvert un espace de négociation. Un accord de principe sur le besoin de rendre interopérables les deux numéros a déjà été atteint et une déclaration jointe a été récemment publiée à ce sujet (ISNI & ORCID, 2013). Le format de l’identifiant ORCID est rendu compatible avec la norme ISNI ISO 2772 et ISNI a réservé un bloc de numéros à ORCID. Les deux explorent actuellement la faisabilité d’un schéma partagé pour un numéro unique pouvant représenter un seul individu dans les deux registres, avec partage des métadonnées publiques associées.
25Certes, participer à la normalisation c’est avant tout accepter de pratiquer l’art de la négociation et du consensus. Entre jeux de pouvoirs et conflits d’intérêts, entre tendance à la modernisation et résistance des modèles de pensée existants, entre empressement pour une présence sur le Web des données et action réfléchie pour assurer la pérennité, entre flexibilité et stabilité, participer à la normalisation reste toujours un impératif professionnel. Restons donc vigilants avec respect pour les cultures, sans respect pour les frontières qui les séparent, pour une plus grande ouverture et accessibilité des données aux citoyens.
Glossaire
26Linked Data (Web des données) est une initiative du W3C (Consortium World Wide Web) favorisant la publication de données structurées sur le Web, non pas sous la forme de silos de données isolés les uns des autres, mais en les reliant entre elles pour constituer un réseau global d’informations. Il s’appuie sur les standards du Web, tels que HTTP et URI (Uniform Resource Identifier). L’approche Linked Data permet de partager l’information également entre machines.
27Functional Requirements for Bibliographic Records (FRBR) : Modèle conceptuel qui envisage les données bibliographiques comme un ensemble d’informations. Il distingue entre les caractéristiques de l’exemplaire, de la publication, du contenu intellectuel de l’ouvrage et, enfin de la création abstraite intellectuelle.
Notes
-
[1]
Pour information en français sur RDA et l’engagement de la France dans les travaux, voir sur le site de la BnF : <www.bnf.fr/fr/professionnels/rda/s.rda_objectifs.html>, consulté le 21/05/2013.
-
[2]
En 2013, ce service a reçu le Stanford Prize for Innovation in Research Libraries (SPIRL). Il est également lauréat du grand prix Data Intelligence Awards.
-
[3]
ISAD(G), ISAAR(CPF), ISAF, ISDIAH. Cf. <www.ica.org/10241/normes/liste-des-normes.html>, consulté le 21/05/2013.