L’objectif est de proposer une stratégie pour la gestion des données de la recherche commune aux Écoles françaises à l’étranger (EFE). Cette stratégie s’inscrit dans le mouvement de la science ouverte et vise à renforcer la visibilité des acteurs des écoles et les données qu’ils produisent à l’échelle nationale et européenne.
L’idée n’est pas de construire un dispositif unique au niveau réseau des EFE mais plutôt d’articuler les différentes solutions déployées (ou à développer) dans les Écoles qui permettent de gérer les données tout le long du cycle de vie afin qu’elles soient structurées conformément aux principes FAIR.
Cette stratégie menée à l’échelle du réseau repose :
- Sur l’adoption et l’enrichissement de référentiels (acteurs, lieux, chronologie, sujets) partagés et normalisés ainsi que la mise à disposition d’identifiants pérennes (DOI) à l’échelle des EFE ;
- Sur une grille de services claire avec l’adoption concertée d’outils, services, pratiques et procédures (stockage / sauvegarde, authentification, saisie de métadonnées, …). Les éléments de cette grille sont détaillés sous la forme de guides de bonnes pratiques et fiches techniques sur le site du réseau ;
- Sur l’interopérabilité des différentes plateformes intervenant durant le cycle de vie des données au sein des Écoles (planification, archivage, diffusion / exposition)
- Sur un plan de formation adaptées aux besoins des chercheurs en adéquation avec les grilles de services mises à disposition par les Écoles ou les infrastructures nationales.
La visibilité de l’ensemble des acteurs et ressources des Écoles passera :
- Le référencement systématique des acteurs (IdRef, IdHal, Orcid), une sensibilisation au dépôt des publications dans et l’attribution systématique de DOI « EFE » aux ressources publiques ;
- L’articulation entre les publications et les données de la recherche (Bulletin archéologique des EFE, DataJournal / DataPapers, …)
- Une offre large de métadonnées pour l’exposition vers les infrastructures nationales ou européennes
- EAD : pour les instruments de recherche (Calame, France-Archives)
- Pour les jeux de données
- Dublin-Core : Isidore, …
- DataCite : OpenAire, Ariadne-Plus
- Cidoc-CRm : OpenArchéo
- RIC-O
- Par la mise en œuvre d’un ensemble de protocoles d’échanges ou d’API (OAI-PMH, Sparql, Rest) permettant d’accéder aux métadonnées / données
- L’accompagnement des chercheurs dans l’exposition / l’éditorialisation de leurs données
- Catalogues
- Bibliothèques numériques
- WebSIG
En 2020, un groupe de travail associant archivistes et informaticiens de chaque école a été mis en place afin de proposer un cadre technique et organisationnel sur la gestion des données de la recherche. Cela cadre repose sur la mise en œuvre de référentiels communs, la mises en place de grilles de services convergentes et des procédures partagées et de plateformes interopérables.
Des référentiels communs
Les référentiels et identifiants pérennes permettent de désigner et de retrouver de manière univoque et pérenne un objet, un document, une personne, un lieu, un organisme. Ils constituent la colonne vertébrale de la gestion des données dans une optique d’interopérabilité et de réutilisation des données de celles-ci.
Parmi les identifiants les plus utilisés dans le monde de la recherche, on peut citer les DOI pour les ressources numériques, idRef, Orcid, IdHal pour les personnes, Viaf, Isni, ROR pour les organisations, Getty, Pactols, Inspire pour les sujets, PeriodO pour les chronologies, Geonames, Pleiades pour les lieux. Cette multiplication de « références » peut être un problème mais il existe (le plus souvent) des alignements entre ces identifiants.
L’identification des acteurs, des ressources (publication, données), des organisations impliquées dans la production scientifique des écoles et l’attribution de DOI à l’ensemble des ressources publiques est un travail préalable à la « FAIRisation » des données des EFE.
Référentiel « acteurs »
L’attribution (récupération) d’un identifiant pérenne IdRef (idHal, Orcid) pour l’ensemble des acteurs des EFE permettra d’assurer le lien entre les producteurs de données, les archives, les publications les institutions et les opérations scientifiques
Cette implique d’une part un travail important rétrospectif à mener à l’échelle du réseau ou de chaque école en collaboration avec l’ABES et d’autre la création de nouvelles entrées dans le référentiel de l’ABES. Cette opération doit être menée en concertation avec les bibliothèques des écoles afin de mettre en place des procédures et éventuellement développer des outils pour simplifier (automatiser) le travail.
Référentiel « institution »
L’identification de l’ensemble des institutions impliquées dans les opérations scientifiques permettra de rendra compte du maillage acteurs/institutions/opération scientifiques en lien avec les archives et les publications. Cette identification prendra appui sur les identifiants IdRef/Viaf d’une part et ROR (Research Organization Registry) d’autre part.
Référentiel « lieux »
L’identification des localisations des opérations scientifiques s’appuiera sur les référentiels largement utilisés par la communauté scientifique :
- Geonames (base de données géographiques collaborative)
- Pleiades (informations géographiques historiques sur le monde antique)
- IdRef (informations géographiques gérées par le Sudoc, le projet Collex ArchéoRef2 vise l’enrichissement et la complétude des notices IdRef, des noms géographiques concernant les sites de chantiers archéologiques et des éléments de chantiers des cinq EFE)
- Pactols (pour les publications sous OpenEditon, profite du projet ArchéoRef2)
Une interface au sein de la plateforme « opérations scientifiques » permettra de simplifier la sélection de la localisation d’une mission en proposant une interface de sélection d’une aire (ou plusieurs). Elle assurera l’alignement automatique ou manuel à partir des zones sélectionnées aux référentiels Géonames, Pleiades, ArchéoRef.
Référentiel « chronologie »
L’identification des chronologies se fera à l’aide du référentiel PeriodO. Si aucune chronologie ne décrit parfaitement le périmètre de l’École, il est possible de définir ses propres références (cf EFA : http://n2t.net/ark:/99152/p0gtzvd). L’alignement sur ce référentiel permettra entre autre l’interopérabilité avec l’infrastructure AriadnePlus.
Parallèlement, un travail d’alignement avec le référentiel Pactols devra être prévu pour permettre l’interopérabilité avec les plateformes OpenEdition ou OpenArcheo du consortium MASA.
Référentiel « sujets »
Les référentiels sujets prennent appui sur le référentiel Pactols. Un travail a été réalisé par les services des archives et des publications pour obtenir une sélection de termes pertinents pour l’indexation de données d’archives ou décrire une publication. Cette sélection représente 1500 termes, une sélection resserrée permettra de décrire une opération scientifique.
Des grilles de services convergentes et des procédures partagées
Gestion des espaces de stockage « recherche »
Le stockage est un élément central du cycle de la vie de la donnée. Une offre adaptée aux besoins des chercheurs et des opérations scientifiques doit être proposée afin de sécuriser les données en cours de production (synchronisation vers le serveur de l’école, mise à disposition de disques durs de sauvegarde avant versement sur le serveur de l’école). Des solutions sont déjà opérationnelles dans les cinq écoles avec des périmètres et des usages hétérogènes.
L’objectif est d’homogénéiser les solutions (Nextcloud) et d’harmoniser les pratiques sur l’offre proposée. Cela implique :
- Une mise à niveau des infrastructures (volumétrie)
- Une communication sur la mise à disposition de ce service et une incitation pour les chercheurs et porteurs de projets (en particulier sur la plateforme « opérations scientifiques et les fiches techniques) de les utiliser
- Une définition du cadre d’utilisation, des procédures de migration et de la responsabilité de chaque acteur (chercheur, service informatique, institution)
- Une mise en place de solution de migration des données vers des solutions tierces (HN-Box, ShareDoc, entrepôt des universités d’accueil, …) lorsque les membres quittent l’établissement (selon la politique de ce dernier)
- Une intégration d’une arborescence archive accessible aux services d’archive afin de faciliter le dépôt vers ce dernier à l’issue de la mission.
Guides de bonnes pratiques et fiches techniques
Afin de présenter la grille des services dédiés aux chercheurs et les accompagner dans la gestion de leur données, le portail du réseau héberge un ensemble de guides de bonnes pratiques et de fiches techniques. Ces fiches recensent par types de projets les normes et standards à respecter, les outils à disposition en interne ou au niveau des infrastructures nationales ou européennes
Elles se présentent sous la forme d’une fiche synthétique et d’une fiche détaillée associée à une bibliographie, sitographie, outils recommandés, … Elles font également référence aux procédures et fiches de spécifications locales aux écoles (stockage, cadre légal concernant la production et réutilisation des données, …).
Outils d’aide à la collecte, production et traitement des données
La diversité des méthodes de collecte et de production de données sur le terrain (filemaker, excel, SysLat, …) ne permet pas d’envisager à court terme de proposer un outil (ou un ensemble d’outils) permettant de faciliter cette partie du travail du chercheur. Les rencontres avec Bibracte, l’Inrap et les EFE (décalées à avril 2021) permettront peut-être de faire un point sur la question et envisager des pistes de réflexion. Présentation d’EDArc projet de saisie de données de terrain développé à l’Inrap et testé par Bibracte.
L’idée est donc de se focaliser pour l’instant sur la sécurisation des données, les bonnes pratiques et les outils permettant de faciliter la gestion des métadonnées associées.
Sécurisation des données : une infrastructure dédiée
La sécurisation des données produites est un élément central du processus de gestion des données, une offre adaptée aux besoins des chercheurs et des opérations scientifiques doit être proposée. L’idée est de privilégier l’adoption d’un stockage mis à disposition par l’École (NexCloud), quitte à fournir des solutions 4G pour les sites isolés. Pour les sites ne pouvant être couvert par la 4G, une solution de sauvegarde en appui sur des disques durs / Nas doit être mise à disposition avec un protocole clairement documenté.
Données et métadonnées : des guides de bonnes pratiques et des outils de gestion.
Les expériences sont très variées et pour l’instant pas ou peu d’outil structurant pour accompagner les chercheurs dans la saisie de métadonnées hormis la mise à disposition de tableurs Excel par typologie de données et des procédures de renommage (assuré par le service d’archive) à l’aide d’outils génériques.
Un travail prospectif doit être mené sur le développement d’outils facilitant / automatisant le renseignement des données en conformité avec les métadonnées et les référentiels préconisés à l’échelle des EFE et permettant d’éviter
- Les multiples saisies ;
- La multiplication des erreurs de saisie ;
- Les nombreux import/export ;
- Les pertes de données lors des transferts ;
- L’absence de traçabilité des données ;
- L’absence de métadonnées associées ;
Une maquette (servant de base pour les discutions sur les usages et les fonctionnalités souhaités) a été développé pour faciliter la saisie de métadonnées et le renommage des fichiers des chercheurs dans les arborescences définies par les services d’archives. Elle permet de créer un lien entre les informations de la plateforme « opérations scientifiques », les référentiels, les données des chercheurs et la plateforme archives.
Elle pourra être enrichie de nouvelles fonctionnalités selon les retours et besoins exprimés : conversion de formats, import/export exif/iptc, gestion des objets 3D, SIG, export EAD, entrepôts (dataverse, Nakala, …), Doi …
L’accompagnement des chercheurs dans cette étape passe également par un ensemble de guides de bonnes pratiques et fiches techniques en lien avec la grille de service des écoles disponibles sur la plateforme mission et le portail ResEFE.
Des plateformes interopérables
La notion de plateformes décrite ci-dessous ne correspond pas une solution unique mais à des dispositifs offrant des fonctionnalités communes aux besoins des Écoles et interopérables grâce à des protocoles et des procédures d’échanges de données répondant à des schémas partagés à l’échelle du réseau. Ces plateformes couvrent les étapes clés du cycle de vie de la donnée : la planification, l’archivage, la diffusion.
Plateforme « opérations scientifiques »
Cette plateforme intervient à l’étape de planification de toute opération scientifique, elle permet de décrire le contexte d’une opération scientifique et toutes les informations relatives aux données qui y sont produites et/ou utilisées.
Elle a un rôle transversal et sert de socle de référence tout au long du cycle de vie des données. Son objectif consiste à recueillir l’ensemble des informations concernant une opération scientifique et de les centraliser afin d’alimenter les autres étapes du processus de gestion des données (collecte/production, stockage, archivage, diffusion, publication, signalement) et ainsi éviter de possibles double-saisies.
Ces informations pourront par exemple :
- Permettre d’anticiper les besoins d’espaces dédiés au stockage, l’archivage
- Être utilisée par le service des publications pour renseigner automatiquement les métadonnées pour OpenEdition (Auteurs, Sujets, Chronologie)
- Permettre d’automatiser le signalement des missions et des jeux de données sur HAL
- …
Elle permettra, en amont de la mission, de fournir au responsable de l’opération tous les documents contractuels, juridiques et informations (guide de bonnes pratiques, fiches techniques) nécessaires à une bonne gestion des données de recherche en lien avec la grille des services de l’école.
Un schéma de données et un protocole d’échange permettent de normaliser ces informations à l’échelle des EFE. Ainsi les plateformes « missions » de l’EfA et « Opérations scientifiques » de l’IFAO seront interopérables avec la plateforme « Resefe » sans impacter leurs spécificités locales.
Les informations recueillies sont susceptibles d’être enrichies au fur et à mesure de l’avancement du projet et la plateforme assure l’historique des opérations.
La plateforme permettra de conserver / délivrer :
- Un canevas de Plan de gestion de données (Docx, ODT, PDF) conforme à celui proposé par MASA
- Des informations sur la mission au format XML conforme à un schéma publié (voir https://schema.data.gouv.fr/)
- Lettre de cadrage
- Lettre d'engagement
- Les autorisations fouilles
- …
A l’échelle du réseau des EFE, cette plateforme assure la centralisation et l’homogénéisation des renseignements concernant les opérations scientifiques.
Plateforme identifiants pérennes
L’attribution d’un DOI à une ressource est désormais possible à l’échelle du réseau de EFE, via l’abonnement souscrit auprès de Datacite (via l’INIST). La plateforme doi.resefe.fr permet à tous les acteurs des Écoles de créer et gérer les identifiants pérennes pour leur ressources numériques de manière totalement autonome. Une librairie (PHP) a été développée et permet aux autres plateformes de s’interfacer avec cette solution. Une API REST va être mise à disposition début 2021 pour faciliter ces interactions.
Plateforme archives
L’objectif de cette plateforme est de collecter, gérer, pérenniser et diffuser (après accord) l’intégralité des données produites à l’issue d’une opération scientifique. Les données sont hétérogènes (photographies, plan, SIG, photogrammétries, base de données) et nécessitent parfois des métadonnées qui peuvent être spécifiques.
Elle propose donc un socle de métadonnées commun à toutes les typologies de documents basé sur ISAD(G) qui est la norme internationale de description archivistique et des métadonnées adaptées à la ressource.
Un DOI « EFE » est automatiquement attribué aux données déposées, dès qu’elles sont publiées par leur producteur. Elles peuvent alors être diffusées via une interface publique, exportables (EAD, Dublin-Core, DataCite, Cidoc-Crm, IIIF, …), moissonables (protocole OAI-PHM) donc interopérables et réutilisables selon la licence associée.
Cette plateforme est le pivot dans le cycle de vie des données. Elle permet tout d’abord de garantir la conservation des données produites par les Écoles et élaborer les instruments de recherche associés à ces archives.
Dans un deuxième temps, elle permettra :
- De faciliter l’articulation entre données de la recherche et publications :
- Bulletin archéologique des EFE
- Publication dans les autres publications des écoles (appui sur les flux Onix)
- Les articles déposés dans HAL
- De construire une réflexion sur les Data-Papers autour des données de mission en lien avec OpenEdition (projet Equipex 2020)
- De développer l’interaction entre SIG et données
- De construire des catalogues ou collections de données
- De construire des portails d’éditorialisation de données (Omeka-S, Drupal,…)
- De développer des bibliothèques numériques.
Enfin, grâce à la mise à disposition d’une large gamme de métadonnées, elle assure l’exposition des données pour les infrastructures nationales ou européennes (EAD : Calame, France-Archives) pour les instruments de recherche, (Dublin-Core : Isidore, DataCite : OpenAire, Ariadne-Plus, Cidoc-CRm : OpenArchéo) pour les jeux de données.
Cette plateforme repose sur un développement réalisé par l’École française d’Athènes (https://archimage.efa.gr). Le projet est largement abouti et peut servir de socle pour les autres écoles. Des adaptations sont à prévoir cependant pour chacune d’entre-elles, en particulier sur la question de l’articulation avec des entrepôts tierces (Nakala, Dataverse, Zenodo, …)
Plateformes diffusion
Les plateformes de diffusion (catalogues, portails d’éditorialisation de données, bibliothèques numériques webSIG) seront développées en appui sur la plateforme archive (afin de séparer données et présentation). L’objectif est de construire progressivement à l’échelle du réseau en ensemble de solution (ou briques) réutilisables (accessible sur un github EFE) et de compétences identifiées afin d’accompagner les chercheurs dans l’exposition / l’éditorialisation de leurs données.