Want to make creations as awesome as this one?

Transcript

Les chercheurs s’appuient sur les connaissances scientifiques antérieures, notamment sur les résultats publiés

dans les articles scientifiques.
La reproductibilité des résultats, ainsi que leur croisement, ne sont cependant envisageables qu’avec des données originelles et leurs conditions d’obtention.
C’est pourquoi la science ouverte vise à faciliter l'accès aux publications scientifiques et aux données de la recherche.
Cette facilitation s’accompagne d’un certain nombre de mesures pour rendre les données scientifiques facilement découvrables, accessibles, interopérables et réutilisables. Ce sont les principes FAIR : Findable, Accessible, Interoperable, Reusable.

Les principes FAIR

Références

Références :

Cette présentation est réadaptée de ANDS | The FAIR data principles.

https://www.ands.org.au/working-with-data/fairdata/training#.XNqUWpLgeTA.link

Rendre les données facilement accessibles et téléchargeables


  • Les données sont accessibles depuis un entrepôt utilisant un protocole de communication standard
  • Le protocole de communication est libre et ouvert
  • Le protocole utilisé permet une authentification si besoin
  • Les métadonnées restent disponibles si les données ne le sont plus

Cliquez sur les touches du principe Accessible pour en savoir plus.

  • Les données ont un PID (identifiant pérenne et unique)
  • Les données sont décrites par des métadonnées
  • Les métadonnées contiennent le PID des données
  • Les données sont accessibles depuis un entrepôt de données

Permettre l'accès aux données et leur téléchargement


  • Les données sont accessibles à travers un protocole de communication standard
  • Ce protocole est libre et ouvert
  • Ce protocole permet un accès par authentification si besoin
  • Les métadonnées restent accessibles même si les données ne le sont pas

Cliquez sur les touches du principe Accessible pour en savoir plus.

Faciliter la découverte des données


  • Les données ont un PID (Persistent IDentifier ou identifiant pérenne en français)
  • Les données sont décrites par des métadonnées
  • Ces métadonnées spécifient le PID des données
  • Les données sont déposées dans un entrepôt de données

Cliquez sur les touches du principe Findable pour en savoir plus.

Rendre les données réutilisables pour de futures recherches


  • Les métadonnées ont une pluralité d'attributs
  • Une licence de réutilisation est attribuée aux données
  • La description des données indique leur provenance
  • Le partage des données suit les standards de la communauté scientifique

Cliquez sur les touches du principe Reusable pour en savoir plus.

Permettre la réutilisation des données pour de futures recherches


  • Les métadonnées ont une pluralité d'attributs
  • Une licence de réutilisation est attribuée aux données
  • La description des données indique leur provenance
  • Le partage des données suit les standards de la communauté scientifique

Cliquez sur les touches du principe Reusable pour en savoir plus.

Rendre les données exploitables par les machines et les humains


  • Les données sont décrites avec un vocabulaire contrôlé
  • Le vocabulaire utilisé respecte les principes FAIR
  • Les métadonnées sont reliées à d'autres données

Cliquez sur les touches du principe Interoperable pour en savoir plus.

Permettre l'exploitation des données quel que soit l'environnement informatique utilisé


  • Les données sont décrites avec un vocabulaire contrôlé
  • Le vocabulaire utilisé respecte les principes FAIR
  • Les métadonnées sont reliées à d'autres données

Cliquez sur les touches du principe Interoperable pour en savoir plus.

Attribuer des identifiants uniques et pérennes aux données

Persistent IDentifier (PID)

Qu'est-ce qu'un PID ?

Exemple

À quoi ça sert ?

FINDABLE

En résumé

Le principe Findable a pour objectif de faciliter la découverte des données.

Qu'est-ce qu'un PID ?

À l'image d'un code barre, un PID se présente sous la forme d'une suite de caractères qui est générée spécifiquement pour une ressource.
Ainsi, deux jeux de données ne peuvent avoir le même PID.

Un PID (Persistant IDentifier) est un mécanisme permettant d'identifier de façon stable et unique des ressources sur le Web.

Le principe Findable a pour objectif de faciliter la découverte des données.

Exemple

Il existe plusieurs types de PID . Le plus connu pour identifier un jeu de données est le DOI (Digital Object Identifier). Mais il en existe d'autres (Handle, ARK...).

Ci-dessous un DOI attribué à une ressource disponible sur l'entrepôt de données Zenodo. En cliquant dessus, vous tomberez sur la page descriptive de la ressource, depuis laquelle vous pouvez la télécharger.

Le principe Findable a pour objectif de faciliter la découverte des données.

À quoi ça sert ?

Pointer vers une donnée unique de façon stable

Un PID permet de créer un lien hypertexte unique et pérenne à un jeu de données spécifique. Le PID permettra toujours de retrouver le jeu de données même si l'adresse URL a été modifiée.

Vous ne devriez plus tomber sur une erreur 404 avec un PID.

404

PAGE INTROUVABLE

LA PAGE DEMANDÉE N'EXISTE PLUS

Le principe Findable a pour objectif de faciliter la découverte des données.

À quoi ça sert ?

Faciliter la citation

L'identifiant pérenne peut être un élément d’une référence bibliographique. Ainsi, lorsqu'un jeu de données est réutilisé, il sera facilement retrouvé depuis la citation .

Citation

Jeu de données

Le principe Findable a pour objectif de faciliter la découverte des données.

En résumé

Pour être FAIR, les données doivent être identifiables de façon unique et pérenne à l'aide d'un PID.

Il est plus facile de trouver un jeu de données sur le Web s'il possède un identifiant unique et pérenne qui permet l’ubiquité de la ressource.
Les PIDs sont donc un élément important du principe Findable.

Le principe Findable a pour objectif de faciliter la découverte des données.

Décrire finement vos données à l'aide de métadonnées

Métadonnées

Qu'est-ce qu'une métadonnée ?

À quoi ça sert ?

Soyez généreux dans votre description

FINDABLE

En résumé

Le principe Findable a pour objectif de faciliter la découverte des données.

Qu'est-ce qu'une métadonnée ?

Donnée

Métadonnées

  • Titre
  • Auteur
  • Éditeur
  • Date de publication
  • Etc.

Description

Une métadonnée est un élément servant à décrire une ressource (donnée).

Ci-dessus, quelques métadonnées que l'on peut attribuer à un livre.

Le principe Findable a pour objectif de faciliter la découverte des données.

À quoi ça sert ?

Les métadonnées servent à faciliter la recherche d'une donnée : lorsque vous tapez des mots clés dans une barre de recherche ou lorsque vous sélectionnez des filtres.

Le principe Findable a pour objectif de faciliter la découverte des données.

Soyez généreux dans votre description

Il vaut mieux en avoir trop que pas assez. Lorsque vous déposez un jeu de données, pensez à mettre autant de métadonnées que possible (à partir de référentiels, schémas de métadonnées).

Cela facilitera la recherche du jeu de données ainsi que sa compréhension.

Le principe Findable a pour objectif de faciliter la découverte des données.

En résumé

Les métadonnées permettent d'automatiser des tâches de tri et de hiérarchisation lors de la recherche de données. Elles permettent aussi au réutilisateur de mieux comprendre le contexte des données, les conditions dans lesquelles elles ont été créées ou collectées, leurs caractéristiques, etc. Plus vous donnerez d'informations sur vos données, plus elles seront compréhensibles et faciles à trouver.

Pour être FAIR, les données doivent être finement décrites à l'aide de métadonnées.

Le principe Findable a pour objectif de faciliter la découverte des données.

Indiquer le PID dans les métadonnées

Métadonnées avec PID

Pourquoi indiquer le PID dans les métadonnées ?

Exemple

FINDABLE

En résumé

Le principe Findable a pour objectif de faciliter la découverte des données.

Pourquoi indiquer le PID dans les métadonnées ?

Les métadonnées qui décrivent un jeu de données sont souvent dans des fichiers séparés .

Pour expliciter le lien qu'il y a entre eux, les métadonnées doivent intégrer l'identifiant pérenne et unique des données.

PID

Jeu de données

Lien explicite et formel

PID

Métadonnées

Le principe Findable a pour objectif de faciliter la découverte des données.

Exemple

Lorsque vous déposez un jeu de données dans l'entrepôt Zenodo, il vous est demandé de remplir un formulaire servant à décrire votre jeu de données. Vous créez ainsi un fichier de métadonnées propre à votre jeu de données.

Un des premiers champs demandés concerne l'identifiant pérenne de vos données .

Le principe Findable a pour objectif de faciliter la découverte des données.

En résumé

Comme les métadonnées se retrouvent souvent dans un fichier séparé du jeu de données, il vaut mieux mentionner dans le fichier de métadonnées le PID du jeu de données en question.

Pour être FAIR, les métadonnées doivent contenir le PID du jeu de données décrit.

Le principe Findable a pour objectif de faciliter la découverte des données.

Déposer ses données dans un entrepôt

Entrepôt de données

Qu'est-ce qu'un entrepôt de données ?

Pourquoi déposer dans un entrepôt ?

FINDABLE

En résumé

Le principe Findable a pour objectif de faciliter la découverte des données.

Qu'est-ce qu'un entrepôt de données ?

Les entrepôts de données sont les endroits où vous pouvez déposer des données, en rechercher d'autres et y accéder, en vue d'une réutilisation. Autrement dit, ce sont des services Web permettant l'hébergement, la recherche et le téléchargement des données.

Le principe Findable a pour objectif de faciliter la découverte des données.

Pourquoi déposer dans un entrepôt ?

Pour trouver une information sur le Web, on utilise souvent un moteur de recherche qui indexe les sites Web et les affiche ensuite sur leurs pages de résultats. Vous pourriez donc publier vos données sur un site quelconque pour qu'elles soient retrouvables.

Mais une indexation plus fine et contrôlée est nécessaire en matière de recherche scientifique. Les entrepôts de données répondent à cet objectif. Ils proposent en outre d'autres services (PIDs, licences de réutilisation, stockage sécurisé et pérenne des données).

  • Attribution de PIDs
  • Citations facilitées
  • Stockage sécurisé
  • Attribution de licences
  • Archivage à long terme
  • Etc.

Le principe Findable a pour objectif de faciliter la découverte des données.

En résumé

Les entrepôts sont des services adaptés à la recherche de données scientifiques. Il en existe beaucoup, certains sont spécifiques à une discipline, d'autres sont généralistes, ou encore propre à une institution. Il existe des annuaires d'entrepôts pour en trouver un adapté à ses besoins.
Tous les entrepôts ne proposent pas les mêmes services, mais ils restent la meilleure solution pour indexer et gérer des données scientifiques.

Pour être FAIR, les données doivent être déposées dans des entrepôts.

Le principe Findable a pour objectif de faciliter la découverte des données.

Utiliser un protocole de communication standardisé

Protocole standard

Qu'est-ce qu'un protocole de communication ?

Exemples de protocoles standards

ACCESSIBLE

En résumé

Le principe Accessible permet d'accéder et de télécharger facilement les données.

Qu'est-ce qu'un protocole de communication ?

Un protocole de communication est un ensemble de procédures que suivent les machines pour communiquer correctement entre elles .

Il existe plusieurs protocoles selon le type de communication visée : afficher la page d'un site Web, consulter ses mails, échanger des fichiers, etc.

Certains de ces protocoles, très largement utilisés, sont considérés comme des standards .

Le principe Accessible permet d'accéder et de télécharger facilement les données.

Exemples de protocoles standards

Le HTTP (HyperText Transfer Protocol) est un standard notamment utilisé pour consulter des sites Web . Il existe une variante sécurisée : le HTTPS.

HTTP

Le FTP (File Transfer Protocol) est un autre standard utilisé pour partager de fichiers . Il existe aussi une version sécurisée : le FTPS.

FTP

Le FTP et le HTTP s'appuient sur un mode de communication client-serveur détaillé ci-dessous.

Client

Serveur

Ex. Firefox

Ex. Apache

Client

Serveur

Ex. Filezilla

Ex. Filezilla

Requête

Réponse

Requête

Réponse

Utilisation du protocole HTTP


Le HTTP est un protocole de communication visant à faire dialoguer un navigateur Web (le client) et des données se trouvant sur le Web (le serveur).


Pour consulter une page Web, nous passons par un navigateur (par ex. Mozilla Firefox). Le navigateur émet une demande à un serveur Web (par ex. Apache) qui lui répond en donnant accès à la page demandée.



Crédits :

- Logo Firefox : Par ™ Mozilla Foundation — https://design.firefox.com/photon/visuals/product-identity-assets.htmlhttps://github.com/FirefoxUX/product-identity, CC BY 3.0, Lien

- Logo Apache : Par The Apache Software Foundation — From File:ASF-logo (2016).svg, edited in Inkscape: rotated to match the design of File:Apache HTTP server logo (2016).png and some cleanup; optimised using Scour., Apache License 2.0, Lien

Utilisation du protocole FTP


Le FTP est un protocole de communication visant à faire des transferts de fichiers d'un ordinateur à un serveur.


Il est souvent utilisé pour envoyer des fichiers sur un site Web. Par exemple, pour ajouter une vidéo sur son site, il faut passer par un client FTP (par ex. FileZilla Client) qui va envoyer la requête au serveur FTP (par ex. FileZilla Server).



Crédit :

Logo FileZilla : Par eeme158 team (uploaded by botg) — http://svn.lamporfg-project.org/lanmporg/artwork/image002%20logo.svg?view=co

Le principe Accessible permet d'accéder et de télécharger facilement les données.

En résumé

Il existe plusieurs protocoles qui sont destinés à des types de communications particuliers. Le HTTP et le FTP sont des protocoles standards servant respectivement à distribuer des pages Web et à transférer des fichiers.
L'entrepôt sur lequel vos données sont déposées devrait utiliser des protocoles standards tels que le HTTP et le FTP.

Pour être FAIR, les données doivent pouvoir être récupérables via un protocole de communication standardisé.

Le principe Accessible permet d'accéder et de télécharger facilement les données.

Utiliser un protocole de communication libre et ouvert

Protocole libre et ouvert

Pourquoi utiliser des protocoles libres et ouverts ?

ACCESSIBLE

En résumé

Le principe Accessible permet d'accéder et de télécharger facilement les données.

Pourquoi utiliser des protocoles libres et ouverts ?

Les protocoles de communication libres et ouverts sont librement utilisables et interopérables. Ils peuvent fonctionner avec plusieurs logiciels, contrairement aux protocoles propriétaires.

Ils facilitent ainsi le libre accès aux données.
Leur documentation technique étant accessible publiquement, les nouveaux outils qui verront le jour pourront s'appliquer avec ces protocoles.

De nombreux protocoles standards sont libres et ouverts. Ex : HTTP, FTP, SMTP (Simple Mail Transfer Protocol)...

Protocoles à éviter

Protocoles à utiliser

Les protocoles propriétaires ou dont la documentation n'est pas accessible publiquement. Ex : Protocole Skype, Microsoft Exchange Server...

Le principe Accessible permet d'accéder et de télécharger facilement les données.

En résumé

Le recours à des protocoles de communication libres et ouverts garantit un plus large accès aux données de recherche et une compatibilité avec de futurs outils. Il convient donc de ne pas utiliser de protocoles de communication propriétaires pour se préserver de toute dépendance technologique propriétaire.

Pour être FAIR, les données doivent pouvoir être récupérables via un protocole de communication standardisé libre et ouvert.

Le principe Accessible permet d'accéder et de télécharger facilement les données.

Utiliser un protocole de communication permettant une authentification si nécessaire

Authentification

Pourquoi une authentification ?

Comment s'y prendre ?

ACCESSIBLE

En résumé

Le principe Accessible permet d'accéder et de télécharger facilement les données.

Pourquoi une authentification ?

Le principe Accessible n'est pas synonyme de libre et ouvert

Bien que produites sur fonds publics, certaines données ne peuvent pas être accessibles publiquement pour des raisons légitimes. Ce sont par exemple :

  • des données à caractère personnel (données permettant d'identifier une personne, directement ou indirectement) ;
  • des données relevant de la sécurité nationale ;
  • des données sujettes à un dépôt de brevet.

Si vos données doivent rester privées, spécifiez les conditions exactes dans lesquelles elles peuvent être accessibles : qui a le droit d'y accéder et comment.

"As open as possible, as closed as necessary"

Le principe Accessible permet d'accéder et de télécharger facilement les données.

Comment s'y prendre ?

Utiliser des protocoles sécurisés

Les protocoles de communication utilisés doivent pouvoir restreindre l'accès aux données par authentification et/ou autorisation.

HTTPS

FTPS

Un site ayant un protocole sécurisé (comme HTTPS ou FTPS) peut utiliser un certificat pour identifier ses visiteurs . Ces protocoles sont notamment utilisés sur les sites de messagerie électronique ou sur les sites commerciaux effectuant des transactions financières.

Le choix de l'entrepôt de données peut donc dépendre du protocole de communication qu'il utilise.

Le principe Accessible permet d'accéder et de télécharger facilement les données.

En résumé

Les protocoles de communication HTTPS et FTPS peuvent demander un certificat d'identification aux personnes voulant accéder au site. L'entrepôt sur lequel les données sont déposées doit ainsi pouvoir identifier les visiteurs et donner des droits spécifiques pour donner accès ou non aux données sensibles.

Pour être FAIR, les données sensibles doivent pouvoir être accessibles par authentification.

Le principe Accessible permet d'accéder et de télécharger facilement les données.

Préserver l'accès aux métadonnées

Accès aux métadonnées

Pourquoi préserver l'accès aux métadonnées ?

ACCESSIBLE

En résumé

Le principe Accessible permet d'accéder et de télécharger facilement les données.

Pourquoi préserver l'accès aux métadonnées ?

Garder des informations sur les données si elles sont inaccessibles

Maintenir des jeux de données en ligne a un coût. Avec le temps, il y a des risques de dégradation. Dans ce cas, les jeux de données peuvent ne plus être disponibles. De même, des restrictions d'accès peuvent exister

(voir "authentification").

Si les données disparaissent ou sont inaccessibles, les métadonnées continueront à fournir de précieuses informations pour que d'autres chercheurs puissent connaître l'existence des données, contacter les personnes ressources ou encore retrouver les articles associés aux données.

Le principe Accessible permet d'accéder et de télécharger facilement les données.

En résumé

Avec le temps, les données peuvent disparaître. Les métadonnées peuvent être très utiles dans ce cas, car elles permettront d'avoir de précieuses informations sur le jeu de données disparu et de laisser la possibilité à d'autres chercheurs de reprendre et poursuivre les recherches associées.

L'entrepôt a un rôle majeur dans ce cas, étant donné que c'est lui qui héberge les données et métadonnées associées.

Pour être FAIR, les métadonnées doivent rester accessibles même si les données ne le sont plus.

Le principe Accessible permet d'accéder et de télécharger facilement les données.

Vocabulaire

Qu'est-ce qu'un vocabulaire contrôlé ?

À quoi ça sert ?

Utiliser un lexique prédéfini pour indexer et retrouver les connaissances

INTEROPERABLE

En résumé

Le principe Interoperable permet d'exploiter les données quel que soit l'environnement informatique utilisé.

Qu'est-ce qu'un vocabulaire contrôlé ?

Un vocabulaire contrôlé est une liste de termes prédéfinis servant à organiser des informations afin d'en faciliter la recherche et l'accès. Cette liste suit une structure bien définie afin de hiérarchiser le contenu.

Un vocabulaire contrôlé permet de réduire les ambiguïtés du langage naturel. Dans cet exemple fictif, le chat est appelé "chat" et non pas "matou".

Animaux

Mammifères

Félidés

Chats

Les vocabulaires sont très utiles pour décrire de façon formelle des données.

Le principe Interoperable permet d'exploiter les données quel que soit l'environnement informatique utilisé.

À quoi ça sert ?

Utiliser des termes prédéfinis permet aux machines d'avoir un langage commun et de se comprendre. Les vocabulaires contrôlés jouent donc un rôle dans l'interopérabilité , c'est à dire que les systèmes informatiques partagent un même format d'échange de données .

Afin que les données restent automatiquement accessibles et compréhensibles, leur description doit suivre un vocabulaire contrôlé et un modèle de représentation servant à le structurer.

Le principe Interoperable permet d'exploiter les données quel que soit l'environnement informatique utilisé.

En résumé

En décrivant un jeu de données selon un modèle de représentation et un vocabulaire contrôlé, vous fournirez des ressources compréhensibles tant par les humains que par les machines. L'échange de données pourra se faire automatiquement d'un système à l'autre.

Pour être FAIR, les données doivent être décrites à l'aide d'un vocabulaire contrôlé permettant l'interopérabilité.

Le principe Interoperable permet d'exploiter les données quel que soit l'environnement informatique utilisé.

Utiliser un vocabulaire qui respecte les principes FAIR.

Vocabulaire FAIR

Qu'est-ce qu'un vocabulaire FAIR ?

INTEROPERABLE

En résumé

Le principe Interoperable permet d'exploiter les données quel que soit l'environnement informatique utilisé.

Qu'est-ce qu'un vocabulaire FAIR ?

Il s'agit de vocabulaires contrôlés dont on peut retrouver la documentation grâce à un PID (identifiant pérenne et unique).

Exemple : Animal Diseases Ontology (ANDO)

Ce vocabulaire respecte les principes FAIR :

Est publié dans un format interopérable

Est décrit par des métadonnées

A son propre identifiant (DOI)

Accessible sur l'entrepôt Dataverse

https://data.inra.fr/dataset.xhtml?persistentId=doi:10.15454/1.44525654526207E12

Le principe Interoperable permet d'exploiter les données quel que soit l'environnement informatique utilisé.

En résumé

Le vocabulaire utilisé doit être retrouvable facilement à l'aide d'un PID. Il doit être documenté (décrit par des métadonnées) et lisible par les machines.

Pour être FAIR, les données doivent être décrites à l'aide d'un vocabulaire contrôlé respectant les principes FAIR.

Le principe Interoperable permet d'exploiter les données quel que soit l'environnement informatique utilisé.

Contextualiser avec des liens vers d’autres données

Métadonnées liées

Pourquoi faire des liens vers d'autres données ?

Comment faire ?

INTEROPERABLE

Exemple

En résumé

Le principe Interoperable permet d'exploiter les données quel que soit l'environnement informatique utilisé.

Pourquoi faire des liens vers d'autres données ?

Enrichir le contexte des données

Les principes FAIR s'appuient sur les technologies liées au Web de données . En ce sens, il est possible et même fortement recommandé de s'en servir afin de constituer un réseau global d'informations scientifiques .

En créant des liens significatifs entre les données, vous mettez en avant d'autres données en lien avec la recherche initiale. La recherche des données devient alors plus efficace et permet de découvrir de nouvelles données pertinentes.

Le principe Interoperable permet d'exploiter les données quel que soit l'environnement informatique utilisé.

Comment faire ?

Déposer dans un entrepôt adapté au Web des données

Certains entrepôts sont construits sur la technologie RDF (Ressource Description Framework). Il s'agit d'un modèle servant à déclarer des ressources sur le Web. Cette déclaration est assez simple, elle s'appuie sur 3 éléments :

Cette structure en 3 parties, appelée triplet, constitue un modèle de représentation des données.

Il existe d'autres modèles basés sur RDF, comme OWL (Web Ontology Language) ou SKOS (Simple Knowledge Organization System).

  • Le sujet ; la ressource référencée
  • Le prédicat ; le lien de relation
  • L'objet ; la ressource liée

< Berlin >---< est la capitale de >---< Allemagne >

Exemple de déclaration RDF

Le principe Interoperable permet d'exploiter les données quel que soit l'environnement informatique utilisé.

Par W3C, Bill Schwappacher — https://www.w3.org/, Domaine public, Lien

Nakala est un entrepôt utilisant RDF pour référencer les données.

Développé par la TGIR Huma-Num, Nakala utilise des technologies pour rendre interopérables les métadonnées et permettre une interconnexion avec d'autres entrepôts et un moissonnage par des services de recherche de données.

Exemple

L'entrepôt de données Nakala

Le principe Interoperable permet d'exploiter les données quel que soit l'environnement informatique utilisé.

Exemple

Imaginons que l'on dépose une donnée dans Nakala.

Voici à quoi correspond les triplets :

  • Le sujet est la donnée déposée dans l'entrepôt ;
  • Le prédicat correspond au schéma de métadonnées Dublin Core, imposant une trame de description (titre, auteur...) ;
  • L'objet correspond aux différents champs remplis dans le schéma.

VOIR PLUS

sujet

prédicat

objet

entrepôt de données RDF

schéma Dublin Core

éléments

à remplir

Le principe Interoperable permet d'exploiter les données quel que soit l'environnement informatique utilisé.

Voici un à quoi ressemble un dépôt dans Nakala, avec les correspondances des triplets RDF :


Exemple

En faisant des liens, les objets peuvent devenir des sujets.

sujet

prédicat

objet

Créateur

sujet

prédicat

objet

Contributeur

A

B

X

Dans l'exemple ci-dessus, le jeu de données A a pour créateur Monsieur X qui est aussi contributeur du jeu de données B.
La découverte de ces informations est facilitée par les liens automatiques du modèle RDF.

Le principe Interoperable permet d'exploiter les données quel que soit l'environnement informatique utilisé.

En résumé

L'objectif est de créer un réseau de données liées entre elles, afin d'enrichir la connaissance contextuelle des données. Pour cela, il faut déposer vos données dans des entrepôts utilisant les technologies du Web de données. Les machines pourront alors lire automatiquement les liens existant entre les données et optimiser les recherches d'informations des utilisateurs.

Pour être FAIR, les données doivent être liées entre elles.

Le principe Interoperable permet d'exploiter les données quel que soit l'environnement informatique utilisé.

Donner toutes les informations pouvant être utiles

Métadonnées avec attributs

Quelles informations peuvent être utiles ?

Comment faire ?

REUSABLE

En résumé

Le principe Reusable permet une réutilisation des données pour de futures recherches.

Quelles informations peuvent être utiles ?

Toutes les métadonnées sont pertinentes à priori

Quelle est la version du logiciel utilisé ?

Où s'est déroulée l'observation ?

Quel est le protocole expérimental ?

Qui a traité les données ?

Partez dans l'optique que toute sorte d'information peut être utile, car chaque utilisateur aura potentiellement besoin d'un élément précis suivant son contexte.

Comment ont été réglés les paramètres ?

Sur quelle période l'observation s'est déroulée ?

Le principe Reusable permet une réutilisation des données pour de futures recherches.

Comment faire ?

En suivant les champs proposés par le schéma de métadonnées, donnez le plus d'informations possible sur le contexte dans lequel vos données ont été produites / collectées / générées.


L'exemple ci-contre montre l'ajout d'une métadonnées à partir du schéma Dublin Core lors d'un dépôt sur Nakala. Les possibilités diffèrent selon le schéma utilisé. Vous pouvez toujours ajouter des informations complémentaires dans des champs de saisie libre, comme le champs "description". Il peut être bon aussi d'ajouter un fichier texte (communément appelé "Read me") pour donner ou développer des informations importantes qui pourraient manquer.

Le principe Reusable permet une réutilisation des données pour de futures recherches.

En résumé

Plus on connaît le contexte dans lequel des données ont été crées, plus on peut en tirer profit. Ce principe incite à offrir beaucoup d'informations contextuelles sur les données, même celles qui peuvent paraître inutiles, car on ne sait pas quels seront les besoins des futurs réutilisateurs.

Pour être FAIR, les données sont richement décrites avec une pluralité d'attributs précis et pertinents

Le principe Reusable permet une réutilisation des données pour de futures recherches.

Attribuer une licence de réutilisation

Licence

Pourquoi attribuer une licence ?

REUSABLE

Quelle licence attribuer ?

En résumé

Le principe Reusable permet une réutilisation des données pour de futures recherches.

Pourquoi attribuer une licence ?

En France, les données issues de recherche financée sur fonds publics doivent être ouvertement partagées et librement réutilisables , sauf exceptions légales (données sensibles par exemple).

Mais même si vos données peuvent être librement réutilisables, il est préférable d'attribuer une licence pour expliciter vos conditions . Par exemple, une licence CC-BY exigera au réutilisateur de reconnaître votre paternité.

Reconnaissance de la paternité

Le principe Reusable permet une réutilisation des données pour de futures recherches.

Quelle licence attribuer ?

Il existe des licences gratuites qui sont adaptées pour l'ouverture des données de recherche. Ci-dessous trois exemples avec les licences Creative Commons, Open Licence et Open Database Licence.

ODbL

Les licences CC permettent de définir plusieurs restrictions, comme l'interdiction d'usage commercial ou de modification.

En savoir plus

La Licence Etalab a été conçue par le Gouvernement français pour faciliter la mise en place de l'Open Data. Elle équivaut à la licence CC-BY.

En savoir plus

En savoir plus

L'Open Database Licence (ODbL) est une licence spécifique permettant d'exploiter publiquement des bases de données.

Le principe Reusable permet une réutilisation des données pour de futures recherches.

En résumé

Attribuer une licence vous permet de définir explictement les droits des réutilisateurs concernant vos données : peuvent-ils modifier les données ? en faire un usage commercial ...? Le choix de la licence va donc dépendre des droits que vous pouvez accorder en fonction de la nature juridique des données. Elles peuvent par exemple être déjà protégées par le droit d'auteur ou faire l'objet d'exceptions à leur libre accès.

Certaines licences sont adaptées pour l'Open Data comme les licences Creative Commons, l'Open Database Licence (pour les bases de données) ou encore la Licence Ouverte d'Etalab. Créée dans le cadre de la politique du Gouvernement français, cette dernière est à privilégier autant que possible.

Pour être FAIR, les données sont publiées avec une licence de réutilisation claire et accessible.

Le principe Reusable permet une réutilisation des données pour de futures recherches.

Indiquer l'historique des données

Provenance

Pourquoi indiquer la provenance des données ?

Comment faire ?

En résumé

REUSABLE

Le principe Reusable permet une réutilisation des données pour de futures recherches.

Indiquer l'historique des données

Provenance

Pourquoi indiquer la provenance des données ?

Comment faire ?

En résumé

Le principe Reusable permet une réutilisation des données pour de futures recherches.

Pourquoi indiquer la provenance des données ?

Parmi les informations à fournir avec les données, celles concernant leur provenance est essentielle pour prouver leur crédibilité et leur fiabilité.


Il sera plus facile d'accorder de la confiance à des résultats issus du jeu de données B que du jeu de données A.

Les informations apportées doivent aider à déterminer la qualité des données, permettre de reproduire l'expérience et de réutiliser les données.

Données A

Données B

- Auteurs
- Laboratoire
- Objectifs

- Auteurs

- Laboratoire
- Objectifs

- Méthode d'obtention

- Outil utilisé
- Paramètres utilisés
- Données associées
- Degré d'incertitude

- Méthode d'obtention

Le principe Reusable permet une réutilisation des données pour de futures recherches.

Comment faire ?

Pour saisir la provenance des données, on peut indiquer des détails sur les auteurs (pour savoir qui citer et comment), préciser si les données s'appuient sur des données déjà publiées, comment elles ont été générées, quels outils ont été utilisés, avec quel paramétrage...

Ces informations devraient être indiquées dans les métadonnées pour être automatiquement interprétées par les machines. Si besoin, il est possible de fournir un fichier texte simple appelé "Read me", qui précise la procédure d'acquisition des données.

De nombreux exemples de jeux de données indiquant leur provenance sont disponibles dans des data papers (publications d'articles décrivant des jeux de données).

https://zookeys.pensoft.net/articles

Le principe Reusable permet une réutilisation des données pour de futures recherches.

En résumé

Pour que les données soient réutilisables, il est nécessaire d'indiquer des informations pour les contextualiser. Ces informations peuvent être demandées lors du dépôt des données dans un entrepôt, comme les auteurs, leur institution, la date de création des données, leur relation avec d'autres données déjà publiées, etc. Il peut parfois être nécessaire d'ajouter un fichier texte du type "Read me" pour donner des informations supplémentaires.

Pour être FAIR, les données doivent indiquer leur provenance

Le principe Reusable permet une réutilisation des données pour de futures recherches.

Utiliser des standards pour partager les données

Standards de la communauté

Pourquoi utiliser un standard ?

REUSABLE

En résumé

Le principe Reusable permet une réutilisation des données pour de futures recherches.

Pourquoi utiliser un standard ?

Il est bien plus aisé de réutiliser des données qui sont organisées de la même façon, ont les mêmes formats, sont décrites avec le même schéma... en somme, des données qui suivent un modèle commun pour leur partage .


S'il en existe un, il convient de suivre le modèle de sa communauté scientifique afin de faciliter la réutilisation des données par ses pairs . S'il n'existe pas de standard disciplinaire, il faut trouver les moyens les plus adaptés pour partager ses données avec au minimum sa communauté. Par exemple, utilisez un format de fichier ouvert pour mettre vos données à disposition de vos pairs.

Le principe Reusable permet une réutilisation des données pour de futures recherches.

En résumé

Les premiers réutilisateurs potentiels de vos données sont vos confrères. Il est probable qu'ils utilisent eux mêmes certains formats de fichiers spécifiques, suivent des schémas, des protocoles ou des vocabulaires communs. Il convient donc de suivre les standards de sa communauté pour partager ses données. En l'absence de standard, des choix seront à faire pour faciliter la réutilisation des données par sa communauté.

Pour être FAIR, les données suivent les standards de la communauté

Le principe Reusable permet une réutilisation des données pour de futures recherches.