Un nombre croissant de revues scientifiques demandent aux auteurs de rendre disponibles les données analysées dans leurs articles. C’est par exemple le cas du prestigieux groupe Nature. Ce mouvement international, né dans des disciplines productrices et réutilisatrices de grandes quantité de données (astrophysique, physique des hautes énergies, génomique…), s’étend peu à peu à d’autres domaines, comme les essais cliniques, et se généralise sous l’impulsion d’universités, d’agences de financement de la recherche, de gouvernements et d’organisations scientifiques internationales.

Comment expliquer cette évolution, et comment l’accompagner?

 

Qu’entend-on par données de la recherche?

La notion de données fait partie de l’ »outillage intellectuel » standard des sciences de la matière et du vivant, et de certaines sciences sociales. Mais un informaticien, un statisticien, un sociologue ou un physicien se font-ils la même idée de leurs « données »? Plusieurs définitions des « données de la recherche » ont été proposées depuis une dizaine d’années, mais  elles ont été formulées par différents organismes dans un but opérationnel, et non à l’issue d’une réflexion philosophique. Une des plus influente a été proposée en 2007 dans les Principes et lignes directrices de l’OCDE pour l’accès aux données de la recherche financée sur fonds publics :

les «données de la recherche » sont définies comme des enregistrements factuels (chiffres, textes, images, sons) utilisés comme source principales pour la recherche scientifique et généralement reconnus par la communauté scientifique comme nécessaires pour valider les résultats de la recherche. Un ensemble de données de recherche constitue une représentation systématique et partielle du sujet faisant l’objet de la recherche »

Notons que cette définition fortement marquée par les sciences dures devrait être adaptée pour s’appliquer pleinement aux sciences humaines et sociales.

Les données se présentent aujourd’hui le plus souvent sous forme numérique, mais ce n’est pas une obligation, et le retraitement de données anciennes impose bien souvent la manipulation de documents physiques.

Elles sont très diverses en terme de format, de volumétrie, et de méthode de constitution ou de collecte.

Toutes ne sont pas créées dans le cadre d’un projet spécifique, car elles peuvent également avoir pour origine :

  • l’observation régulière de la nature (séismes, climat…) ou de la société (recensements, statistique publique…),
  • l’activité d’organismes publics, d’entreprises et d’individus,
  • un autre projet de recherche, éventuellement mené par une équipe différente.

On distingue fréquemment plusieurs « niveaux » de données, par exemple :

  • brutes, sans trace de subjectivité (issues directement d’un instrument, etc.),
  • traitées (filtrées, corrigées, calibrées, normalisées, etc.),
  • dérivées (agrégation, vue spécifique ou synthétique des données, représentation graphique),
  • analysées et interprétées (par le texte d’une publication scientifique).

 

Un enjeu scientifique majeur

Historiquement, les données exploitées par les chercheurs pouvaient être issues :

  • d’expériences en environnement contrôlé,
  • de l’observation de la nature
  • de l’observation de l’homme en société

 

Cependant l’essor de l’informatique et de l’instrumentation a permis progressivement (depuis quelques décennies ou quelques années selon les disciplines) :

  • la création de données « in silico » au moyen de simulations et de modélisations,
  • la production d’une quantité toujours croissante de données par divers équipement scientifiques,
  • la production de données dans tous les secteurs de la société (industrie, santé, communication, marketing…), qui peuvent devenir autant de sujets d’étude,
  • de nouvelles formes de collaborations scientifiques impliquant le partage ou l’élaboration collective de données à large échelle (initiatives internationales en astronomie, génomique, neurosciences, etc.),
  • le développement de nouvelles techniques d’analyse, de nouveaux questionnements, voire de nouveaux paradigmes scientifiques dans les disciplines traditionnellement utilisatrices de données mais aussi dans les sciences humaines (« humanités numériques »),
  • un diffusion et une réutilisation plus aisée et moins coûteuse des données.

 

Mais les enjeux liés aux données de la recherche sont aussi économiques et sociétaux, car les données sont devenues stratégiques pour nombre d’entreprises, les pouvoirs publics, et la société dans son ensemble. Cela rend possibles de nouvelles formes de partenariats centrés sur les données entre le monde de la recherche et la société :

  • réutilisation de données publiques ou privées par la recherche publique,
  • réutilisation de données produites par la recherche par des acteurs publics ou privés,
  • partenariats public/privé.

 

Pourquoi vous parler de tout cela?

Une des missions des bibliothèques universitaires consiste à soutenir la recherche, ce qui implique de :

  • Donner accès à des informations scientifiques et techniques, traditionnellement présentées sous forme de livres, de revues ou de bases de données spécialisées,
  • Valoriser la production de leur établissement, en promouvant notamment sa diffusion en open access.

Or les données scientifiques tendent à devenir un objet communicable et valorisable au même titre qu’une publication. Les bibliothèques des grandes universités de recherche étrangères ont donc investi ce nouveau champ, en travaillant conjointement avec les services informatique, l’administration de la recherche, et les chercheurs eux-mêmes (voir par exemple à Edinburgh ou dans le Wisconsin). Les universités françaises sont moins avancées, mais plusieurs BU ont des projets de cette nature, et des services ont été développés par l’INIST-CNRS et l’INRA.

Voici pourquoi nous menons depuis l’an dernier une réflexion sur ce sujet, que nous partagerons avec vous sur HTTBU. Après ce premier billet introductif, nous aborderons :

  • les principaux enjeux liés au partage et à la gestion des données,
  • des questions plus pratiques comme la mise en place de plans de gestion de données,
  • les exigences de l’Union européenne dans le cadre du programme Horizon 2020,
  • les ressources de formation et d’autoformation.

 

Si vous souhaitez en savoir plus, ou si vous avez des questions sur un point particulier, vous pouvez nous contacter en écrivant à donnees-scd@unice.fr.