Articles taggués Données de la recherche

Gérer et diffuser les données de la recherche: quels enjeux?

2

Les données de la recherche sont précieuses, pour toutes les raisons exposées dans un premier billet. C’est en particulier le cas lorsque leur reproduction est impossible ou difficile (car coûteuse, complexe ou longue) et que leur intérêt potentiel pour la science ou pour la société dépasse le contexte de leur constitution. Il est donc important de les gérer et souhaitable de les partager.

Pourquoi associer la gestion et la diffusion des données?

La gestion des données (data management) désigne au sens large l’ensemble des activités facilitant :

  • l’exploitation des données pendant un projet (stockage, partage entre partenaires, sécurisation, description, contrôle qualité…),
  • leur préservation à plus ou moins long terme à l’issue du projet,
  • leur réutilisation par les partenaires du projet ou éventuellement par des tiers.

La diffusion des données peut se faire quant à elle :

  • à la demande (on parlera plutôt de « partage » dans ce cas) ou de bien de manière systématique,
  • à destination d’un public large ou restreint,
  • et être assortie ou non de conditions ou de restrictions.

Il est en théorie envisageable de bien gérer des données sans pour autant les partager avec des tiers. Par contre, l’inverse n’est pas vrai : pour pouvoir diffuser des données, encore faut-il les avoir au préalable conservées, décrites et documentées. Les financeurs de la recherche, dont l’objectif est de favoriser le partage des données, préconisent donc également l’adoption de bonnes pratiques concernant leur gestion.

Un impératif: préserver, protéger et documenter ses données

Quel que soit l’ampleur du travail, du mémoire de master à la collaboration internationale impliquant des centaines de chercheurs, une perte ou une altération des données peut avoir des conséquences dramatiques pour le projet.

Un accès non autorisé aux données peut également être dangereux pour le projet, mais aussi pour des tierces personnes, en particulier s’il s’agit de données confidentielles ou personnelles. La collecte et le traitement des données personnelles obéit à une réglementation spécifique, appelée à évoluer en 2018, qu’a présentée le correspondant informatique et liberté de l’UNS lors d’une journée d’étude le 23 juin dernier.

Plus généralement, le guide « Pratiquer une recherche intègre et responsable » du comité d’éthique du CNRS (2e édition de décembre 2016) fait de la fiabilité et de la traçabilité des données produites et des traitements réalisés une bonne pratique nécessaire à la fiabilité du travail de recherche. Cela passe en sciences dures par la tenue d’un cahier de laboratoire, qui permet de faciliter le repérage des fraudes, de répondre aux demandes de vérification des relecteurs d’un article, et de sécuriser juridiquement la recherche en fournissant une preuve d’antériorité des résultats.

Partager ses données, quel intérêt pour le chercheur et pour la société?

Au-delà d’une bonne gestion des données, dont l’intérêt est assez évident, quels sont les enjeux spécifiques du partage des données ?

Consolider la science

Une première série d’arguments sont d’ordre scientifique: améliorer la qualité de la recherche, sa visibilité et son impact, et faciliter de nouvelles recherches. Ils sont à replacer dans une logique générale de « science ouverte » : diffusion libre des articles, des données, du code informatique, des algorithmes, des protocoles, transparence de l’évaluation des résultats par les pairs, implication du public dans certaines recherches.

Différents volets de la science ouverte d'après le projet FOSTER

Différents volets de la science ouverte d’après le projet FOSTER

Revenons rapidement sur ces différents points :

Améliorer la qualité et la transparence de la recherche passe par une meilleure reproductibilité des expériences et des analyses. C’est un sujet brûlant en psychologie, en biologie et dans bien d’autres disciplines (voir ce manifeste paru il y a quelques jours dans une revue du groupe Nature). On distingue la « réplication » complète d’une étude, de la collecte des données au résultat final, souvent impossible, et la « reproduction » des résultats à partir des données brutes.

La diffusion des données renforce la visibilité et l’impact d’une étude. Statistiquement, les articles accompagnés de données sont plus cités que les autres (sélection d’articles sur le sujet).

Enfin elle permet de faire avancer plus vite la science :

  • Constitution de bases de données internationales de référence, comme en génétique, ou en cristallographie.
  • Méta-analyse synthétisant des données issues de plusieurs études pour consolider les connaissances sur un sujet.
  • Agrégation ou comparaison de données liées à des lieux ou à des périodes distinctes.
  • Application de nouvelles méthodes ou de nouveaux outils à des données anciennes.
  • Exploitation de sous-ensembles de données non analysés par leurs producteur (cas de plus en plus fréquent lié à l’augmentation de la taille des jeux de données).
  • Nouvelles collaborations avec d’autres chercheurs.

La réutilisation de données est déjà bien établie en génétique ou en astronomie, mais encore balbutiante dans d’autres disciplines. En sciences sociales, elle est par exemple une pratique courante au Royaume-Uni, mais nettement plus marginale en France.

Renforcer la place de la science dans la société

D’autres arguments sont d’ordre socio-économiques, politiques ou patrimoniaux:

  • Rationalité économique : la collecte et le traitement des données peuvent couter très cher, il faut donc les « rentabiliser » au maximum, et éviter de recréer des données déjà disponibles.
  • Bon usage de l’argent public : la recherche financée sur fonds publics devrait bénéficier à tous, et donc être diffusée sans barrière et le plus largement possible.
  • Utilité pour la société et les entreprises : cela concerne au premier chef les données d’essais cliniques, épidémiologiques, économiques, climatologiques, environnementales, etc. A titre d’exemple, la communauté scientifique américaine est fortement mobilisée depuis plusieurs mois pour préserver les données climatologiques, de peur que le président Trump ne les fasse disparaître ou ne restreigne leur disponibilité.
  • Maîtrise des données par la communauté scientifique : même si des acteurs privés (éditeurs, sociétés spécialisées) ont un rôle à jouer dans la diffusion des données, la communauté scientifique doit pouvoir en conserver la maîtrise.
  • Constitution d’un patrimoine scientifique. On peut aujourd’hui accéder aux oeuvres et aux travaux préparatoires de Darwin, Newton ou Claude Bernard. Mais de quels éléments disposeront nos héritiers pour documenter l’histoire de la science du XXIe siècle?
  • Respect des obligations et recommandations des universités, financeurs et revues. Ces politiques, variables selon les pays et les disciplines, ont été mises en place depuis une dizaine d’années pour apporter une réponse institutionnelle à tous les enjeux exposés précédemment.

Des freins et des difficultés à prendre au sérieux

Le partage et la réutilisation des données de la recherche sont encore loin d’être généralisés. Cela s’explique par différentes objections, qui sont de différents ordres.

Les objections pratiques sont multiples :

  • Manque de temps.
  • Coût lié à la préservation des données.
  • Manque de compétences.
  • Manque d’infrastructures adaptés.

L’organisation traditionnelle de la recherche et de la communication scientifique ne favorise pas le partage :

  • Faible incitation institutionnelle.
  • La communication des résultats scientifique passe avant tout par la rédaction d’articles.
  • Manque de reconnaissance du partage de données dans le processus d’évaluation des chercheurs.

Un partage trop rapide et non préparé peut avoir des effets négatifs :

  • Risque de mauvaise interprétation des données, qui pourrait nuire à leur producteur.
  • Risque d’une mise en évidence d’erreurs dans la collecte ou le traitement des données.
  • Risque de favoriser le travail d’une autre équipe au détriment de la sienne, dans un contexte de concurrence de plus en plus vive entre chercheurs. C’est particulièrement vrai lorsqu’un même jeu de données peut donner lieu à plusieurs publications étalées sur plusieurs années.

Les réticences les plus profondes sont liées à la nature même des processus de recherche :

  • Difficultés théoriques ou méthodologiques pour réutiliser des données dans certaines disciplines: comme l’explique le projet ANR Reanalyse, « la démarche qualitative construit des données (observations, entretiens en particulier) qui sont produites dans l’interaction du chercheur avec le milieu qu’il étudie : leur réutilisation dans un autre contexte ne va donc pas de soi ».
  • Pratiques parfois trop hétérogènes pour que les données puissent facilement être réutilisées : manque d’un format commun partagé par tous les chercheurs une discipline, etc.

Enfin des questions juridiques et éthiques sont à prendre en considération :

  • Utilisation de données personnelles ou sensibles, en particulier dans le domaine médical.
  • Utilisation de données détenues par un tiers.
  • En sciences sociales, la recherche « procède le plus souvent sur la base d’un contrat de confiance entre l’enquêté et l’enquêteur qui n’inclut pas la mise à disposition des informations fournies à d’autres que ceux à qui elles ont été confiées » (citation du projet Reanalyse)

 

Comment répondre à ces enjeux tout en tenant compte de ces freins? Vous le saurez dans le prochain épisode!

 

En attendant, quelques liens pour aller plus loin si le sujet vous intéresse :

Pour s’informer

Pour se former

Les données, quel enjeu pour la recherche et les bibliothèques?

4

Un nombre croissant de revues scientifiques demandent aux auteurs de rendre disponibles les données analysées dans leurs articles. C’est par exemple le cas du prestigieux groupe Nature. Ce mouvement international, né dans des disciplines productrices et réutilisatrices de grandes quantité de données (astrophysique, physique des hautes énergies, génomique…), s’étend peu à peu à d’autres domaines, comme les essais cliniques, et se généralise sous l’impulsion d’universités, d’agences de financement de la recherche, de gouvernements et d’organisations scientifiques internationales.

Comment expliquer cette évolution, et comment l’accompagner?

 

Qu’entend-on par données de la recherche?

La notion de données fait partie de l’ »outillage intellectuel » standard des sciences de la matière et du vivant, et de certaines sciences sociales. Mais un informaticien, un statisticien, un sociologue ou un physicien se font-ils la même idée de leurs « données »? Plusieurs définitions des « données de la recherche » ont été proposées depuis une dizaine d’années, mais  elles ont été formulées par différents organismes dans un but opérationnel, et non à l’issue d’une réflexion philosophique. Une des plus influente a été proposée en 2007 dans les Principes et lignes directrices de l’OCDE pour l’accès aux données de la recherche financée sur fonds publics :

les «données de la recherche » sont définies comme des enregistrements factuels (chiffres, textes, images, sons) utilisés comme source principales pour la recherche scientifique et généralement reconnus par la communauté scientifique comme nécessaires pour valider les résultats de la recherche. Un ensemble de données de recherche constitue une représentation systématique et partielle du sujet faisant l’objet de la recherche »

Notons que cette définition fortement marquée par les sciences dures devrait être adaptée pour s’appliquer pleinement aux sciences humaines et sociales.

Les données se présentent aujourd’hui le plus souvent sous forme numérique, mais ce n’est pas une obligation, et le retraitement de données anciennes impose bien souvent la manipulation de documents physiques.

Elles sont très diverses en terme de format, de volumétrie, et de méthode de constitution ou de collecte.

Toutes ne sont pas créées dans le cadre d’un projet spécifique, car elles peuvent également avoir pour origine :

  • l’observation régulière de la nature (séismes, climat…) ou de la société (recensements, statistique publique…),
  • l’activité d’organismes publics, d’entreprises et d’individus,
  • un autre projet de recherche, éventuellement mené par une équipe différente.

On distingue fréquemment plusieurs « niveaux » de données, par exemple :

  • brutes, sans trace de subjectivité (issues directement d’un instrument, etc.),
  • traitées (filtrées, corrigées, calibrées, normalisées, etc.),
  • dérivées (agrégation, vue spécifique ou synthétique des données, représentation graphique),
  • analysées et interprétées (par le texte d’une publication scientifique).

 

Un enjeu scientifique majeur

Historiquement, les données exploitées par les chercheurs pouvaient être issues :

  • d’expériences en environnement contrôlé,
  • de l’observation de la nature
  • de l’observation de l’homme en société

 

Cependant l’essor de l’informatique et de l’instrumentation a permis progressivement (depuis quelques décennies ou quelques années selon les disciplines) :

  • la création de données « in silico » au moyen de simulations et de modélisations,
  • la production d’une quantité toujours croissante de données par divers équipement scientifiques,
  • la production de données dans tous les secteurs de la société (industrie, santé, communication, marketing…), qui peuvent devenir autant de sujets d’étude,
  • de nouvelles formes de collaborations scientifiques impliquant le partage ou l’élaboration collective de données à large échelle (initiatives internationales en astronomie, génomique, neurosciences, etc.),
  • le développement de nouvelles techniques d’analyse, de nouveaux questionnements, voire de nouveaux paradigmes scientifiques dans les disciplines traditionnellement utilisatrices de données mais aussi dans les sciences humaines (« humanités numériques »),
  • un diffusion et une réutilisation plus aisée et moins coûteuse des données.

 

Mais les enjeux liés aux données de la recherche sont aussi économiques et sociétaux, car les données sont devenues stratégiques pour nombre d’entreprises, les pouvoirs publics, et la société dans son ensemble. Cela rend possibles de nouvelles formes de partenariats centrés sur les données entre le monde de la recherche et la société :

  • réutilisation de données publiques ou privées par la recherche publique,
  • réutilisation de données produites par la recherche par des acteurs publics ou privés,
  • partenariats public/privé.

 

Pourquoi vous parler de tout cela?

Une des missions des bibliothèques universitaires consiste à soutenir la recherche, ce qui implique de :

  • Donner accès à des informations scientifiques et techniques, traditionnellement présentées sous forme de livres, de revues ou de bases de données spécialisées,
  • Valoriser la production de leur établissement, en promouvant notamment sa diffusion en open access.

Or les données scientifiques tendent à devenir un objet communicable et valorisable au même titre qu’une publication. Les bibliothèques des grandes universités de recherche étrangères ont donc investi ce nouveau champ, en travaillant conjointement avec les services informatique, l’administration de la recherche, et les chercheurs eux-mêmes (voir par exemple à Edinburgh ou dans le Wisconsin). Les universités françaises sont moins avancées, mais plusieurs BU ont des projets de cette nature, et des services ont été développés par l’INIST-CNRS et l’INRA.

Voici pourquoi nous menons depuis l’an dernier une réflexion sur ce sujet, que nous partagerons avec vous sur HTTBU. Après ce premier billet introductif, nous aborderons :

  • les principaux enjeux liés au partage et à la gestion des données,
  • des questions plus pratiques comme la mise en place de plans de gestion de données,
  • les exigences de l’Union européenne dans le cadre du programme Horizon 2020,
  • les ressources de formation et d’autoformation.

 

Si vous souhaitez en savoir plus, ou si vous avez des questions sur un point particulier, vous pouvez nous contacter en écrivant à donnees-scd@unice.fr.

 

 

Nouvelles formes de communication et d’évaluation scientifique (2/2)

1

Vous vouliez en savoir plus sur la journée nationale des URFIST du 25 septembre ? Voici la suite !

La présentation par Rodrigo Costas -Comesaña de ses travaux sur Altmetrics  a permis de faire un point sur la définition des altmetrics, les outils concernés (plateformes sociales comme Mendeley, ResearchGate, outils grand public comme Twitter, Facebook), les données disponibles, les biais, et ce que l’on peut en attendre.

Le travail sur ces données présente de nombreux problèmes (corrélation entre les sources ou manque de cohérence au sein du même outil, difficulté de manipulation, manque de normalisation…). On note dans les résultats une sous-représentation de certaines disciplines plus complexes, ou si les titres d’article sont trop longs (twitter et facebook). L’intérêt semble donc plus de mesurer la réception et la vision sociale de la science par le profane que d’en tirer une évaluation des travaux.

Source : Wikimedia, Photo by CEphoto, Uwe Aranas / CC-BY-SA-3.0

Source : Wikimedia, Photo by CEphoto, Uwe Aranas / CC-BY-SA-3.0

Le sociologue des sciences Yves Gingras a remis en perspective historique ces évolutions. La situation actuelle résulte à la fois de l’arrivée d’Internet, qui a changé l’unité (de la revue à l’article), de la financiarisation de l’économie de l’édition, et de l’avènement d’un nouveau management public au sein des universités (centré sur l’évaluation). L’utilisation des indicateurs pour l’évaluation dépend de la fonction de l’institution. Il faut s’interroger sur les outils disponibles et leurs limites pour l’objectif visé (l’indice H est mal conçu ; Scopus et Wos, quoique incomplets, restent mieux contrôlés, que d’autres).

Les données de la recherche sont un autre sujet d’actualité. Le directeur exécutif de Codata (Committee on Data for Science and Technology- ICSU) a présenté les initiatives en cours pour promouvoir l’ouverture des données de la recherche : groupes de travail, déclaration Open access, avec des recommandations pour la citation normalisée des ensembles de données, projet d’attribution de DOI aux données (Datacite), entrepôt international de dépôt (Dryad).

Au total, une journée riche et instructive.

Retrouvez dans les abonnements électroniques de l’UNS les publications de Rodrigo Costas (Springer, Wiley) et celles d’Yves Gingras (Cairn.info, Erudit)

Voir aussi la première partie du compte-rendusur ce blog, et les interventions en vidéo sur le wiki de l’URFIST de Nice

Remonter