Articles taggués Text & data mining

ISTEX lance un appel à proposition d’exploration de corpus

0

ISTEX (dont il a déjà été question ici) est un projet, un dispositif, un ensemble de ressources et de services. C’est également une plate-forme.

istex - copie d'écran

segments BSN

ISTEX ? Un petit rappel (si besoin)

La Bibliothèque scientifique numérique est un dispositif visant à faire collaborer les grands acteurs du monde académique autour des enjeux forts de la documentation scientifique aujourd’hui. 9, puis 10 « segments » (groupes de travail) œuvrent à apporter des réponses nationales à des problématiques communes.

 

ISTEX est le produit d’un de ces segments : cette plate-forme vise à donner accès de manière pérenne aux ressources (articles) acquises dans le cadre de licences nationales.

Par voie de conséquence, ISTEX engrange donc une masse de documentation scientifique qu’il peut être intéressant de considérer comme un corpus de textes.

Accéder aux ressources, mais aussi exploiter les données

Dans cette perspective, un appel à propositions est lancé par ISTEX pour initier des chantiers  thématiques d’exploitation du plein texte des corpus, considérés comme données source pour la fouille de texte.

8 à 10 projets dans des thématiques différentes devraient être soutenus financièrement, avec une enveloppe globale de 400 k€ pour l’ensemble des projets.

La date limite de soumission est le 15 octobre minuit, pour un début de mise en place en janvier 2016, et un rendu des résultats au second trimestre 2017.

Ces  projets  devront être accompagnés en termes d’expertise et de conseil par des spécialistes de l’IST. L’appel à proposition précise qu’une interaction avec l’équipe de développement de la plateforme  Istex et/ou les  projets  de  services  généraux  à  valeur  ajoutée  en  cours  de  définition serait un plus (voir les pages présentant « les services de base » et « les services avancés« ).

Un projet en collaboration avec le service Données de la recherche des bibliothèques universitaires

Le Service commun de documentation se met à la disposition des laboratoires et des chercheurs pour les accompagner dans la définition  et la réalisation de ces projets  (informations sur les corpus concernés, informations sur la plateforme et les projets de services généraux d’Istex, fourniture de prestations de manipulation et de visualisation de données).

Si cet appel à proposition vous intéresse, vous pouvez contacter donnees-scd@unice.fr à partir du 1er septembre.

titres-LN

Humanités numériques : prêt(sque)

1

L’informatique est entré dans le monde des chercheurs en sciences humaines depuis longtemps déjà. On présente souvent le père Roberto Busa comme l’un des initiateurs de ces pratiques, qui avec l’aide d’IBM a automatisé l’analyse lexicale des textes de Thomas d’Aquin dès le début des années 1950.

Il est donc tout naturel que les recherches en linguistique soient déjà familiers de ces enjeux depuis longtemps. Y compris à Nice.

Néanmoins, le traitement informatisé n’est pas la seule dimension de ce qu’on appelle désormais les humanités numériques.

Il a fallu quelques années pour que la communauté scientifique intègre que les promesses apportées par le numérique changeaient non seulement les outils de la recherche, mais aussi ses perspectives.

Et c’est finalement tout une nouvelle culture qui se met en marche.

Manifeste des Digital humanities – THATCamp – Paris 2010 – image Wikimedia Commons – CC-BY-SA-2.0

Les digital humanities, ou humanités numériques, sont une idée dans l’air du temps, dont la vogue n’est pas sans rappeler celle du web 2.0 il y a quelques années.

Digital Humanities - Recherches enregistrées par Google Trends (2004-2014)

Néanmoins l’expression est également un concept permettant de désigner les conséquences sur la nature même de l’activité de recherche, notamment :

  • l’accès facilité aux données
    Auparavant, le temps du chercheur ou du doctorant pouvait être consacré à simplement constituer un corpus. L’alimentation de ce corpus justifiait en soi des mois ou années de recherche (à charge pour les successeurs de l’exploiter).
  • le passage de l’échantillon aux Big Data
    les historiens travaillent souvent sur des archives éparses, clairsemées — bref : rares.
    Exploiter l’état des paroisses et des feux de 1328 ne ressemble pas vraiment à l’utilisation qu’on peut faire des bases Insee relatives à la population française (et toutes autres sources parallèles). L’utilisation de ces données ne va pas de soi.
  • La production scientifique : les confrères n’attendent plus seulement de pouvoir bénéficier de l’article final. Les données brutes qui ont servi à l’élaborer, voire la base de données constituée pour l’occasion, doivent être mises à disposition.
    Donc en ligne.
    Donc dans des formats exploitables (et il y a une vie après le CSV).
  • La publication scientifique : Word, ce n’est pas une machine à écrire avec écran et la possibilité de cliquer sur Ctlr+Z. De même, le numérique, ce n’est pas que de la bureautique.
    La diffusion en ligne permet de produire autre chose que du texte : des PDF contenant des images 3D, des frises chronologiques dynamiques — plus largement, toute une diversité de possibles sur la manière de donner à voir les résultats de la recherche

    Source : "Map Geocoded data with Gephi" - 17 mai 2010

    Source : « Map Geocoded data with Gephi » – 17 mai 2010

  • La diffusion scientifique au plus grand nombre.
    Internet ouvre un champ nouveau de lecteurs : les citoyens.
    Mais cette large diffusion n’est possible que si certains acteurs ne remettent pas des enclosures informationnelles, c’est-à-dire des barrières (juridiques, financières, techniques) qui dépossèdent le grand public du savoir produit dans les établissements de recherche.

Humanités numériques + bibliothèques = ?

Avec les humanités numériques, il est question de ressources, il est question de formats, de gestion, de traitement et d’enrichissement des données, de production scientifique, de pérennité, d’accès, de droits de réutilisation, de diffusion du savoir.

Bref, il est question de plein de dimensions dont les bibliothèques sont familières. Où elles peuvent accompagner les projets de recherche, par exemple :

  • sur l’identification des référentiels à exploiter pour produire et publier des données
  • sur les licences disponibles à associées à ces jeux de données, et plus globalement sur leur mode de gestion
  • sur les questions de T&D mining (et notamment les services – ou pas – proposés par les grands éditeurs)
  • sur la diffusion du savoir, notamment avec la mise à disposition immédiate via une archive ouverte

 

Pour aller plus loin

 

 

Remonter