Etienne Cavalié

Etienne Cavalié

Bibliothécaire-système /   Compte Twitter : @lully1804

Articles par Etienne Cavalié

ISTEX lance un appel à proposition d’exploration de corpus

0

ISTEX (dont il a déjà été question ici) est un projet, un dispositif, un ensemble de ressources et de services. C’est également une plate-forme.

istex - copie d'écran

segments BSN

ISTEX ? Un petit rappel (si besoin)

La Bibliothèque scientifique numérique est un dispositif visant à faire collaborer les grands acteurs du monde académique autour des enjeux forts de la documentation scientifique aujourd’hui. 9, puis 10 « segments » (groupes de travail) œuvrent à apporter des réponses nationales à des problématiques communes.

 

ISTEX est le produit d’un de ces segments : cette plate-forme vise à donner accès de manière pérenne aux ressources (articles) acquises dans le cadre de licences nationales.

Par voie de conséquence, ISTEX engrange donc une masse de documentation scientifique qu’il peut être intéressant de considérer comme un corpus de textes.

Accéder aux ressources, mais aussi exploiter les données

Dans cette perspective, un appel à propositions est lancé par ISTEX pour initier des chantiers  thématiques d’exploitation du plein texte des corpus, considérés comme données source pour la fouille de texte.

8 à 10 projets dans des thématiques différentes devraient être soutenus financièrement, avec une enveloppe globale de 400 k€ pour l’ensemble des projets.

La date limite de soumission est le 15 octobre minuit, pour un début de mise en place en janvier 2016, et un rendu des résultats au second trimestre 2017.

Ces  projets  devront être accompagnés en termes d’expertise et de conseil par des spécialistes de l’IST. L’appel à proposition précise qu’une interaction avec l’équipe de développement de la plateforme  Istex et/ou les  projets  de  services  généraux  à  valeur  ajoutée  en  cours  de  définition serait un plus (voir les pages présentant « les services de base » et « les services avancés« ).

Un projet en collaboration avec le service Données de la recherche des bibliothèques universitaires

Le Service commun de documentation se met à la disposition des laboratoires et des chercheurs pour les accompagner dans la définition  et la réalisation de ces projets  (informations sur les corpus concernés, informations sur la plateforme et les projets de services généraux d’Istex, fourniture de prestations de manipulation et de visualisation de données).

Si cet appel à proposition vous intéresse, vous pouvez contacter donnees-scd@unice.fr à partir du 1er septembre.

titres-LN

Le rapport « Ambition numérique » : pour une lecture de plage citoyenne

0

Logo CNNumSur commande du gouvernement visant à produire une stratégie globale concernant le numérique et internet, le Conseil National du Numérique (@CNNum, et non pas CNN), organisme indépendant, a lancé dans les derniers mois une large consultation, auprès d’acteurs du numérique, mais également sous forme d’ateliers divers, visant à recenser, arbitrer et synthétiser des propositions pour une politique démocratique du numérique.

Le rapport Ambition numérique de 399 pages (plus court qu’un gros polar, donc), est téléchargeable en PDF, en ODT (format LibreOffice), et permet d’avoir une approche politique et stratégique (et non technique), de questions sociétales, économiques, concernant l’avenir d’internet tel qu’il se dessine (ou pas).

Ambition numérique - logo

L’été vient à point pour s’y intéresser, et comprendre les enjeux qui vont bien au-delà des conditions de consultation de notre mail ou de notre compte Facebook mais de pans entiers de nos vies comme la santé ou la recherche d’emploi.

Votre été est déjà bien chargé ? Vous savez que vous n’aurez pas le temps de lire les 70 propositions ?

D’abord, vous pouvez n’en lire que quelques-unes, prendre le temps de vous rappeler pourquoi la neutralité du net, c’est important, ou ce que sont les communs.

Ensuite, vous pouvez en faire un survol en 5 minutes (vidéo).

Il n’est pas impossible que ces 5 minutes vous incitent, finalement, à trouver le temps pour lire le rapport complet. Les enjeux qu’il contient le mérite.


Le numérique nous concerne tous par cnnumeriquefr

 

Si la lecture complète du rapport vous semble encore un peu trop ambitieuse, attardez-vous sur les vidéos présentant chacune des quatre parties :

Concernant plus spécifiquement le monde de l’enseignement supérieur et de la recherche : le volet 2 aborde la question de l’ouverture des données ; le volet 3 une politique de l’innovation et un rapprochement entre monde académique et entreprises ; le volet 4 enfin (qui traite de pédagogie et de formation) aborde la question de l’exception des usages pédagogiques pour les ressources numériques, ainsi que des conditions de certification. Dans ce dernier volet, la proposition 53 s’intitule : « Faire de la publication ouverte une obligation légale pour la recherche bénéficiant de fonds publics ». Une occasion aussi de se replonger dans les enjeux de l’open access.

50 ans d’activité scientifique, 50 ans d’open access

1

Depuis plusieurs années (pas depuis 50 ans : les archives ouvertes n’existaient pas à l’époque), l’Université dispose d’une archive ouverte afin que ses chercheurs puissent y déposer leurs articles ou projets d’articles de manière rapide, efficace, et sans contrainte d’accès.

Actuellement, cela représente près de 13.000 archives décrites ou déposées dans HAL rattachées à une structure de l’Université. Cette masse constitue en soi une source d’information sur la production scientifique de l’établissement.

Ce n’est évidemment pas une source exhaustive sur la production scientifique de l’Université, et sa volumétrie (notamment par discipline) ne rend pas compte de l’activité de publication des chercheurs.

Néanmoins l’exploitation de ces données peut nous apprendre pas mal de choses sur l’activité à l’UNS.

A l’issue du parcours, je vous parlerai de ceci :

Hal-Unice SetSpec

Mais avant ça, commençons pas des considérations plus basses, sur ce que contient ce corpus.

Répartition annuelle

Les plus anciens articles déposés datent de 1973. Ce n’est évidemment pas la date de leur dépôt, mais bien de leur rédaction

Nb_archives_par_an

Voici la plus ancienne notice signalée dans HAL-Unice.

Texte intégral vs. notice bibliographique

Car il s’agit bien là d’une notice. Et de manière générale, il y a chaque année près de 2 fois plus de notices déposées que d’archives en texte intégral :

archives-HAL-par-an-statut-acces

HAL-Unice sert donc aussi en grande partie, pour certains chercheurs à recenser leur production, notamment quand le dépôt ne leur semble pas possible (une hésitation sur ce qui est possible ou non ? suivez le guide).

Les disciplines représentées

Ci-dessous une représentation des disciplines, dont les chercheurs déposent de manière assez différenciée.

  • La longueur des barres rend compte du nombre d’archives signalées
  • La couleur rend compte de la proportion des archives disponibles en texte intégral, rapporté aux articles signalés pour la discipline
    • quand c’est clair : il y a surtout des notices ;
    • quand c’est foncé : surtout du texte intégral).
      Le pourcentage de texte intégral est indiqué entre parenthèses.

Nb archives déposées dans HAL - par discipline

Les comportements des déposants dans HAL sont donc très diversifiés : HAL sert manifestement plus de base de signalement en SHS, où l’on sait par ailleurs que la démarche open access a une antériorité moindre que dans les sciences dures, qui ont initié ce mouvement avec ArXiv puis  CiteSeer. La différence dans la proportion de texte intégral peut être liée aussi à la politique de certains laboratoires, plus incitatifs que d’autres.

 

 

Excusez-moi, est-ce que vous avez…

2

Quand on cherche un ouvrage, la première tentation est d’aller voir directement dans les rayons de la BU.

Parfois ça marche. Parfois non.

directions

N’en concluez pas trop vite que la BU n’a pas le document voulu : Il est peut-être

  • rangé sur une autre étagère que là où vous, vous l’auriez mis
  • rangé dans une des autres bibliothèques du réseau
  • emprunté (mais réservable)
  • commandé (donc bientôt en rayon)
  • disponible en ligne dans sa version électronique
  • dans les « magasins » de la BU (c’est-à-dire dans des salles non accessibles au public, mais qui représentent plus de 120.000 références tout de même)

La solution : l’outil de recherche des bibliothèques

Il est présent sur toutes les pages du site

encart de recherche

Il vous permet de trouver tous types de documents

  • des livres
  • des revues
  • des DVD
  • des thèses
  • des ebooks
  • des bases de données
  • des revues en ligne
  • etc.

Chaque exemplaire est localisé sur un plan de la BU

plan de salle

Vous pouvez y chercher par titre, auteur, date, sujet ou thématique, ISBN, cote d’ouvrage, etc.

 

Si l’ouvrage est emprunté, vous pouvez le réserver et le demander à le retirer dans la bibliothèque de votre choix

reservation

Si vous ne trouvez pas l’ouvrage que vous souhaitez, vous pouvez encore (en bas de la liste des résultats)

  • voir si une autre bibliothèque française le possède et demander à le faire venir à Nice
  • nous demander de l’acheter
  • nous solliciter (bouton « Interroger un bibliothécaire »)

pied de page

Les trucs à savoir

Elargir / réduire une recherche

  • Comme dans Google, vous pouvez ajouter des guillemets pour limiter une recherche à une expression exacte
  • Vous pouvez aussi ajouter une troncature pour chercher tous les mots commençant par la même chaîne de caractères
    troncature
  • S’il y a peu ou pas de résultats, le moteur de recherche vous propose des alternatives (quand il le peut), notamment quand il soupçonne une faute de frappe
    levyleblond
  • Les facettes à gauche vous permettent de réduire une liste de résultats trop importante : En ligne / dans une bibliothèque précise / en limitant à un auteur ou à un sujet / etc.
    facettes

Faire une recherche par sujet

Quand vous voulez des ouvrages ou des revues sur un thème précis, sans avoir de titre en tête, vous allez spontanément indiquer le mot qui vous vient naturellement à l’esprit pour décrire ce thème.

Or la BU indique les sujets des ouvrages à partir d’une liste fermée de mots autorisés.

Imaginons que vous vous intéressiez aux cultures numériques. En cherchant « Culture numérique » dans l’outil de recherche, vous allez trouvez des résultats, mais pas tous les résultats sur le sujet. Et il y aura certainement du bruit.

culture numérique

En réalité, tous les ouvrages sur la culture numérique ont été signalés par l’expression « médias numériques ». Et vous ne pouvez le savoir qu’après avoir trouvé au moins un ouvrage sur le sujet qui vous intéresse.

Vous avez donc intérêt à :

  1. lancer la recherche avec les mots qui vous semblent naturels
  2. identifier un livre pertinent dans la liste des résultats
  3. déplier l’onglet « + d’infos » pour afficher la notice détaillée
  4. dans la rubrique Sujets, trouver le bon mot clé qui correspond le mieux à votre sujet
  5. cliquer dessus : ça relance la recherche sur ce terme précis

médias numériques

 

Connaître notre offre de ebooks

Puisque vous ne pouvez pas circuler dans les rayons de nos collections de ebooks, vous pouvez afficher l’ensemble des ebooks en cherchant « ebook » + limiter sur la facette « En ligne », puis filtrer par sujet (ça revient à se promener dans des rayonnages de bibliothèque)

ebooks

Et pour les revues en ligne ?

Même chose : cherchez « ejournal« , plus limitez les résultats avec les facettes

Les éditions multiples

Un même livre peut être réédité plusieurs fois. C’est souvent le cas pour les manuels, notamment.

Par défaut, l’outil de recherche n’affiche que l’édition la plus récente. Si vous voulez consulter une édition plus ancienne (par exemple si la plus récente est empruntée), il suffit de cliquer sur l’icône à droite) :

autres éditions

Gagner du temps : le plugin de recherche

Installez l’outil de recherche des BU dans votre navigateur (pour Firefox ou Chrome).

L’accès au plugin se trouve aussi en pied de page des listes de résultats

Et si vous êtes perdu ?

Dans le bandeau supérieur de recherche, une info-bulle cliquable vous rappelle les principales choses à savoir sur l’outil de recherche.

infobulle

Vous trouverez également des info-bulles bleues un peu partout

Dans tous les cas, vous retrouvez en pied de page l’accès au service

iub

N’hésitez pas à vous en servir !

Humanités numériques : prêt(sque)

1

L’informatique est entré dans le monde des chercheurs en sciences humaines depuis longtemps déjà. On présente souvent le père Roberto Busa comme l’un des initiateurs de ces pratiques, qui avec l’aide d’IBM a automatisé l’analyse lexicale des textes de Thomas d’Aquin dès le début des années 1950.

Il est donc tout naturel que les recherches en linguistique soient déjà familiers de ces enjeux depuis longtemps. Y compris à Nice.

Néanmoins, le traitement informatisé n’est pas la seule dimension de ce qu’on appelle désormais les humanités numériques.

Il a fallu quelques années pour que la communauté scientifique intègre que les promesses apportées par le numérique changeaient non seulement les outils de la recherche, mais aussi ses perspectives.

Et c’est finalement tout une nouvelle culture qui se met en marche.

Manifeste des Digital humanities – THATCamp – Paris 2010 – image Wikimedia Commons – CC-BY-SA-2.0

Les digital humanities, ou humanités numériques, sont une idée dans l’air du temps, dont la vogue n’est pas sans rappeler celle du web 2.0 il y a quelques années.

Digital Humanities - Recherches enregistrées par Google Trends (2004-2014)

Néanmoins l’expression est également un concept permettant de désigner les conséquences sur la nature même de l’activité de recherche, notamment :

  • l’accès facilité aux données
    Auparavant, le temps du chercheur ou du doctorant pouvait être consacré à simplement constituer un corpus. L’alimentation de ce corpus justifiait en soi des mois ou années de recherche (à charge pour les successeurs de l’exploiter).
  • le passage de l’échantillon aux Big Data
    les historiens travaillent souvent sur des archives éparses, clairsemées — bref : rares.
    Exploiter l’état des paroisses et des feux de 1328 ne ressemble pas vraiment à l’utilisation qu’on peut faire des bases Insee relatives à la population française (et toutes autres sources parallèles). L’utilisation de ces données ne va pas de soi.
  • La production scientifique : les confrères n’attendent plus seulement de pouvoir bénéficier de l’article final. Les données brutes qui ont servi à l’élaborer, voire la base de données constituée pour l’occasion, doivent être mises à disposition.
    Donc en ligne.
    Donc dans des formats exploitables (et il y a une vie après le CSV).
  • La publication scientifique : Word, ce n’est pas une machine à écrire avec écran et la possibilité de cliquer sur Ctlr+Z. De même, le numérique, ce n’est pas que de la bureautique.
    La diffusion en ligne permet de produire autre chose que du texte : des PDF contenant des images 3D, des frises chronologiques dynamiques — plus largement, toute une diversité de possibles sur la manière de donner à voir les résultats de la recherche

    Source : "Map Geocoded data with Gephi" - 17 mai 2010

    Source : « Map Geocoded data with Gephi » – 17 mai 2010

  • La diffusion scientifique au plus grand nombre.
    Internet ouvre un champ nouveau de lecteurs : les citoyens.
    Mais cette large diffusion n’est possible que si certains acteurs ne remettent pas des enclosures informationnelles, c’est-à-dire des barrières (juridiques, financières, techniques) qui dépossèdent le grand public du savoir produit dans les établissements de recherche.

Humanités numériques + bibliothèques = ?

Avec les humanités numériques, il est question de ressources, il est question de formats, de gestion, de traitement et d’enrichissement des données, de production scientifique, de pérennité, d’accès, de droits de réutilisation, de diffusion du savoir.

Bref, il est question de plein de dimensions dont les bibliothèques sont familières. Où elles peuvent accompagner les projets de recherche, par exemple :

  • sur l’identification des référentiels à exploiter pour produire et publier des données
  • sur les licences disponibles à associées à ces jeux de données, et plus globalement sur leur mode de gestion
  • sur les questions de T&D mining (et notamment les services – ou pas – proposés par les grands éditeurs)
  • sur la diffusion du savoir, notamment avec la mise à disposition immédiate via une archive ouverte

 

Pour aller plus loin

 

 

Le coût de la connaissance

4

Il y a 2 ans, le mathématicien Tim Gowers lançait la pétition du Cost of Knowledge, invitant les chercheurs à ne plus participer aux comités éditoriaux de revues publiées chez Elsevier, quand dans le même temps le coût des abonnements à ces revues continuait de croître d’une manière de plus en plus insoutenable pour les universités.

Comme il le constate lui-même dans un long billet paru fin avril, en dépit du nombre conséquent de signatures, aucun comité éditorial de revue n’a pour autant quitté Elsevier, ou fait pression d’une manière telle que les choses aient au final beaucoup changé en 2 ans.

 

Illustration TheCostOfKnowledge

Image Flickr par Giulia Forsythe – CC-BY-NC-SA-2.0. Inspiré par l’initiative TheCostOfKnowledge de Tim Gowers

 

Tim Gowers prend le problème par un autre bout : rassembler des éléments d’informations (« some facts ») sur la situation actuelle des universités du Royaume-Uni et ce que les produits Elsevier leur coûtent.

S’ensuit une longue quête de plusieurs mois, donc un long billet de plusieurs milliers de mots, qui se lit comme un récit et qui dévoile de nombreuses informations.

 

3 dimensions principales y sont abordées :

  • Le modèle économique actuel
    Explications sur ce qui compose le prix d’un abonnement chez Elsevier, d’où il vient, ce que sont les négociations par consortiums d’établissements : existe-t-il un modèle idéal ?
  • Les modalités du modèle
    Ce que ce modèle coûte aux universités. Pour y voir plus clair, Tim Gowers a écrit à de nombreux établissements (et à Elsevier même) pour obtenir des données chiffrées, en appelant notamment au Freedom of Information Act
  • Les informations dont on dispose (ou pas) sur les 2 premiers points
    ou plus exactement la difficulté à obtenir de telles informations

Ce billet doit conduire à réfléchir sur la situation française, évoquée d’ailleurs par l’auteur, avec le nouveau contexte de licence nationale, dont le modèle (économique et de services) a déjà entraîné de nombreux débats sur internet.

Si la longueur, combinée à la langue, peut vous décourager, vous pouvez passer par la traduction intégrale en français de ce billet.

Sa lecture en vaut vraiment la peine !

L’article original (en anglais)L'article original (en anglais)

 Elsevier Journals – Some facts

 

 

Traduction de l’articleTraduction de l'article

 

 

 

 

Crazy Stairs at the KPMG Building in Munich – Photo FlickR par Alaskan Dude – CC-BY-2.0

Les articles en un clic (droit)

11

Le problème ?

Ceux qui ont déjà voulu consulter un article scientifique depuis chez eux le savent bien : c’est un chemin parsemé d’embûches !

  1. On trouve une référence d’article sur un site en accès libre (Pubmed, Google Scholar, bibliographie), sans avoir eu à s’authentifier
  2. On clique sur le lien pour accéder à l’article…
  3. Et la plate-forme vous propose d’acheter l’article.

acces réservé

Pourquoi ? Parce que la plate-forme ne connaît pas l’adresse IP de votre ordinateur, et vous refuse donc l’accès : vous n’êtes pas reconnu comme un de leurs clients.

Vous êtes donc obligé de : 4. aller sur le site de la BU ; 5. chercher la revue ; 6. cliquer sur le lien fourni ; 7. vous authentifier ; 8. accéder au site de la revue ; 9. rechercher (de nouveau) l’article qui vous intéressait ; 10. le lire… enfin !

La solution !

La BU vous propose un petit plugin (pour Chrome et Firefox uniquement) qui va vous simplifier la vie.

Reprenons les étapes :

  1. On trouve une référence d’article sur un site en accès libre (Pubmed, Google Scholar, bibliographie), sans avoir eu à s’authentifier
  2. On clique sur le lien pour accéder à l’article…
  3. Et la plate-forme vous propose d’acheter l’article.

Et là : vous faites un clic droit sur la page (n’importe où dans la page), et le menu contextuel apparaît, avec une ligne supplémentaire :

recharger accès distant

Et la page va se recharger, mais en passant par le reverse proxy de l’Université. Du coup, votre IP est reconnue puisque c’est celle de la BU.

Pour installer le plugin, cliquez sur l’icône correspondant à votre navigateur
Télécharger l'extension pour Firefox Télécharger l'extension pour Chrome

Après avoir installé le plugin, il faut le configurer pour le rendre spécifique à Nice : une petite icône icone libx2-16  est apparue à côté de la barre d’URL. Il faut cliquer dessus, écrire « Nice » et choisir la ligne « BU de Nice Sophia Antipolis ».

Configurer LibX pour Nice

Si vous ne voulez pas installer l’extension de la BU

Ajoutez à la main un favori dans votre navigateur. Par exemple par un clic droit sur la barre des favoris > Nouveau marque-page

    • Champ Nom : BU Nice Accès distant
    • Champ Adresse : javascript:function%20o(){window.location.replace('http://proxy.unice.fr/login?url='+location.href,"Acc%C3%A8s%20distant")};o()

nouveau marque-page FF

Ensuite, si vous tombez sur un article payant, cliquez sur le lien : ça va recharger la page et vous permettre de passer directement par le proxy.

***

Si vous avez des problèmes d’installation, les commentaires sont là pour vous !

Fil RSS de Etienne Cavalié
Remonter