Articles par Etienne Cavalié
ISTEX lance un appel à proposition d’exploration de corpus
0ISTEX (dont il a déjà été question ici) est un projet, un dispositif, un ensemble de ressources et de services. C’est également une plate-forme.
ISTEX ? Un petit rappel (si besoin)
La Bibliothèque scientifique numérique est un dispositif visant à faire collaborer les grands acteurs du monde académique autour des enjeux forts de la documentation scientifique aujourd’hui. 9, puis 10 « segments » (groupes de travail) œuvrent à apporter des réponses nationales à des problématiques communes.
ISTEX est le produit d’un de ces segments : cette plate-forme vise à donner accès de manière pérenne aux ressources (articles) acquises dans le cadre de licences nationales.
Par voie de conséquence, ISTEX engrange donc une masse de documentation scientifique qu’il peut être intéressant de considérer comme un corpus de textes.
Accéder aux ressources, mais aussi exploiter les données
Dans cette perspective, un appel à propositions est lancé par ISTEX pour initier des chantiers thématiques d’exploitation du plein texte des corpus, considérés comme données source pour la fouille de texte.
8 à 10 projets dans des thématiques différentes devraient être soutenus financièrement, avec une enveloppe globale de 400 k€ pour l’ensemble des projets.
La date limite de soumission est le 15 octobre minuit, pour un début de mise en place en janvier 2016, et un rendu des résultats au second trimestre 2017.
Ces projets devront être accompagnés en termes d’expertise et de conseil par des spécialistes de l’IST. L’appel à proposition précise qu’une interaction avec l’équipe de développement de la plateforme Istex et/ou les projets de services généraux à valeur ajoutée en cours de définition serait un plus (voir les pages présentant « les services de base » et « les services avancés« ).
Un projet en collaboration avec le service Données de la recherche des bibliothèques universitaires
Le Service commun de documentation se met à la disposition des laboratoires et des chercheurs pour les accompagner dans la définition et la réalisation de ces projets (informations sur les corpus concernés, informations sur la plateforme et les projets de services généraux d’Istex, fourniture de prestations de manipulation et de visualisation de données).
Si cet appel à proposition vous intéresse, vous pouvez contacter donnees-scd@unice.fr à partir du 1er septembre.
Le rapport « Ambition numérique » : pour une lecture de plage citoyenne
0Sur commande du gouvernement visant à produire une stratégie globale concernant le numérique et internet, le Conseil National du Numérique (@CNNum, et non pas CNN), organisme indépendant, a lancé dans les derniers mois une large consultation, auprès d’acteurs du numérique, mais également sous forme d’ateliers divers, visant à recenser, arbitrer et synthétiser des propositions pour une politique démocratique du numérique.
Le rapport Ambition numérique de 399 pages (plus court qu’un gros polar, donc), est téléchargeable en PDF, en ODT (format LibreOffice), et permet d’avoir une approche politique et stratégique (et non technique), de questions sociétales, économiques, concernant l’avenir d’internet tel qu’il se dessine (ou pas).
L’été vient à point pour s’y intéresser, et comprendre les enjeux qui vont bien au-delà des conditions de consultation de notre mail ou de notre compte Facebook mais de pans entiers de nos vies comme la santé ou la recherche d’emploi.
Votre été est déjà bien chargé ? Vous savez que vous n’aurez pas le temps de lire les 70 propositions ?
D’abord, vous pouvez n’en lire que quelques-unes, prendre le temps de vous rappeler pourquoi la neutralité du net, c’est important, ou ce que sont les communs.
Ensuite, vous pouvez en faire un survol en 5 minutes (vidéo).
Il n’est pas impossible que ces 5 minutes vous incitent, finalement, à trouver le temps pour lire le rapport complet. Les enjeux qu’il contient le mérite.
Le numérique nous concerne tous par cnnumeriquefr
Si la lecture complète du rapport vous semble encore un peu trop ambitieuse, attardez-vous sur les vidéos présentant chacune des quatre parties :
- Volet 1 : Loyauté et liberté dans un espace numérique en commun (4’18)
- Volet 2 : Vers une nouvelle conception de l’action publique : ouverture, innovation, participation (4’17)
- Volet 3 : Mettre en mouvement la croissance française : vers une économie de l’innovation (4’18)
- Volet 4 : Solidarité, équité, émancipation : enjeux d’une société numérique (3’27)
Concernant plus spécifiquement le monde de l’enseignement supérieur et de la recherche : le volet 2 aborde la question de l’ouverture des données ; le volet 3 une politique de l’innovation et un rapprochement entre monde académique et entreprises ; le volet 4 enfin (qui traite de pédagogie et de formation) aborde la question de l’exception des usages pédagogiques pour les ressources numériques, ainsi que des conditions de certification. Dans ce dernier volet, la proposition 53 s’intitule : « Faire de la publication ouverte une obligation légale pour la recherche bénéficiant de fonds publics ». Une occasion aussi de se replonger dans les enjeux de l’open access.
50 ans d’activité scientifique, 50 ans d’open access
1Depuis plusieurs années (pas depuis 50 ans : les archives ouvertes n’existaient pas à l’époque), l’Université dispose d’une archive ouverte afin que ses chercheurs puissent y déposer leurs articles ou projets d’articles de manière rapide, efficace, et sans contrainte d’accès.
Actuellement, cela représente près de 13.000 archives décrites ou déposées dans HAL rattachées à une structure de l’Université. Cette masse constitue en soi une source d’information sur la production scientifique de l’établissement.
Ce n’est évidemment pas une source exhaustive sur la production scientifique de l’Université, et sa volumétrie (notamment par discipline) ne rend pas compte de l’activité de publication des chercheurs.
Néanmoins l’exploitation de ces données peut nous apprendre pas mal de choses sur l’activité à l’UNS.
A l’issue du parcours, je vous parlerai de ceci :
Mais avant ça, commençons pas des considérations plus basses, sur ce que contient ce corpus.
Répartition annuelle
Les plus anciens articles déposés datent de 1973. Ce n’est évidemment pas la date de leur dépôt, mais bien de leur rédaction
Voici la plus ancienne notice signalée dans HAL-Unice.
Texte intégral vs. notice bibliographique
Car il s’agit bien là d’une notice. Et de manière générale, il y a chaque année près de 2 fois plus de notices déposées que d’archives en texte intégral :
HAL-Unice sert donc aussi en grande partie, pour certains chercheurs à recenser leur production, notamment quand le dépôt ne leur semble pas possible (une hésitation sur ce qui est possible ou non ? suivez le guide).
Les disciplines représentées
Ci-dessous une représentation des disciplines, dont les chercheurs déposent de manière assez différenciée.
- La longueur des barres rend compte du nombre d’archives signalées
- La couleur rend compte de la proportion des archives disponibles en texte intégral, rapporté aux articles signalés pour la discipline
- quand c’est clair : il y a surtout des notices ;
- quand c’est foncé : surtout du texte intégral).
Le pourcentage de texte intégral est indiqué entre parenthèses.
Les comportements des déposants dans HAL sont donc très diversifiés : HAL sert manifestement plus de base de signalement en SHS, où l’on sait par ailleurs que la démarche open access a une antériorité moindre que dans les sciences dures, qui ont initié ce mouvement avec ArXiv puis CiteSeer. La différence dans la proportion de texte intégral peut être liée aussi à la politique de certains laboratoires, plus incitatifs que d’autres.
Excusez-moi, est-ce que vous avez…
2Quand on cherche un ouvrage, la première tentation est d’aller voir directement dans les rayons de la BU.
Parfois ça marche. Parfois non.
N’en concluez pas trop vite que la BU n’a pas le document voulu : Il est peut-être
- rangé sur une autre étagère que là où vous, vous l’auriez mis
- rangé dans une des autres bibliothèques du réseau
- emprunté (mais réservable)
- commandé (donc bientôt en rayon)
- disponible en ligne dans sa version électronique
- dans les « magasins » de la BU (c’est-à-dire dans des salles non accessibles au public, mais qui représentent plus de 120.000 références tout de même)
La solution : l’outil de recherche des bibliothèques
Il est présent sur toutes les pages du site
Il vous permet de trouver tous types de documents
- des livres
- des revues
- des DVD
- des thèses
- des ebooks
- des bases de données
- des revues en ligne
- etc.
Chaque exemplaire est localisé sur un plan de la BU
Vous pouvez y chercher par titre, auteur, date, sujet ou thématique, ISBN, cote d’ouvrage, etc.
Si l’ouvrage est emprunté, vous pouvez le réserver et le demander à le retirer dans la bibliothèque de votre choix
Si vous ne trouvez pas l’ouvrage que vous souhaitez, vous pouvez encore (en bas de la liste des résultats)
- voir si une autre bibliothèque française le possède et demander à le faire venir à Nice
- nous demander de l’acheter
- nous solliciter (bouton « Interroger un bibliothécaire »)
Les trucs à savoir
Elargir / réduire une recherche
- Comme dans Google, vous pouvez ajouter des guillemets pour limiter une recherche à une expression exacte
- Vous pouvez aussi ajouter une troncature pour chercher tous les mots commençant par la même chaîne de caractères
- S’il y a peu ou pas de résultats, le moteur de recherche vous propose des alternatives (quand il le peut), notamment quand il soupçonne une faute de frappe
- Les facettes à gauche vous permettent de réduire une liste de résultats trop importante : En ligne / dans une bibliothèque précise / en limitant à un auteur ou à un sujet / etc.
Faire une recherche par sujet
Quand vous voulez des ouvrages ou des revues sur un thème précis, sans avoir de titre en tête, vous allez spontanément indiquer le mot qui vous vient naturellement à l’esprit pour décrire ce thème.
Or la BU indique les sujets des ouvrages à partir d’une liste fermée de mots autorisés.
Imaginons que vous vous intéressiez aux cultures numériques. En cherchant « Culture numérique » dans l’outil de recherche, vous allez trouvez des résultats, mais pas tous les résultats sur le sujet. Et il y aura certainement du bruit.
En réalité, tous les ouvrages sur la culture numérique ont été signalés par l’expression « médias numériques ». Et vous ne pouvez le savoir qu’après avoir trouvé au moins un ouvrage sur le sujet qui vous intéresse.
Vous avez donc intérêt à :
- lancer la recherche avec les mots qui vous semblent naturels
- identifier un livre pertinent dans la liste des résultats
- déplier l’onglet « + d’infos » pour afficher la notice détaillée
- dans la rubrique Sujets, trouver le bon mot clé qui correspond le mieux à votre sujet
- cliquer dessus : ça relance la recherche sur ce terme précis
Connaître notre offre de ebooks
Puisque vous ne pouvez pas circuler dans les rayons de nos collections de ebooks, vous pouvez afficher l’ensemble des ebooks en cherchant « ebook » + limiter sur la facette « En ligne », puis filtrer par sujet (ça revient à se promener dans des rayonnages de bibliothèque)
Et pour les revues en ligne ?
Même chose : cherchez « ejournal« , plus limitez les résultats avec les facettes
Les éditions multiples
Un même livre peut être réédité plusieurs fois. C’est souvent le cas pour les manuels, notamment.
Par défaut, l’outil de recherche n’affiche que l’édition la plus récente. Si vous voulez consulter une édition plus ancienne (par exemple si la plus récente est empruntée), il suffit de cliquer sur l’icône à droite) :
Gagner du temps : le plugin de recherche
Installez l’outil de recherche des BU dans votre navigateur (pour Firefox ou Chrome).
L’accès au plugin se trouve aussi en pied de page des listes de résultats
Et si vous êtes perdu ?
Dans le bandeau supérieur de recherche, une info-bulle cliquable vous rappelle les principales choses à savoir sur l’outil de recherche.
Vous trouverez également des info-bulles bleues un peu partout
Dans tous les cas, vous retrouvez en pied de page l’accès au service
N’hésitez pas à vous en servir !
Humanités numériques : prêt(sque)
1L’informatique est entré dans le monde des chercheurs en sciences humaines depuis longtemps déjà. On présente souvent le père Roberto Busa comme l’un des initiateurs de ces pratiques, qui avec l’aide d’IBM a automatisé l’analyse lexicale des textes de Thomas d’Aquin dès le début des années 1950.
Il est donc tout naturel que les recherches en linguistique soient déjà familiers de ces enjeux depuis longtemps. Y compris à Nice.
Néanmoins, le traitement informatisé n’est pas la seule dimension de ce qu’on appelle désormais les humanités numériques.
Il a fallu quelques années pour que la communauté scientifique intègre que les promesses apportées par le numérique changeaient non seulement les outils de la recherche, mais aussi ses perspectives.
Et c’est finalement tout une nouvelle culture qui se met en marche.
Les digital humanities, ou humanités numériques, sont une idée dans l’air du temps, dont la vogue n’est pas sans rappeler celle du web 2.0 il y a quelques années.
Néanmoins l’expression est également un concept permettant de désigner les conséquences sur la nature même de l’activité de recherche, notamment :
- l’accès facilité aux données
Auparavant, le temps du chercheur ou du doctorant pouvait être consacré à simplement constituer un corpus. L’alimentation de ce corpus justifiait en soi des mois ou années de recherche (à charge pour les successeurs de l’exploiter). - le passage de l’échantillon aux Big Data
les historiens travaillent souvent sur des archives éparses, clairsemées — bref : rares.
Exploiter l’état des paroisses et des feux de 1328 ne ressemble pas vraiment à l’utilisation qu’on peut faire des bases Insee relatives à la population française (et toutes autres sources parallèles). L’utilisation de ces données ne va pas de soi. - La production scientifique : les confrères n’attendent plus seulement de pouvoir bénéficier de l’article final. Les données brutes qui ont servi à l’élaborer, voire la base de données constituée pour l’occasion, doivent être mises à disposition.
Donc en ligne.
Donc dans des formats exploitables (et il y a une vie après le CSV). - La publication scientifique : Word, ce n’est pas une machine à écrire avec écran et la possibilité de cliquer sur Ctlr+Z. De même, le numérique, ce n’est pas que de la bureautique.
La diffusion en ligne permet de produire autre chose que du texte : des PDF contenant des images 3D, des frises chronologiques dynamiques — plus largement, toute une diversité de possibles sur la manière de donner à voir les résultats de la recherche - La diffusion scientifique au plus grand nombre.
Internet ouvre un champ nouveau de lecteurs : les citoyens.
Mais cette large diffusion n’est possible que si certains acteurs ne remettent pas des enclosures informationnelles, c’est-à-dire des barrières (juridiques, financières, techniques) qui dépossèdent le grand public du savoir produit dans les établissements de recherche.
Humanités numériques + bibliothèques = ?
Avec les humanités numériques, il est question de ressources, il est question de formats, de gestion, de traitement et d’enrichissement des données, de production scientifique, de pérennité, d’accès, de droits de réutilisation, de diffusion du savoir.
Bref, il est question de plein de dimensions dont les bibliothèques sont familières. Où elles peuvent accompagner les projets de recherche, par exemple :
- sur l’identification des référentiels à exploiter pour produire et publier des données
- sur les licences disponibles à associées à ces jeux de données, et plus globalement sur leur mode de gestion
- sur les questions de T&D mining (et notamment les services – ou pas – proposés par les grands éditeurs)
- sur la diffusion du savoir, notamment avec la mise à disposition immédiate via une archive ouverte
Pour aller plus loin
- HumanLit, un carnet d’Hypotheses.org sur les humanités numériques
- Une infographie sur les résultats d’une enquête menée par HumanLit portant sur les humanités numériques, portant sur la perception de cette notion auprès des chercheurs
- Renseigner une autre enquête sur les humanités numériques de Dariah-EU, visant à « comprendre comment les chercheurs européens utilisent les ressources, les méthodes et les outils numériques, et de quelle manière les infrastructures numériques peuvent répondre à leurs besoins » (afin de mieux développer leur offre de service).
Le coût de la connaissance
4Il y a 2 ans, le mathématicien Tim Gowers lançait la pétition du Cost of Knowledge, invitant les chercheurs à ne plus participer aux comités éditoriaux de revues publiées chez Elsevier, quand dans le même temps le coût des abonnements à ces revues continuait de croître d’une manière de plus en plus insoutenable pour les universités.
Comme il le constate lui-même dans un long billet paru fin avril, en dépit du nombre conséquent de signatures, aucun comité éditorial de revue n’a pour autant quitté Elsevier, ou fait pression d’une manière telle que les choses aient au final beaucoup changé en 2 ans.
Tim Gowers prend le problème par un autre bout : rassembler des éléments d’informations (« some facts ») sur la situation actuelle des universités du Royaume-Uni et ce que les produits Elsevier leur coûtent.
S’ensuit une longue quête de plusieurs mois, donc un long billet de plusieurs milliers de mots, qui se lit comme un récit et qui dévoile de nombreuses informations.
3 dimensions principales y sont abordées :
- Le modèle économique actuel
Explications sur ce qui compose le prix d’un abonnement chez Elsevier, d’où il vient, ce que sont les négociations par consortiums d’établissements : existe-t-il un modèle idéal ? - Les modalités du modèle
Ce que ce modèle coûte aux universités. Pour y voir plus clair, Tim Gowers a écrit à de nombreux établissements (et à Elsevier même) pour obtenir des données chiffrées, en appelant notamment au Freedom of Information Act - Les informations dont on dispose (ou pas) sur les 2 premiers points
ou plus exactement la difficulté à obtenir de telles informations
Ce billet doit conduire à réfléchir sur la situation française, évoquée d’ailleurs par l’auteur, avec le nouveau contexte de licence nationale, dont le modèle (économique et de services) a déjà entraîné de nombreux débats sur internet.
Si la longueur, combinée à la langue, peut vous décourager, vous pouvez passer par la traduction intégrale en français de ce billet.
Sa lecture en vaut vraiment la peine !
L’article original (en anglais)
Elsevier Journals – Some facts
Les articles en un clic (droit)
11Le problème ?
Ceux qui ont déjà voulu consulter un article scientifique depuis chez eux le savent bien : c’est un chemin parsemé d’embûches !
- On trouve une référence d’article sur un site en accès libre (Pubmed, Google Scholar, bibliographie), sans avoir eu à s’authentifier
- On clique sur le lien pour accéder à l’article…
- Et la plate-forme vous propose d’acheter l’article.
Pourquoi ? Parce que la plate-forme ne connaît pas l’adresse IP de votre ordinateur, et vous refuse donc l’accès : vous n’êtes pas reconnu comme un de leurs clients.
Vous êtes donc obligé de : 4. aller sur le site de la BU ; 5. chercher la revue ; 6. cliquer sur le lien fourni ; 7. vous authentifier ; 8. accéder au site de la revue ; 9. rechercher (de nouveau) l’article qui vous intéressait ; 10. le lire… enfin !
La solution !
La BU vous propose un petit plugin (pour Chrome et Firefox uniquement) qui va vous simplifier la vie.
Reprenons les étapes :
- On trouve une référence d’article sur un site en accès libre (Pubmed, Google Scholar, bibliographie), sans avoir eu à s’authentifier
- On clique sur le lien pour accéder à l’article…
- Et la plate-forme vous propose d’acheter l’article.
Et là : vous faites un clic droit sur la page (n’importe où dans la page), et le menu contextuel apparaît, avec une ligne supplémentaire :
Et la page va se recharger, mais en passant par le reverse proxy de l’Université. Du coup, votre IP est reconnue puisque c’est celle de la BU.
Pour installer le plugin, cliquez sur l’icône correspondant à votre navigateur
Après avoir installé le plugin, il faut le configurer pour le rendre spécifique à Nice : une petite icône est apparue à côté de la barre d’URL. Il faut cliquer dessus, écrire « Nice » et choisir la ligne « BU de Nice Sophia Antipolis ».
Si vous ne voulez pas installer l’extension de la BU
Ajoutez à la main un favori dans votre navigateur. Par exemple par un clic droit sur la barre des favoris > Nouveau marque-page
- Champ Nom : BU Nice Accès distant
- Champ Adresse :
javascript:function%20o(){window.location.replace('http://proxy.unice.fr/login?url='+location.href,"Acc%C3%A8s%20distant")};o()
Ensuite, si vous tombez sur un article payant, cliquez sur le lien : ça va recharger la page et vous permettre de passer directement par le proxy.
***
Si vous avez des problèmes d’installation, les commentaires sont là pour vous !