Posts Tagged ‘Des boîtes et des fenêtres’

Nom de code : Bu-Google (4/5)


11 Jun

Bon, tout est en place, tout est validé par les outils de diagnostic Google mais…. à cette date (1), certaines requêtes ne renvoient rien alors que nous avons forcément des documents en magasin et dans le SIGB (si vous voulez vérifier, essayer une requête avec Duras dans Bugoogle, vous n’obtiendrez rien. Et pourtant, la Marguerite, Dieu sait si on l’aime). Que se passe-t-il ?

Et bien, nous avons un souci avec les bots. Bien que tout soit fait pour les accueillir au mieux (arborescence, sitemap), ils ne grappillent que quelques notices par jour (alors qu’en principe, un bot, c’est vorace). Et je n’ai pas d’explication, d’autant que nous avions fait des tests sur une sous-partie de cette arborescence (disons 5% du volume total) qui avait été totalement indexée en quelques heures.

Donc, je suis preneur de tout conseil sur la manière dont je pourrais motiver les bots (en précisant de suite : le site a été signalé via les Google webmasters tools, etc…) parce que ça m’éviterait de grogner comme un vieil ours quand que je ne comprends pas le pourquoi du comment.

Autre mystère : si vous allez sur ce moteur personnalisé Google qui effectue également ses recherches sur l’arborescence déjà évoquée, vous trouverez bien des résultats (14 réponses à cette heure) sur Duras (j’ai rajouté ses résultats en onglet CSE sur Bu-Google). Et si vous faites une recherche Duras depuis le “vrai” Google, vous obtiendrez 45 résultats (2). Nous avons donc trois points d’entrée Googlesque qui effectuent des requêtes au même endroit et ne ramènent pas la même chose…

Ces problèmes d’indexation et de réponses, d’une manière générale, expliquent pourquoi nous ne sommes pas encore passés en production publique avec cet outil. Or c’est bel et bien le but. Je vous en parle demain, pour clore cette saga.

(1) ça peut changer très vite : quand les bots arrivent, ils voient tout…
(2) Merci à Lully1804 pour avoir remarqué cette autre différence.
(3) Evidemment, en production, il semble du coup plus logique de passer par un onglet CSE…

Nom de code : Bu-Google (3/5)


10 Jun

Bien, nous avons exposé toutes nos notices. Mais en soi, ça ne sert à rien en soi : les résultats issus de nos fonds/de notre catalogue ne sortiront jamais dans la première page de résultats Google, la seule (ou presque) qui intéresse le surfeur fou.

Il faut donc trouver une manière de “pousser” nos réponses catalogue vers l’usager, et c’est là que nous construisons, à partir de la page Google standard, notre page Google customisée.

La manière de construire ce type de page est documentée par Google. C’est très simple. Disons que l’on définit en fait pour chaque onglet sa position (droite ou gauche) et le sous-ensemble du web sur lequel Google va restreindre sa recherche et les réponses obtenues.

Voici le code pour l’onglet Bu :

searcher = new google.search.WebSearch();
options = new google.search.SearcherOptions();
searcher.setSiteRestriction(“http://catalogue.univ-angers.fr/”);
searcher.setUserDefinedLabel(“<b>BU ANGERS / Catalogue Papier</b>”);
this.rightControl.addSearcher(searcher);

et voici pour l’onglet Blog :

searcher = new google.search.BlogSearch();
options = new google.search.SearcherOptions();
searcher.setSiteRestriction(“http://bu.univ-angers.fr/blog/”);
searcher.setUserDefinedLabel(“BU Angers / Blog”);
this.rightControl.addSearcher(searcher);

Pour le reste de la page (affichez le source si nécessaire), c’est la reprise de la page d’accueil Google standard (un copier-coller, en somme).

Voilà. On a exporté, on a construit une page, on a des résultats. Demain, je vous révèle ce qui ne marche pas et pourquoi… et après-demain, je termine par la philosophie générale du truc.

Nom de code : Bu-Google (2/5)


09 Jun

Alors, comment on obtient cette petite chose ? Je vais décomposer les opérations, histoire de… Commençons par le commencement.

  1. Puisque Google ne rentre pas dans les SIGB, il faut exporter nos notices vers lui pour lui montrer. Pour ce faire, nous utilisons un service fourni par Ex-Libris pour Aleph, que nous lançons comme n’importe quel autre service Aleph, et qui crée un ensemble de fichier *.tar composé d’un export de nos notices bibliographiques (dont nous avons défini ce qu’elles devaient contenir, par ailleurs, dans un fichier de conf.).
  2. Cet ensemble de fichier *.tar est ensuite passé dans des scripts (toujours fournis par Ex-Libris) qui “déplient” les notices pour en faire une arborescence web qui devient donc lisible pour les bots de Google (ici, une de ces pages – celles vraiment exposées, vous ne pouvez pas les voir à cause du point suivant, le .htaccess…).
  3. Il ne reste plus qu’à exposer cette arborescence (elle est là, si ça vous intéresse) sur un serveur web type Apache pour que les bots viennent l’indexer, et à créer une petite règle dans le .htaccess qui renvoie toute requête autre que celle d’un bots non pas vers l’arborescence exposée, mais vers la notice catalogue réelle. <MàJ> La règle peut être aussi dans le httpd.conf, c’est d’ailleurs là que nous l’avons posée. </MàJ>
  4. Pour faciliter le boulot aux bots, nous créons (mais c’est optionnel) une carte de l’arborescence avec Google Sitemap Gen, un script python tout con (tiens, ça rime).

Et voilà : nos données catalogue sont visibles par Google et d’une manière générale, les moteurs de recherche (m’enfin, vu la prédominance de Google, les autres, franchement, je m’en fous).

Ces opérations sont automatiques, et sont effectuées par nos machines le dimanche matin, tôt, quand tout le monde est à la messe sort de boîte.

Demain, je reviens sur la page d’accueil et la manière dont nous la construisons.

Nom de code : Bu-Google (1/5)


08 Jun

(Merci de votre indulgence :
je vais parler d’un prototype qui n’est pas encore en production)

Comme vous le savez, les moissonneurs de Google ne voient pas l’intérieur de nos catalogues. On s’est donc dit qu’il fallait les aider. Une image valant mieux qu’un long discours, je vous propose d’aller jeter un oeil à cet endroit, de faire une recherche sur “bibliothèque” par exemple (j’expliquerai pourquoi), puis de revenir ici pour que je vous explique de quoi il retourne, comment ça marche, ce qui ne marche pas encore, ce que l’on veut faire de cela, etc. Allez, j’attends votre retour et, pour les fainéants du clic, je colle ci-dessous une copie de ce que les autres sont en train de voir :

BUA Google

OK, vous avez vu ? Qu’est-ce qui se passe ? Simple :

  • nous exportons nos notices catalogue vers Google ;
  • nous  créons une page customisée d’interrogation et de réponse sur laquelle…
  • … nous ventilons les réponses avec, à gauche, les réponses web standards , à droite, des onglets dont le premier ne renvoie que des réponses de notre catalogue ; et les suivants, des réponses issues de sources choisies par nos soins (ici, le blog de la Bu et le site web de l’Université)

Demain, je commence à vous détailler la manière dont on obtiens ça, les problèmes que ça pose, le pourquoi du comment..

I wanna be an Androïd


04 Jun

Je n’ai pas encore parlé d’Androïd, et c’est pitié, alors j’y vais.

Androïd est le système d’exploitation Open Source pour “outils mobiles” développé par Google (Google, vous voyez, cette petite boîte qui démarre…). Pourquoi est-ce qu’Androïd est intéressant ? Parce qu’il est OpenSource, bien documenté, et qu’un SDK (en gros, un kit de développement) a été déjà mis à disposition des développeurs . Et parce que derrière, c’est Google, avec la puissance de frappe que cela suppose.

Qu’est-ce que ça veut dire ? Ca veut dire que tout fabricant d’outil mobile peut proposer ses téléphones ou PDA avec ce système d’exploitation, d’une part ; et que tout le monde peut facilement développer sa propre application sur ce système, d’autre part (il y a déjà un Androïd Market où sont proposées les applications développées sous Androïd).

Oui, vous avez raison, ça ressemble beaucoup à ce que fait Apple avec son iPhone. Et du coup, c’est à mon avis promis à un bel avenir, voire plus du fait du caractère Open Source du tout (parce que les fabricants de téléphone ne vont pas se gêner pour implanter Androïd sur leurs machines – c’est déjà fait d’ailleurs)

En quoi ça nous regarde ? Et bien c’est assez simple : je pense que la prochaine frontière des bibliothèques, c’est les outils mobiles (tu parles d’un scoop) ; et je pense que pour conquérir ces terres-là, nous devons développer des applications qui nous permettent d’être présents sur ces outils.

L’outil de Google me semble à cet égard plein de promesses, et il est Open Source (j’aime beaucoup ce que fait Apple, mais ça reste un système propriétaire – et oui, j’utilise des Macs, honte à moi) : soyons Androïd.

PS : Androïd va sans doute également apparaître très vite comme système d’exploitation de PC type Netbook. Moi, je dis ça, je dis rien. Mais avoir sous la main une application qui permettrait depuis son PC et son GSM/PDA d’interagir avec sa bibliothèque, ça peut être vaguement intéressant pour un usager…

Le lien facile (4)


26 May

(Je reprends un peu la série SFX)

Le truc le plus complexe, il me semble, c’est la question des ” états de collection ” (ah, ça vous parle, bande de malades…) Essayons d’expliquer…

La KB de SFX (des mises à jour mensuelles venant d’Ex-Libris entretiennent ça) contient un état  des collections présentes sur chaque Target et pour chaque Porfolio (le vocabulaire est ). Par exemple, on sait que tel éditeur donne accès sous forme numérique, dans tel bouquet et pour telle revue, aux articles depuis telle année, tel volume, tel numéro. En SFX, on parle de Global Threshold.

Or… vos abonnements réels (ce que votre budget vous permet d’acquérir) ne correspondent pas à ces Global Thresholds (à moins que vous ne soyez abonnés à toute la doc. élec. partout… Si c’est le cas, votre budget est énorme et je vais peut-être vous envoyer mon CV). Et c’est un problème. Illustrons.

Paul Dupont utilise Scopus, et fait une recherche. Comme vous avez déclaré votre SFX à Scopus, en face de la liste des résultats de Paul, on voit apparaître le zoli bouton BU d’Angers. Caché derrière le bouton, pour certaines de ces références et en se basant sur le Global Threshold de la ressource, SFX pense que le Full Text est là. Lorsque Paul appuie sur le bouton et puisque vous avez activé le Direct Link, SFX emporte directement Paul vers le Full Text et… rien…. Parce que l’article est question est bien proposé par l’éditeur, mais que vous n’avez pas payé ce morceau de la ressource (typiquement, les archives). D’où drame, frustration de Paul qui conchie la Bu et la doc. électronique, sort contrarié et va se calmer au Mac Do en s’empiffrant, d’où problèmes cardiaques, etc… Passons.

Il importe donc d’indiquer à SFX vos Local Thresholds… Pour que vos états réels de collection soient connus et pris en compte par le résolveur, qui tiendra compte de cela pour proposer le vrai Full Text ou des alternatives (version papier de la revue, PEB, etc) au Full Text quand ce dernier n’est pas accessible. Et pour que vos usagers soient certains de la fiabilité des outils que vous leur proposez. Et pour que personne n’ait de problème de santé.

L’interface Admin de SFX permet cela, avec toute une série d’outils qui gèrent les Local Thresholds de manière massive ou très pointue (on peut aller jusqu’à gérer le Local Threshold d’une seule revue). Et ça se fait avec des équations plus ou moins simples du type $obj->parsedDate(“>=”,1995,17,1) && $obj->parsedDate(“<=”,1999,21,10) qu’un outil intégré aide à construire, ou que l’on fait à la main si l’on a envie de s’amuser un peu.

Mais c’est pas automatique, ça. Et on a tendance à l’oublier : derrière, il reste un humain.

Le lien facile (3)


16 Apr

Le principal travail sur SFX en production, c’est la maintenance de la KB. Prenons les éléments dans l’ordre et détaillons les opérations. Commençons par le cas où nous venons d’acheter un nouveau bouquet de revues. Que devons-nous faire ?

  • les sources sont installées dans SFX par Ex-Libris. Elles sont actuellement au nombre de 56. Toutes les sources de notre SCD (et sans doute les vôtres) sont présentes. Nous n’avons donc rien à faire à ce niveau (chouette), et il ne reste plus qu’à prendre contact avec le fournisseur de la source pour lui indiquer que nous utilions un résolveur ; où ce résolveur se trouve ; et pour ajouter dans l’interface de la source le zoli bouton qui fera le lien avec le résolveur – à Angers, c’est cette icône : buaplus3
  • les targets : à chaque acquisition d’un bouquet (une target, donc), il suffit de l’activer (un clic), puis il faut activer les portfolios de ladite target (en général, on les active tous = un clic). La principale difficulté ici est de trouver la bonne target. Je m’explique : un éditeur comme Elsevier propose tout un ensemble de bouquets, et ces bouquets sont généralement présents dans la KB de SFX (ici, la liste des possibles targets de SFX), mais pas nécessairement sous un nom très explicite ou très proche de l’appellation commune du bouquet. Parfois, on tâtonne un peu pour retrouver ses petits (et avec, pour ce qui me concerne, le sentiment, à chaque fois, que les éditeurs nous vendent peu ou prou la même came sous des noms différents).
  • enfin, toujours pour la target, l’on précise les services présents (là aussi, quelques clics).

Voilà. L’acquisition et donc l’activation d’une nouvelle ressource va en général vite. C’est après que ça se complique…

Distance demande haute exigence


12 Mar

Bien que je sois souvent parfois totalement dans les choux, j’essaie de m’appliquer à moi-même un principe de réactivité par rapport aux demandes que je peux avoir de mes usagers “virtuels” (évidemment, c’est la même chose quand je parle à un humain in RL, mais là n’est pas le sujet aujourd’hui). Pourquoi ?

Parce que je pense que la distance physique d’avec la bibliothèque doit augmenter notre exigence de qualité de service, pour compenser l’absence de présence physique. Un usager distant est pour moi un vrai usager, à part entière, pas juste une catégorie un peu particulière, un peu vague, d’usagers que l’on pourrait traiter par-dessus la jambe au motif qu’ils sont loin et n’ont qu’à se déplacer s’ils veulent un service complet. Non, un usager distant est un usager à qui je dois au moins le service que je rends à mes usagers physiques, voire plus.

Pourquoi plus ? Parce qu’il est loin, face à une machine, et souvent démuni. Parce que je ne peux pas le prendre par la main pour l’emmener dans les rayons. Parce que je ne peux pas lui sortir une de mes blagues carambar (vous connaissiez celle de… non, je m’égare) pour dédramatiser la situation (une interaction avec un usager, je trouve ça très stressant, surtout pour l’usager). Parce que, quelle que soit son aisance face à une machine, il doit gérer la difficulté de la machine, sa difficulté documentaire, et la difficulté relationnelle via une machine.

Voilà : je pense que la distance nous demande une (encore) plus haute exigence par rapport à nos usagers. Mais il y a peut-être débat. Les commentaires sont donc ouverts.

La bulle et le livrel


10 Mar

Bon, la littérature, les grands classiques, les futurs grands classiques, ça va bien ;-)

La société Foolstrip a eu la bonne idée de nous faire parvenir quelques BD sous format numérique, adaptées aux écrans des Sony Reader et autres Cybook.

Je suis loin d’être un spécialiste de la BD, mais j’ai pensé dès la première fois que j’ai eu un livrel dans les mains, que ça serait un format idéal pour du manga.

Les BD fournies par Foolstrip ne sont pas que des mangas (enfin, je crois, je vous dis que je n’y connais rien) mais tout ça me semble plutôt sympathique à découvrir et lire (vous pouvez explorer cela directement chez Foolstrip)

Je vous dépose également ci-dessous un cliché – mais qui ne rend pas compte de la qualité de l’affichage, j’ai pris ça avec mon téléphone portable. En vrai, c’est vraiment pas mal du tout

photo019

Quel dommage que vous ne soyez pas étudiants angevins…

Le lien facile (2)


04 Mar

Donc : il s’agit de mettre en rapport des bases bibliographiques avec des documents plein texte (dans l’idéal). C’est à cela que sert SFX. Mais pour faire cela, le résolveur a besoin de savoir à quoi exactement la bibliothèque est abonnée (ben oui, SFX ne peut pas le deviner, faut pas rêver…)

Le noyau dur des coulisses de SFX, c’est donc cela : la KB (pour Knowledge Base) dans laquelle nous indiquons :

  • les sources bibliographiques (sources dans le vocabulaire SFX) auxquelles nous souscrivons (exemple :  Scopus ou WOS)
  • les cibles (SFX parle de targets) que nous “possédons” (exemple : ScienceDirect) ou visons
  • les revues (portfolios pour SFX) que contiennent ces cibles (exemple : Artificial Intelligence)
  • les éléments (SFX parle de services) accessibles pour chaque target (exemple : le plein texte ; la table des matières ; le résumé)

Voilà, le vocabulaire SFX est défini. Je n’utiliserai plus que lui dans la suite.

Ceux qui suivent auront remarqué que nous avons donc, d’une part, les sources ; d’autres part, un emboîtement de targets qui contiennent des portfolios pour lesquelles on a accès à un certain nombre de services.

PS : C’est ce que j’ai mis un peu de temps à comprendre, cet emboîtement. Une fois ça assimilé, ça va tout seul ;-) .
PS2 : la KB sert à plein d’autres choses, je vais essayer d’en parler plus loin.

Face Ecran

Le 'nouveau' blog du taiseux bavard

Get Adobe Flash playerPlugin by wpburn.com wordpress themes