Posts Tagged ‘Prototype’

Nom de code : Bu-Google (5/5)


12 Jun

Pourquoi est-ce que nous faisons subir tout ça à notre catalogue ? Pour l’ouvrir et surtout, pour le projeter dans un environnement très connu des usagers. Notre idée est évidemment :

  • de bénéficier des habitudes Googlesque de l’usager pour pousser dans son champ de vision nos fonds (et d’autres sources d’informations locales – le blog, le site de l’Université) sans lui “imposer” ces fonds (puisque les réponses Googlesques standards sont là, à gauche de l’affichage) ;
  • de nous disséminer (je ne reviens pas là dessus, tout le monde a compris).

En somme, nous rendons un service à l’usager (il est dans son environnement habituel) et nous rendons notre offre plus visible : le double effet Bu-Google…

A terme, nous souhaiterions :

  • modifier la zone ” Recherche catalogue ” du site Bu et faire qu’elle attaque non pas le catalogue seulement, comme c’est le cas en ce moment, mais cette page Bugoogle (le code est en backoffice, j’attends de régler les problèmes évoqués hier) ;
  • remplacer la page Google des postes Bu par cette page (par exemple…).

Nous avons de plus un autre projet lié à Bu-Google, au niveau de l’Université, mais il faut pour cela que le problème des bots soit résolu.

Celles et ceux qui me lisent savent déjà à quel point je crois à l’intelligence collective. C’est la principale raison de cette série : exposer la méthode (pour qu’elle serve, au moins aux heureux usagers d’Aleph) ; et exposer nos difficultés, dans l’espoir qu’un surfeur qui parle à l’oreille des bots puisse m’apporter une solution qui nous permette de passer en production, la vraie… Les commentaires sont ouverts :-)

Nom de code : Bu-Google (4/5)


11 Jun

Bon, tout est en place, tout est validé par les outils de diagnostic Google mais…. à cette date (1), certaines requêtes ne renvoient rien alors que nous avons forcément des documents en magasin et dans le SIGB (si vous voulez vérifier, essayer une requête avec Duras dans Bugoogle, vous n’obtiendrez rien. Et pourtant, la Marguerite, Dieu sait si on l’aime). Que se passe-t-il ?

Et bien, nous avons un souci avec les bots. Bien que tout soit fait pour les accueillir au mieux (arborescence, sitemap), ils ne grappillent que quelques notices par jour (alors qu’en principe, un bot, c’est vorace). Et je n’ai pas d’explication, d’autant que nous avions fait des tests sur une sous-partie de cette arborescence (disons 5% du volume total) qui avait été totalement indexée en quelques heures.

Donc, je suis preneur de tout conseil sur la manière dont je pourrais motiver les bots (en précisant de suite : le site a été signalé via les Google webmasters tools, etc…) parce que ça m’éviterait de grogner comme un vieil ours quand que je ne comprends pas le pourquoi du comment.

Autre mystère : si vous allez sur ce moteur personnalisé Google qui effectue également ses recherches sur l’arborescence déjà évoquée, vous trouverez bien des résultats (14 réponses à cette heure) sur Duras (j’ai rajouté ses résultats en onglet CSE sur Bu-Google). Et si vous faites une recherche Duras depuis le “vrai” Google, vous obtiendrez 45 résultats (2). Nous avons donc trois points d’entrée Googlesque qui effectuent des requêtes au même endroit et ne ramènent pas la même chose…

Ces problèmes d’indexation et de réponses, d’une manière générale, expliquent pourquoi nous ne sommes pas encore passés en production publique avec cet outil. Or c’est bel et bien le but. Je vous en parle demain, pour clore cette saga.

(1) ça peut changer très vite : quand les bots arrivent, ils voient tout…
(2) Merci à Lully1804 pour avoir remarqué cette autre différence.
(3) Evidemment, en production, il semble du coup plus logique de passer par un onglet CSE…

Nom de code : Bu-Google (3/5)


10 Jun

Bien, nous avons exposé toutes nos notices. Mais en soi, ça ne sert à rien en soi : les résultats issus de nos fonds/de notre catalogue ne sortiront jamais dans la première page de résultats Google, la seule (ou presque) qui intéresse le surfeur fou.

Il faut donc trouver une manière de “pousser” nos réponses catalogue vers l’usager, et c’est là que nous construisons, à partir de la page Google standard, notre page Google customisée.

La manière de construire ce type de page est documentée par Google. C’est très simple. Disons que l’on définit en fait pour chaque onglet sa position (droite ou gauche) et le sous-ensemble du web sur lequel Google va restreindre sa recherche et les réponses obtenues.

Voici le code pour l’onglet Bu :

searcher = new google.search.WebSearch();
options = new google.search.SearcherOptions();
searcher.setSiteRestriction(“http://catalogue.univ-angers.fr/”);
searcher.setUserDefinedLabel(“<b>BU ANGERS / Catalogue Papier</b>”);
this.rightControl.addSearcher(searcher);

et voici pour l’onglet Blog :

searcher = new google.search.BlogSearch();
options = new google.search.SearcherOptions();
searcher.setSiteRestriction(“http://bu.univ-angers.fr/blog/”);
searcher.setUserDefinedLabel(“BU Angers / Blog”);
this.rightControl.addSearcher(searcher);

Pour le reste de la page (affichez le source si nécessaire), c’est la reprise de la page d’accueil Google standard (un copier-coller, en somme).

Voilà. On a exporté, on a construit une page, on a des résultats. Demain, je vous révèle ce qui ne marche pas et pourquoi… et après-demain, je termine par la philosophie générale du truc.

Nom de code : Bu-Google (2/5)


09 Jun

Alors, comment on obtient cette petite chose ? Je vais décomposer les opérations, histoire de… Commençons par le commencement.

  1. Puisque Google ne rentre pas dans les SIGB, il faut exporter nos notices vers lui pour lui montrer. Pour ce faire, nous utilisons un service fourni par Ex-Libris pour Aleph, que nous lançons comme n’importe quel autre service Aleph, et qui crée un ensemble de fichier *.tar composé d’un export de nos notices bibliographiques (dont nous avons défini ce qu’elles devaient contenir, par ailleurs, dans un fichier de conf.).
  2. Cet ensemble de fichier *.tar est ensuite passé dans des scripts (toujours fournis par Ex-Libris) qui “déplient” les notices pour en faire une arborescence web qui devient donc lisible pour les bots de Google (ici, une de ces pages – celles vraiment exposées, vous ne pouvez pas les voir à cause du point suivant, le .htaccess…).
  3. Il ne reste plus qu’à exposer cette arborescence (elle est là, si ça vous intéresse) sur un serveur web type Apache pour que les bots viennent l’indexer, et à créer une petite règle dans le .htaccess qui renvoie toute requête autre que celle d’un bots non pas vers l’arborescence exposée, mais vers la notice catalogue réelle. <MàJ> La règle peut être aussi dans le httpd.conf, c’est d’ailleurs là que nous l’avons posée. </MàJ>
  4. Pour faciliter le boulot aux bots, nous créons (mais c’est optionnel) une carte de l’arborescence avec Google Sitemap Gen, un script python tout con (tiens, ça rime).

Et voilà : nos données catalogue sont visibles par Google et d’une manière générale, les moteurs de recherche (m’enfin, vu la prédominance de Google, les autres, franchement, je m’en fous).

Ces opérations sont automatiques, et sont effectuées par nos machines le dimanche matin, tôt, quand tout le monde est à la messe sort de boîte.

Demain, je reviens sur la page d’accueil et la manière dont nous la construisons.

Nom de code : Bu-Google (1/5)


08 Jun

(Merci de votre indulgence :
je vais parler d’un prototype qui n’est pas encore en production)

Comme vous le savez, les moissonneurs de Google ne voient pas l’intérieur de nos catalogues. On s’est donc dit qu’il fallait les aider. Une image valant mieux qu’un long discours, je vous propose d’aller jeter un oeil à cet endroit, de faire une recherche sur “bibliothèque” par exemple (j’expliquerai pourquoi), puis de revenir ici pour que je vous explique de quoi il retourne, comment ça marche, ce qui ne marche pas encore, ce que l’on veut faire de cela, etc. Allez, j’attends votre retour et, pour les fainéants du clic, je colle ci-dessous une copie de ce que les autres sont en train de voir :

BUA Google

OK, vous avez vu ? Qu’est-ce qui se passe ? Simple :

  • nous exportons nos notices catalogue vers Google ;
  • nous  créons une page customisée d’interrogation et de réponse sur laquelle…
  • … nous ventilons les réponses avec, à gauche, les réponses web standards , à droite, des onglets dont le premier ne renvoie que des réponses de notre catalogue ; et les suivants, des réponses issues de sources choisies par nos soins (ici, le blog de la Bu et le site web de l’Université)

Demain, je commence à vous détailler la manière dont on obtiens ça, les problèmes que ça pose, le pourquoi du comment..

Face Ecran

Le 'nouveau' blog du taiseux bavard

Get Adobe Flash playerPlugin by wpburn.com wordpress themes