Roumazeilles.net

Comparaison de moteurs de recherche pour site web

Une sélection de services open source de recherche pour site web

 

Pourquoi ?

Quand votre site web devient si gros que vous n'y trouvez plus facilement les informations que vous y avez déposées, il est temps d'offrir à vos visiteurs un moteur de recherche pour les assister dans leurs visites. Bien entendu, il est toujours possible de laisser cette tâche à Google, mais c'est en prenant le risque de voir votre visiteur attiré par un autre site mieux classé par Google et s'en retourner sans avoir profité des informations utiles que vous fournissiez. Par conséquent, il vaut mieux ajouter une fonction de recherche sur votre site web (comme celui que vous voyez dans le coin en haut à droite de roumazeilles.net).

Au départ (au moins ces quatre dernières années), j'ai utilisé le moteur de recherche Atomz, mais j'étais maintenant prêt à changer de solution.

Néanmoins, tous les produits ne sont pas égaux. J'ai donc choisi de trouver une solution open source au milieu de la pléthore de l'offre actuelle. Cela m'a permis de construire un tableau comparatif.

Table de comparaison

Tous les proudits, malgré leurs qualités, ne se ressemblent pas. J'en ai rencontré beaucoup et il a fallu trouver comment les distinguer. Les fonctionnalités les plus importantes me semblent devoir être :

Moteur

Codé en...

Administration

Protocoles

Contenu indexables

Notes complémentaires

ASPseek

C++ et STL

Ligne de commande

http/ proxy http/ ftp/ https

HTML, text

Prend en compte l'importance des liens entrants.

BBDBot

Java

       

DataparkSearch

 

CGI front-end

http/ https/ ftp/ nntp-news

HTML, text, XML, MP3, GIF

Recherches booléennes.

Classement par pertinence, popularité.

Recherche floue.

Eureka

CGI dans C

 

http

 

Pas de recherches booléennes.

Documentation minimale.

ht://dig

C++

template-based HTML front end

http

HTML, PDF, MS Word, PowerPoint

Bon support par les utilisateurs.

Pas de recherche approximative.

Recherches booléennes.

ISearch

 

 

http

 

Documentation insuffisante, facile à installer.

Interface vieillissante.

Support de Z39.50 pour les clients distribués.

JXTA search

 

 

http

 

JXTA -> distribué.

Pas d'index central. Etudié pour pouvoir être étendu à des milliards de requêtes par jour.

Pas vraiment adapté aux sites web simples.

Lucene

Java

 

http

XML, PDF, RTF

Indexation très rapide, très petit index.

Recherches regex, floue et de proximité.

Fait maintenant partie de Apache Jakarta.

mnoGoSearch (formerly UdmSearch)

C

Front-end systems in PHP, CGI and Perl.

User-editable HTML templates for search results

http/ http proxy/ ftp/ nntp-news

Convertisseurs externes de fichiers pour PDF, PostScript, Microsoft Word .doc

Décompresse les formats gzip, compress & deflate.

Utilise une base de données SQL plutôt qu'un index.

Les requêtes peuvent contenir des opérateurs booléens, des options pour la césure, des synonymes et des sous-chaînes.

Namazu

C et PERL

A base de ligne de commande, vous devez faire un "make install"

N'indexe que les fichiers locaux (pas de robot), exige wget ou un autre package similaire pour indexer les fichiers distants.

Text files, email messages, usenet netnews postings, mhonarc archives, compressed files comme gzip, Microsoft Word, PDF, RFC & TeX.

Expressions régulières (regex), recherches booléennes.

Nutch

Java

 

http/ ftp

 

Basé sur Lucene, vise à une indexation total du web mondial.

15 options d'ajustement de la qualité.

Pas vraiment adapté aux sites web simples.

OpenFTS

Perl

 

http

Parsers faciles à ajouter.

PostgreSQL.

Mise à jour très rapides de l'index.

PLWeb Turbo (PLS / AOL)

 

 

http

 

N'est plus vraiment supporté.

Swish-e

perl/C

CGIs dans Perl et PHP (encore en béta)

 

http

Convertisseurs externes pour indexer les fichiers binaires dont PDF, Microsoft Word, ficheirs compressés.

Fonctionnalités de recherches très riches, dont : respect des règles d'exclusion (robot.txt), logique floue, mots coupés, césure, soundex, metaphone, et double-metaphone.

Facile à installer.

SWISH++

C++, STL et GNU make

 

Indexe les fichiers locaux, et distants avec un robot spider à base de wget

Indexe toutes sortes de types commemail, news, Unix manual pages, PDFs, Postscript, LaTeX et documents RTF, tags ID3 pour MP3, et documents Microsoft Office.

Très orienté "langue anglaise".

Recherches booléennes.

WAIS and freeWAIS

 

 

http

 

Obsolète.

Recherches booléennes.

Glimpse & WebGlimpse

 

 

http

 

Gratuit seulement pour les applications non-commerciales.

 

Vous pouvez facilement le remarquer en lisant la table, il n'y a pas de panacée. Selon les contraintes qui sont celles de votre propre site, l'un ou l'autre des produits peut convenir (et certains sont définitivement à éliminer).

Solutions commerciales séparées

Comme je l'ai indiqué précédemment, j'ai jusqu'ici utilisé le moteur de recherche Atomz (récemment renommé WebSideStory Search and Content Solutions). Ainsi, j'ai souhaité aussi consulter quelques unes des bonnes solutions hébergées de manière indépendantes.

Moteur

Administration

Protocoles

Contenu indexables

Notes complémentaires

Atomz / WebSideStory

Interface web étendue

http/ https

HTML, PDF, Macromedia Flash, MP3

Le produit gratuit insère des publicités dans les pages de résultats.

Peut être modifié en payant une license.

FreeFind

Interface web

http

Fichiers PDF pour les versions payantes

Gratuit, avec publicité mais sans limite de nombre de pages.

picoSearch

Interface web étendue

http/ https

HTML, texte, XML, MP3, MIDI, Shockwave, Word, Excel, PowerPoint, RTF, PostScript, PDF

Les comptes gratuits sont limités à 250 pages et intègrent des liens sponsorisés (pub).

Google AdSense for Search

Interface web étendue

http/ https

HTML, PDF

Ajoute des pubs ciblées en fonction de la recherche. Mais vous recevez une partie des recettes publicitaires.

 

Bien entendu, les versions gratuites ont des limitations mais c'est à vous de voir si la combinaison vous convient. A noter : le langage de codage n'est d'aucune importance puisque ces solutions sont hébergées indépendamment de votre site web et peuvent ainsi utiliser n'importe quel langage qui leur semblerait nécessaire.

Emplacement où trouver d'autres informations.

Conclusions - Mon choix

En fin de compte, comme vous vous en êtes déjà rendu compte, j'ai choisi Google AdSense for Search. Je me suis laissé largement influencer par la présence de publicités payantes qui apportent une petite autonomie financière (même pour un petit site comme le mien qui reçoit quelques centaines de visites par jour et dispose d'un contenu assez varié).

J'ai aussi apprécié la facilité d'installation, les excellents logs (compte-rendus des recherches) qui permettent de facilement améliorer le fonctionnement du moteur de recherche et de savoir ce que les visiteurs recherchent les visiteurs.

 


http://www.roumazeilles.net/

Copyright (c) 1999-2008 - Yves Roumazeilles (tous droits réservés)

Dernière mise à jour : 30-oct-08

Google.com
Roumazeilles.net
Roumazeilles.net