Recherche

Crawler

  • Imprimer

À retenir:
Un crawler est un logiciel robot en charge d'explorer les sites web et les contenus des publications sur internet. Un crawler est aussi désigné par les termes de web crawler, web spider, robot d'indexation, araignée du Web ou encore collecteur.

Fonction principale d'un crawler

Il a pour fonction de collecter les ressources, comme des images, des vidéos, des documents. Ces contenus seront ensuite analysés puis indexés par un moteur de recherche, soit par soumission de requête, soit à partir d'une liste ou suivant un lien organique. Sur le principe, un robot d'indexation fonctionne de la même façon que les robots malveillants comme les malwares ou spambots.

Voir aussi:
Référencement

Fonctions spécifiques du collecteur

Il existe différents crawlers conçus pour analyser un contenu spécifique avec des objectifs bien précis. Ces robots seront architecturés par des frameworks et sont très utilisés dans le domaine du web marketing. C'est de cette façon que sont construits les comparateurs de prix ou de performances. Les principaux robots d'indexation sont:

- Googlebot, web crawler de Google

- VoilaBot, celui d'Orange

- Heritrix, qui fonctionne sous un environnement Windows ou Linux

- HTTrack, sous licence GPL

- Slurp, de Yahoo

- MSNBot, de MSN

- Scooter.