Crawler

Crawler: Robot d'indexation

Pour les articles homonymes, voir Spider.

Un robot d'indexation (ou littéralement araignée du Web ; en anglais web crawler ou web spider) est un logiciel qui explore automatiquement le Web. Il est généralement conçu pour collecter les ressources (pages web, images, vidéos, documents Word, PDF ou PostScript, etc.), afin de permettre à un moteur de recherche de les indexer.

Fonctionnant sur le même principe, certains robots malveillants (spambots) sont utilisés pour archiver les ressources ou collecter des adresses électroniques auxquelles envoyer des courriels.

Sommaire

1 Principes d'indexation

2 Les robots du Web 3.0

3 Robots

3.1 Robots libres

3.2 Robots propriétaires

4 Voir aussi

4.1 Articles connexes

4.2 Liens externes

Principes d'indexation

Pour indexer de nouvelles ressources, un robot procède en suivant récursivement les hyperliens trouvés à partir d'une page pivot. Par la suite, il est avantageux de mémoriser l'URL de chaque ressource récupérée et d'adapter la fréquence des visites à la fréquence observée de mise à jour de la ressource. Toutefois, de nombreuses ressources échappent à cette exploration récursive, car seuls des hyperliens créés à la demande, donc introuvables par un robot, permettent d'y accéder. Cet ensemble de ressources inexploré est parfois appelé web profond.

Un fichier d'exclusion (robots.txt) placé dans la racine d'un site web permet de donner aux robots une liste de ressources à ignorer. Cette convention permet de réduire la charge du serveur web et d'éviter des ressources sans intérêt. Par contre, certains robots ne se préoccupent pas de ce fichier.

Deux caractéristiques du Web compliquent le travail du robot d'indexation : le volume de données et la bande passante. Les capacités de traitement et de stockage des ordinateurs ainsi que le nombre d'internautes ayant fortement progressé, cela lié au développement d'outils de maintenance de pages de type Web 2.0 permettant à n'importe qui de mettre facilement en ligne des contenus, le nombre et la complexité des pages et objets multimédia disponibles, et leur modification, s'est considérablement accru dans la première décennie du XXI^e siècle. Le débit autorisé par la bande passante n'ayant pas connu une progression équivalente, le problème est de traiter un volume toujours croissant d'information avec un débit relativement limité. Les robots ont donc besoin de donner des priorités à leurs téléchargements.

Le comportement d'un robot d'indexation résulte de la combinaison des principes suivants :

Un principe de sélection qui définit quelles pages télécharger.

Un principe de re-visite qui définit quand vérifier s'il y a des changements dans les pages.

Un principe de politesse qui définit comment éviter les surcharges de pages web.

Un principe de parallélisation qui définit comment coordonner les robots d'indexations distribués.

Les robots du Web 3.0

Le Web 3.0 définit des technologies avancées et de nouveaux principes de recherche sur Internet qui devront s'appuyer en partie sur les normes du Web sémantique. Les robots du Web 3.0 exploiteront des méthodes d'indexation impliquant des associations homme-machine plus intelligentes que celles qui sont pratiquées aujourd'hui.

Robots

Robots libres

GNU Wget est un logiciel libre en ligne de commande écrit en C automatisant les transferts vers un client HTTP.

Heritrix est le robot d'archivage de l'Internet Archive. Il a été écrit en Java.

HTTrack est un logiciel aspirateur de site internet qui crée des miroirs des sites web pour une utilisation hors ligne. Il est distribué sous la licence GPL.

Open Search Server est un robot d'indexation de site Internet. Publié sous licence GPL, il s'appuie sur Lucene pour l'indexation.

Methabot, est un robot avec un système de configuration. Publié sous licence ISC.

Nutch est un robot de collecte écrit en Java et publié sous Licence Apache. Il peut être utilisé avec le projet Lucene de la fondation Apache.

Robots propriétaires

Googlebot de Google

Scooter de AltaVista

OptimalSearch_Bot de Optimal Search [1]

MSNBot de MSN

Slurp de Yahoo!

KB Crawl de KB CRAWL SAS

OmniExplorer_Bot de OmniExplorer

TwengaBot de Twenga

ExaBot de Exalead

MooveOnBot de mooveon.net

gloObotBot de gloObot.com

Voir aussi

Articles connexes

Exploration de données

PageRank

Apache Ant

Bot informatique

Spambot

Liens externes

(fr) Introduction au référencement naturel - Article sur web Interdit

(fr) Encyclopédie des robots (annuaire-info.com) : informations récentes sur plus de 100 robots du web (user-agent, adresse IP, origine, ...)

(fr) Activité des principaux robots (keypi.com) : Activité des robots, et cycle d'indexation sur les sites.

(en) Pièges à robots (Wikipédia)

Portail de l’informatique

Ce document provient de « Robot d%27indexation ».

Catégories : Moteur de recherche | Logiciel pour le World wide web | HTTP | Référencement

Contenu soumis à la licence CC-BY-SA. Source : Article Crawler de Wikipédia en français (auteurs)

Игры ⚽ Поможем сделать НИР

Regardez d'autres dictionnaires:

Crawler — may refer to: Crawler, a person who crawls or creeps along the ground Crawler (band), a British rock band Crawler transporter, a vehicle used to move space vehicles on Earth Web crawler, a computer program that gathers and categorizes information … Wikipedia
crawler — [ krole ] v. intr. <conjug. : 1> • 1931; de crawl ♦ Nager le crawl. Dos crawlé : crawl nagé sur le dos. ● crawler verbe intransitif Nager le crawl. crawler v. intr. Nager le crawl. Pp. adj. Dos crawlé: nage sur le dos, en crawl. crawle … Encyclopédie Universelle
crawler — spider, Also known as bot or crawler. A computer program or programs which seek out and collect information from publicly available websites. Such programs are used by search engines (such as Yahoo!, Google and AltaVista) to visit websites and… … Law dictionary
Crawler — Crawl er (kr?l ?r), n. One who, or that which, crawls; a creeper; a reptile. [1913 Webster] … The Collaborative International Dictionary of English
Crawler — [dt. »Krabbler«] (Web Robot, Internetroboter, Spider), andere Bezeichnung für einen Web Robot (Roboter), also ein Programm, das autonom das Internet durchsucht und Listen mit Webadressen und Inhalten erzeugt … Universal-Lexikon
crawler — /ˈkrɔlə/ (say krawluh) noun 1. someone or something that crawls. 2. → caterpillar1. 3. an abject flatterer. 4. (usually plural) → rompers. 5. a person who is slow or lazy, or unfit to work. 6. an animal which is docile through temperament, old… …
Crawler — Ein Webcrawler (auch Spider) ist ein Computerprogramm, das automatisch das World Wide Web durchsucht und Webseiten analysiert. Webcrawler werden vor allem von Suchmaschinen eingesetzt. Weitere Anwendungen sind das Sammeln von RSS Newsfeeds, E… … Deutsch Wikipedia
crawler — /kraw leuhr/, n. 1. a person or thing that crawls. 2. Also called crawler tractor. any of various large, heavy vehicles or machines that are propelled on endless belts or tracks, esp. as used in construction. 3. hellgrammite. 4. Often, crawlers.… … Universalium
Crawler — Ein Crawler, auch Spider oder Robot genannt, ist eine Software, die das Netz nach neuen oder aktualisierten Webseiten durchsucht. Robots sind bei Volltext Suchmaschinen im Einsatz, die die gefundenen Seiten nach Stichwörtern in ihre Datenbank… … Online-Wörterbuch Deutsch-Lexikon
crawler — [[t]krɔ͟ːlə(r)[/t]] crawlers N COUNT A crawler is a computer program that visits websites and collects information when you do an Internet search. [COMPUTING] … English dictionary

Dictionnaires et Encyclopédies sur 'Academic'

Crawler

Robot d'indexation

Sommaire

Principes d'indexation

Les robots du Web 3.0

Robots

Robots libres

Robots propriétaires

Voir aussi

Articles connexes

Liens externes

Regardez d'autres dictionnaires:

Share the article and excerpts

Dictionnaires et Encyclopédies sur 'Academic'

Wikipédia en Français

Crawler

Robot d'indexation

Sommaire

Principes d'indexation

Les robots du Web 3.0

Robots

Robots libres

Robots propriétaires

Voir aussi

Articles connexes

Liens externes

Regardez d'autres dictionnaires:

Share the article and excerpts

Direct link