Protocole d'exclusion des robots
- Protocole d'exclusion des robots
-
Protocole d'exclusion des robots est une ressource de format texte qui peut être placée à la racine d'un site web, et qui contient une liste des ressources du site qui ne sont pas censées être indexées par les robots d'indexation des moteurs de recherche. Par convention, les robots consultent robots.txt
avant d'indexer un site Web. Sur le serveur Web, cette ressource est fréquemment enregistrée dans un fichier texte appelé robots.txt
.
Usages
L'usage de robots.txt
permet d'éviter que des ressources sans intérêt public se retrouvent dans la page de résultats d'un moteur de recherche. En outre, le fait que les robots n'accèdent pas à ces ressources allège le travail du serveur HTTP et le trafic sur le réseau informatique.
Il est important de comprendre qu’il ne s’agit là que d’une indication sur ce que doivent faire les robots bienveillants, ce n’est en aucun cas un élément de sécurité. En effet, certains robots ignorent ce fichier, soit délibérément parce qu’ils cherchent des informations privées (des adresses électroniques par exemple, pour y envoyer du courrier indésirable), soit parce que le robot est trop simple pour gérer ce standard.
Exemples
Conseiller tous les robots d'accéder à tout le site :
Déconseiller tous les robots d'accéder au site :
User-agent: *
Disallow: /
Pour déconseiller tous les robots sauf Googlebot d'accéder à un dossier en particulier, par exemple http://example.org/forum/
User-agent: *
Disallow: /forum
User-agent: googlebot
Disallow:
Voir aussi
Articles connexes
Liens externes
Wikimedia Foundation.
2010.
Contenu soumis à la licence CC-BY-SA. Source : Article Protocole d'exclusion des robots de Wikipédia en français (auteurs)
Regardez d'autres dictionnaires:
Fichier D'exclusion Des Robots — Robots.txt Robots.txt, ou le fichier d exclusion des robots, est une ressource de format texte qui peut être placée la racine d un site Web, et qui contient une liste des ressources du site qui ne sont pas censées être indexées par les robots d… … Wikipédia en Français
Fichier d'exclusion des robots — Robots.txt Robots.txt, ou le fichier d exclusion des robots, est une ressource de format texte qui peut être placée la racine d un site Web, et qui contient une liste des ressources du site qui ne sont pas censées être indexées par les robots d… … Wikipédia en Français
Fichier d exclusion des robots — Robots.txt Robots.txt, ou le fichier d exclusion des robots, est une ressource de format texte qui peut être placée la racine d un site Web, et qui contient une liste des ressources du site qui ne sont pas censées être indexées par les robots d… … Wikipédia en Français
Standard d'exclusion de robots — Robots.txt Robots.txt, ou le fichier d exclusion des robots, est une ressource de format texte qui peut être placée la racine d un site Web, et qui contient une liste des ressources du site qui ne sont pas censées être indexées par les robots d… … Wikipédia en Français
Robots.txt — Robots.txt, ou le fichier d exclusion des robots, est une ressource de format texte qui peut être placée la racine d un site Web, et qui contient une liste des ressources du site qui ne sont pas censées être indexées par les robots d indexation… … Wikipédia en Français
Robot.txt — Robots.txt Robots.txt, ou le fichier d exclusion des robots, est une ressource de format texte qui peut être placée la racine d un site Web, et qui contient une liste des ressources du site qui ne sont pas censées être indexées par les robots d… … Wikipédia en Français
Archive.org — Internet Archive Photo prise à la Bibliotheca Alexandrina : elle est contient une copie des documents de l Internet Archive. L Internet Archive (IA) est une organisation à but non lucratif consacrée à l archivage du Web, située dans le… … Wikipédia en Français
Internet Archive — 37°46′56.3″N 122°28′17.65″O / 37.782306, 122.4715694 … Wikipédia en Français
Internet archive — Photo prise à la Bibliotheca Alexandrina : elle est contient une copie des documents de l Internet Archive. L Internet Archive (IA) est une organisation à but non lucratif consacrée à l archivage du Web, située dans le Presidio de … Wikipédia en Français
3W — World Wide Web Ne doit pas être confondu avec Internet. Le World Wide Web, littéralement la « toile (d’araignée) mondiale », communément appelé le Web, parfois la Toile ou le WWW, est un système hypertexte public fonctionnant sur… … Wikipédia en Français