Spamdexing

Spamdexing

Le spamdexing est un ensemble de techniques consistant à tromper les moteurs de recherche sur la qualité d'une page ou d'un site afin d'obtenir, pour un mot-clef donné, un bon classement dans les résultats des moteurs (de préférence dans les tout premiers résultats, car les utilisateurs vont rarement au-delà de la première page qui, pour les principaux moteurs, ne comprend par défaut que dix adresses).

Le mot « spamdexing » est un néologisme anglophone composé du substantif « spam » et du suffixe « dexing » pris sur le terme « indexing » signifiant référencement. Au Canada, l'Office québécois de la langue française propose comme traduction de « spamdexing » « référencement abusif »[1]. En France, on n'a pas encore proposé de traduction officielle[2].

Elle est parfois sévèrement punie par les moteurs, même s'il n'y a pas de code de conduite précis pour les référenceurs (il est parfois difficile de distinguer le référencement abusif de la SEO, l'optimisation « honnête »). Les techniques habituelles de référencement abusif consistent par exemple à truffer une page satellite de listes de mots-clefs (pour attirer les utilisateurs de moteurs qui font une recherche sur ces mots), ou à créer des dizaines de sites qui pointent les uns vers les autres (link farms ou pépinières de liens) pour améliorer leur classement dans les moteurs qui jugent la qualité d'une page en fonction du nombre de liens pointant vers elle.

Sommaire

Fonctionnement

En principe, les moteurs de recherche classent les résultats selon la qualité des pages et leur pertinence par rapport à la requête ; mais les moteurs actuels (s'opposant ainsi aux annuaires, produits par des humains, qui refusent les sites de qualité insuffisante) tentent d'estimer la qualité et la pertinence des pages par des procédés automatiques, dont les principes sont connus, dans leurs grandes lignes, par les polluposteurs et les optimiseurs de sites:

  • une page est supposée de bonne qualité si un grand nombre de liens externes pointent vers elle (quand un concepteur de page web place un lien vers une page, il est ainsi censé « voter » pour cette page) ; il est facile de créer plusieurs sites qui pointent vers le site qu'on veut promouvoir (ou bien d'échanger des liens avec des sites amis, gérés par d'autres personnes. C'est le « netlinking », littéralement « mise en liens du réseau », communément appelé « échange de liens »).
  • une page est supposée pertinente, en réponse à une requête donnée, si elle contient beaucoup de mots présents dans la requête
  • les différents mots de la page obtiennent un poids plus important selon leur emplacement (par exemple, si l'expression « vente de voitures » figure dans le titre, la page est très probablement consacrée à ce sujet)
  • les moteurs tiennent également compte des mots présents dans l'adresse de la page (ce qui explique qu'on trouve parfois des URL longues, avec des répétitions de mots, comme www.exemple.com/voyages-pas-chers/voyage-en-chine/voyage-en-chine.html)

Les techniques de référencement évoluent dans le temps et s'adaptent aux moteurs. Une nouvelle technique voit le jour : la « saturation par des intégrations multiples ». Le principe est le suivant : le titulaire du site à promouvoir propose son contenu à une série de partenaires qui ont un nom de domaine avec un pagerank élevé et un nombre de pages élevé, ce qui facilitera leur ascension dans les résultats. Exemple : www.site-du-spamdexeur.com propose le contenu. Puis, on retrouve le même contenu sur http://mot-clé.partenaire.com, http://mot-clé.partenaire2.com, etc.. En résulte une saturation de la page de résultats des moteurs de recherche. On peut ainsi à obtenir 80 % des résultats de recherche affichés en première page par les moteurs de recherche. Comme la plupart des clics se font sur la première page de résultats d'une requête, ils s'assurent ainsi un maximum de visibilité et évincent leurs concurrents.

Le référencement éthique

Par opposition aux techniques de référencement dites abusives, certaines personnes avancent l'idée d'un référencement « éthique » censé reposer sur un code déontologique. Divers sites, ou associations de référenceurs, se sont avancés à proposer leur vision d'un code déontologique en matière de marketing des moteurs de recherche. Ces préceptes n'ont aucune force de loi, varient d'une appréciation individuelle à l'autre, et n'engagent que ceux qui veulent bien se reconnaître dans de tels modèles « éthiques ». Ces mêmes codes d'éthique sont rédigés par intimidation des moteurs de recherche.

Il est cependant étrange de constater que les moteurs de recherche adoptent des positions diverses à l'égard du spamdexing. Parfois certains sites sont tolérés alors que d'autres sont lourdement sanctionnés (bannissement de l'index) sans prévenir ceux qui y ont recours... Ces actions peuvent être difficiles à interpréter, car les moteurs ne donnent pas forcément d'information sur les raisons de son agissement. Cette variabilité dans le traitement tend à confirmer que les algorithmes d'indexation mis en œuvre sont extrêmement complexes (et donc difficiles à interpréter). Un traitement manuel semble parfois fait dans le cas de sites clairement litigieux. Cependant, les traitements manuels sont a priori évités et des solutions algorithmiques sont dans ces cas privilégiées[3].

Dissimulation du spam

Pour ne pas donner des soupçons à l'utilisateur qui verrait sur son écran une longue liste de mots, les nombreux termes placés dans une page pour « piéger » les moteurs sont souvent camouflés par différents procédés :

  • relégation de ces listes de mots en bas de page ;
  • écriture en caractères minuscules ;
  • mots placés dans une section « noframes », « noscript » ou « display:none » (généralement non affichée par le navigateur, mais lue par les robots des moteurs) ;
  • caractères de même couleur que le fond de la page (ce qui rend le texte invisible) ;
  • moteurs ou annuaires affichant de longues listes de « dernières recherches » ou de « recherches populaires » ;
  • pages dynamiques - par exemple celles de moteurs de recherche - déguisées en pages statiques, avec des adresses telles que example.com/trouver-requete.php: une telle adresse ressemble à celle d'un fichier statique qui s'appellerait trouver-requete.php, et qui serait situé sur le serveur du moteur, alors qu'il s'agit en fait d'une page dynamique (la sortie d'un script PHP, affichant les résultats de recherche) créée au moment de la requête : le fait de « déguiser » ainsi l'URL permet de faciliter son indexation si on suppose que les pages dynamiques peuvent ne pas être indexées par les moteurs, ou obtenir un classement inférieur à celui des pages statiques. En général, les pages de résultats des principaux moteurs possèdent des adresses telles que example.com/search.cgi?requete, où le contenu de la requête n'est pas déguisé en nom de fichier ; de plus, ces moteurs interdisent expressément l'indexation de ces pages au moyen d'un fichier robots.txt ;
  • Retrait des mots via un script (ex.: Javascript) ;
  • Une page satellite (doorway), truffée de mots-clefs, est lue par les robots des moteurs de recherche; mais quand un humain la consulte, il est redirigé vers une autre page (et donc il ne voit pas la page bidon) ;
  • Le cloaking (l'occultage) consiste à présenter des résultats différents selon le logiciel utilisé pour afficher la page: une page anodine pour un navigateur web, une page optimisée, remplie de mots-clefs, réservée aux robots des moteurs ;
  • Les sociétés de SEO, sur leur page d'accueil, donnent des exemples de sites qu'elles ont optimisés, chacune de ces adresses étant placée derrière un mot décrivant le sujet du site en question; ce qui permet aux pages des optimiseurs de contenir des mots qui n'ont rien à voir avec leur activité (et donc de figurer parmi les résultats des recherches portant sur ces mots). Elles peuvent aussi mettre un lien vers leur propre site dans chaque page qu'elles modifient.

Notes et références

  1. Voir le Grand dictionnaire terminologique
  2. Le site FranceTerme ne propose pas de traduction
  3. À titre d'exemple : (en) Being bad to your customers is bad for business - Google Blog, 1er décembre 2010

Annexes

Articles connexes

Lien externe



Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Spamdexing de Wikipédia en français (auteurs)

Игры ⚽ Нужна курсовая?

Regardez d'autres dictionnaires:

  • Spamdexing — es uno de los varios métodos de manipular la relevancia o prominencia de los recursos indexados por un motor de búsqueda, usualmente en una forma inconsistente con el propósito del sistema de indexado. Los motores de búsqueda usan una variedad de …   Wikipedia Español

  • Spamdexing — For spam on Wikipedia, see Wikipedia:Spam and Wikipedia:WikiProject Spam. In computing, spamdexing (also known as search spam, search engine spam, web spam or Search Engine Poisoning)[1] is the deliberate manipulation of search engine indexes. It …   Wikipedia

  • Spamdexing — Unter Suchmaschinen Spamming (Search Engine Spamming) oder Index Spamming (Spamdexing) versteht man alle Handlungen, die dazu führen, dass eine Internet Suchmaschine auf eine Suchworteingabe hin auf den vordersten Plätzen Webseiten ausgibt, die… …   Deutsch Wikipedia

  • spamdexing — (SPAM.deks.ing) pp. Repeating a word dozens or even hundreds of times within a Web page. Also: spam dexing. spamdexer n. Example Citation: There s also spamdexing, which involves repeatedly using certain keywords registered trademarks, brand… …   New words

  • spamdexing — noun The practice of deliberately and dishonestly manipulating search engines either to increase the likelihood of a website or page from a website being listed near the beginning of the results returned by the search engine or to influence the… …   Wiktionary

  • spamdexing — ● ►en n. m. ►INTERNET►SPAM►MOTREC Sorte de spam visant les moteur de recherche, via l indexation de pages plus ou moins bidons, par exemple contenant des centaines voire des dizaines de mots clés. L idée est de détourner les moteurs en leur… …   Dictionnaire d'informatique francophone

  • Spamdexing — Siehe Spam …   SEO Wörterbuch

  • Linkfarm — Spamdexing Spamdexing est un néologisme anglais composé du substantif spam et du suffixe dexing pris sur le terme indexing signifiant référencement. En français, on traduit spamdexing par référencement abusif. C est un ensemble de techniques… …   Wikipédia en Français

  • Spam (electronic) — An email box folder littered with spam messages A typical spam m …   Wikipedia

  • Google bomb — Google bombing here causes the search query miserable failure to be associated with George W. Bush and Michael Moore The terms Google bomb and Googlewashing refer to practices, such as creating large numbers of links, that cause a web page to… …   Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”