PageRank

PageRank: Illustration du PageRank.

Le PageRank ou PR est l'algorithme d'analyse des liens concourant au système de classement des pages Web utilisé par le moteur de recherche Google pour déterminer l'ordre dans les résultats de recherche qu'il fournit. De nos jours le PageRank ne fournit qu'un indice parmi tant d'autres dans l'algorithme qui permet de classer les pages du Web dans les résultats de recherche de Google. Ce système a été inventé par Larry Page, cofondateur de Google. Ce mot est une marque déposée.

Sommaire

1 Fonctionnement

2 Propriété intellectuelle

3 La course aux liens

4 Principaux critères du score d'une page web

5 Le TrustRank

6 nofollow

7 Futur PageRank

8 La balise Canonical

9 Articles connexes

10 Sources

11 Notes et références

11.1 Liens externes

Fonctionnement

Le PageRank d'une page a tendance à être d'autant plus élevé que la somme des PagesRanks des pages qui pointent vers elle est élevée.

Le principe de base est d'attribuer à chaque page une valeur (ou score) proportionnelle au nombre de fois que passerait par cette page un utilisateur parcourant le graphe du Web en cliquant aléatoirement, sur un des liens apparaissant sur chaque page. Ainsi, une page a un PageRank d'autant plus important qu'est grande la somme des PageRanks des pages qui pointent vers elle (elle comprise, s'il y a des liens internes).

Plus formellement, le déplacement de l'utilisateur est une marche aléatoire sur le graphe du Web, c'est-à-dire le graphe orienté dont les sommets représentent les pages du Web et les arcs les hyperliens. En supposant que l'utilisateur choisisse chaque lien indépendamment des pages précédemment visitées (le réalisme d'une telle hypothèse pouvant être discuté), il s'agit d'un processus de Markov. Le PageRank est alors simplement la probabilité stationnaire d'une chaîne de Markov, c'est-à-dire un vecteur de Perron-Frobenius de la matrice d'adjacence du graphe du Web^[1]^,^[2]. La taille (gigantesque) de ce graphe et son évolution dynamique (modifications de pages et hyperliens, connexion ou déconnexion de serveurs Web…) rendent cependant impossible un calcul direct de ce vecteur propre : des algorithmes d'approximation sont utilisés.

De nombreuses corrections et améliorations ont été apportées à cet algorithme, certaines étant décrites dans le brevet déposé le 17 avril 2007^[3], d'autres ne restant connues que de Google. En particulier, il est important de garantir que des modifications trop locales du graphe du Web n'entraînent pas d'augmentation disproportionnée du PageRank de certaines pages, ceci afin d'éviter que des utilisateurs (par exemple des sites commerciaux) ne "boostent" artificiellement leur PageRank. Par exemple, dans l'algorithme de base décrit ci-dessus, ajouter de nombreux liens internes sur une page Web (ce qui est très simple à faire pour un particulier) permet d'augmenter son PageRank (cette stratégie ne marche pas avec le PageRank actuel de Google).

Les internautes peuvent obtenir une approximation du classement de chaque page en consultant la zone PageRank de la Google Toolbar, qui indique sa valeur sur une échelle de 0 à 10 (Échelle logarithmique). Il existe aussi de nombreux outils pour l'obtenir sans afficher la toolbar. L'affichage de ce "Pagerank" a été abandonné par Google en 2009 il est remplacé par le "TrustRank".

Propriété intellectuelle

Le premier brevet (intitulé Method for Node Ranking in a Linked Database)^[4], déposé en janvier 1997 et enregistré le 9 janvier 1998, est la propriété de l'Université Stanford^[5], qui a octroyé la licence de cette technologie à Google en 1998 (amendée en 2000 et 2003), deux mois après sa fondation. Il s'agit d'une licence exclusive jusqu'en 2011, l'exclusivité prenant fin à cette date^[6].

Les recherches qui ont abouti au développement de la technologie du PageRank ont été financées en partie par la National Science Foundation^[7]. Il est donc précisé dans le brevet que le gouvernement a certains droits sur cette invention^[8].

La course aux liens

Les référenceurs et les webmasters créent quelquefois massivement des liens retour, par échanges de liens ou en inscrivant un site sur une quantité d'annuaires. Google avait autrefois une vision quantitative de la popularité d'une page, cette technique permettait donc de gonfler artificiellement son indice de popularité. Mais Google a réagi : d'une part en instaurant des filtres, tels que la Sandbox. Il détecte et sanctionne les campagnes massives de liens artificiels ; par ailleurs il intègre des critères qualitatifs à l'analyse des liens (sémantique, confiance : indice TrustRank, comportement des utilisateurs).

Principaux critères du score d'une page web

Selon le brevet Google, ces critères sont :

les liens entrants et sortants ;

les ancres ;

le trafic associé à la page ;

le comportement des internautes : le choix de la page dans les résultats ;

le nom de domaine ;

l'hébergement.

Le TrustRank

C'est un critère d'autorité accordé aux pages, du fait que l'auteur dispose d'une qualité de sérieux et de compétence reconnue. Ce critère est associé aux sites gouvernementaux, et aux sites de référence tels le W3C. Le terme TrustRank vient de Yahoo! et non pas de Google, qui cependant inclut aussi un critère de confiance dans le calcul du positionnement.

nofollow

La valeur nofollow de l'attribut HTML rel a été définie par Google en 2005, hors des processus normatifs du W3C. Selon Google, un lien ainsi qualifié dans une page Web ne transmet aucune valeur de PageRank aux pages ainsi liées^[9] ^[2]. Le 15 juin 2009, Matt Cutts, responsable de qualité de l'index de Google, a annoncé^[10] un changement de traitement des liens en nofollow. Ce type de lien continuera à être ignoré mais sera indirectement pris en compte dans la formule de calcul. Ce changement de traitement est une réaction à l'usage abusif effectué par les webmasters (PageRank Sculpting). D'une manière générale, la nouvelle formule prend en compte tous les liens présents dans une page (même les liens javascript^[11] ou publicitaires).

Futur PageRank

Beaucoup d'outils proposent de calculer le futur classement d'une page après le prochain passage du googlebot. Ces outils ne sont pas fiables car ils se basent uniquement sur la valeur RK du checksum de Google. L'utilité de cette donnée n'est connue que de Google et n'a rien à voir avec un futur PageRank.

La balise Canonical

La balise Canonical^[12] qui doit être incluse entre <head></head> permet de faire le tri entre plusieurs pages qui ont le même contenu et donner aux moteurs de recherche qu'une seule page à crawler. On va alors transférer la valeur des doublons à une seule page, la page canonique. La balise canonique peut aussi être utilisée d'un site A vers un site B.

Articles connexes

Google

TrustRank

Bombardement Google

Moteur de recherche

Lien retour

Fouille du web

Sources

Sergey Brin et Lawrence Page : The anatomy of a large-scale hypertextual Web search engine, Université Stanford, 1998.

Description abrégée de PageRank sur le site google.fr

Notes et références

↑ [PDF] Le théorème de Perron-Frobenius, document pour l'agrégation de mathématiques par B. Bekka, Université de Rennes 1

↑ ^{a et b} [PDF] Comment fonctionne le PageRank ?, explication mathématique de l'algorithme PageRank par M. Eisermann, Université Grenoble 1

↑ Comment Google attribue un score à une page Web

↑ US 6.285.999 B1

↑ Le texte du brevet est accessible sur le site du bureau des brevets des États-Unis (l'USPTO)

↑ Le texte du contrat de licence, dans sa version amendée de 2003, est accessible à cette adresse

↑ (Grant NSF - IRI-9411306-4)

↑ « The Government has certain rights in the invention. » Voir le texte du brevet.

↑ « From now on, when Google sees the attribute (rel="nofollow") on hyperlinks, those links won't get any credit when we rank websites in our search results. This isn't a negative vote for the site where the comment was posted; it's just a way to make sure that spammers get no benefit from abusing public areas like blog comments, trackbacks, and referrer lists », source.

↑ Matt Cutts Blog (June 15, 2009), [1], MattCutts.com/Blog, retrieved September 28, 2010

↑ SEOLand (13 Juillet 2010), [2]

↑ http://www.google.com/support/webmasters/bin/answer.py?hl=fr&answer=139394

Liens externes

Technologie Google Vue d'ensemble sur la technologie du moteur de recherche.

(en) Web PageRank prediction with Markov models Michalis Vazirgiannis, Dimitris Drosos, Pierre Senellart, Akrivi Vlachou - Research paper

v · d · m

Google Inc.

Lawrence E. Page · Sergey M. Brin · Eric E. Schmidt

Moteur de recherche Pages web · Images · Livres · iGoogle · Shopping · Groupes · Actualités · Vidéos

Services en ligne Gmail · Documents · Picasa · Apps · YouTube · Scholar · Checkout · Orkut · Google+ · Tendances des recherches · Bloc-notes · Transit · Buzz · Code · Jaiku · Knol · GOOG-411 · Art Project · Music · Wallet

Applications Web Analytics · Base · Labs · Maps · Modélisateur de bâtiments 3D · Street View · Page Creator · Sites · Reader · Gears · Web Toolkit · Wave · Outils pour les webmasters · Web Server · Agenda

Logiciels Android · Earth · Moon · Mars · Space · Pack · Talk · Desktop · SketchUp · Picasa · Chrome OS · Chrome · Chromium

Technique et outils Traduction · Bombardement · PageRank · TrustRank · Googlebot · Barre d’outils Google · Answers · Calculatrice

Culture Googleplex · Doodle · Catull · « J’ai de la chance » · Google Summer of Code · Googlism · Googlefight

Articles liés Bombardement Google · Critique · Doodle · Google TV · Google.org · Googleplex · Labs · Logo · Lunar X Prize · Monopoly City Streets

Liste des services en ligne de Google · Liste des acquisitions de Google

Portail de Google

Catégories :
Google
Moteur de recherche
Exploration de données
Référencement

Contenu soumis à la licence CC-BY-SA. Source : Article PageRank de Wikipédia en français (auteurs)

Игры ⚽ Нужен реферат?

Regardez d'autres dictionnaires:

PageRank — is a link analysis algorithm that assigns a numerical weighting to each element of a hyperlinked set of documents, such as the World Wide Web, with the purpose of measuring its relative importance within the set. The algorithm may be applied to… … Wikipedia
PageRank — Saltar a navegación, búsqueda Google ordena los resultados de la búsqueda utilizando su propio algoritmo PageRank. A cada página web se le asigna un número en función del número de enlaces de otras páginas que la apuntan, el valor de esas páginas … Wikipedia Español
Pagerank — Illustration du PageRank. Le PageRank ou PR est l algorithme d analyse des liens concourant au système de classement des pages Web utilisé par le moteur de recherche Google pour déterminer l ordre dans les résultats de recherche qu il fournit. De … Wikipédia en Français
PageRank — es una familia de algoritmos utilizados para asignar de forma numérica la relevancia de los documentos (o páginas web) indexados por un motor de búsqueda. Sus propiedades son muy discutidas por expertos en optimización de motores de búsqueda. El… … Enciclopedia Universal
PageRank — Der PageRank Algorithmus ist ein Verfahren, eine Menge verlinkter Dokumente, wie beispielsweise das World Wide Web, anhand ihrer Struktur zu bewerten bzw. zu gewichten. Dabei wird jedem Element ein Gewicht, der PageRank, aufgrund seiner… … Deutsch Wikipedia
PageRank — Математический рейтинг вебстраницы (PageRank) для простой сети, выраженный в процентах (Google использует логарифмическую шкалу). Вебстраница C имеет более высокий рейтинг, чем страница E, хотя есть меньше ссылок на C чем на Е, но одна … Википедия
Pagerank — Der PageRank Algorithmus ist ein Verfahren, eine Menge verlinkter Dokumente, wie beispielsweise das World Wide Web, anhand ihrer Struktur zu bewerten bzw. zu gewichten. Dabei wird jedem Element ein Gewicht, der PageRank, aufgrund seiner… … Deutsch Wikipedia
PageRank — Der PageRank (abgek. PR ) ist ein von Google entwickeltes Maß der gewichteten Link Popularity für eine Webseite. Es ist jedoch kein Maß für die Relevanz eine Seite, wie häufig fäschlicherweise vermutet. Als PageRank wird der Wert bezeichnet, mit… … SEO Wörterbuch
Pagerank — … Википедия
Google PageRank — … Википедия

Dictionnaires et Encyclopédies sur 'Academic'

PageRank

Sommaire

Fonctionnement

Propriété intellectuelle

La course aux liens

Principaux critères du score d'une page web

Le TrustRank

nofollow

Futur PageRank

La balise Canonical

Articles connexes

Sources

Notes et références

Liens externes

Regardez d'autres dictionnaires:

Share the article and excerpts

v · d · m Google Inc.
Lawrence E. Page · Sergey M. Brin · Eric E. Schmidt
Moteur de recherche	Pages web · Images · Livres · iGoogle · Shopping · Groupes · Actualités · Vidéos
Services en ligne	Gmail · Documents · Picasa · Apps · YouTube · Scholar · Checkout · Orkut · Google+ · Tendances des recherches · Bloc-notes · Transit · Buzz · Code · Jaiku · Knol · GOOG-411 · Art Project · Music · Wallet
Applications Web	Analytics · Base · Labs · Maps · Modélisateur de bâtiments 3D · Street View · Page Creator · Sites · Reader · Gears · Web Toolkit · Wave · Outils pour les webmasters · Web Server · Agenda
Logiciels	Android · Earth · Moon · Mars · Space · Pack · Talk · Desktop · SketchUp · Picasa · Chrome OS · Chrome · Chromium
Technique et outils	Traduction · Bombardement · PageRank · TrustRank · Googlebot · Barre d’outils Google · Answers · Calculatrice
Culture	Googleplex · Doodle · Catull · « J’ai de la chance » · Google Summer of Code · Googlism · Googlefight
Articles liés	Bombardement Google · Critique · Doodle · Google TV · Google.org · Googleplex · Labs · Logo · Lunar X Prize · Monopoly City Streets
Liste des services en ligne de Google · Liste des acquisitions de Google

Dictionnaires et Encyclopédies sur 'Academic'

Wikipédia en Français

PageRank

Sommaire

Fonctionnement

Propriété intellectuelle

La course aux liens

Principaux critères du score d'une page web

Le TrustRank

nofollow

Futur PageRank

La balise Canonical

Articles connexes

Sources

Notes et références

Liens externes

Regardez d'autres dictionnaires:

Share the article and excerpts

Direct link