Nutch

Nutch
Nutch
Nutch.png
Développeur Doug Cutting
Dernière version 1.3 (7 juin 2011) [+/−]
Environnement Windows, Mac OS X, GNU/Linux
Type moteur de recherche open source
Licence Apache License 2.0
Site web http://nutch.apache.org/

Nutch est une initiative visant à construire un moteur de recherche open source. Il utilise Lucene comme bibliothèque de moteur de recherche et d'indexation. En revanche, le robot de collecte a été créé spécifiquement pour ce projet.

L'architecture de Nutch est hautement modulaire et permet à des développeurs de créer des plugins pour différentes phases du processus : récupération des données, analyse des documents, recherche, etc.

Doug Cutting est l'initiateur et le coordinateur de ce projet.

Il est entièrement développé en Java, mais les données qu'il manipule sont dans un format indépendant de tout langage de programmation. En juin 2003 a été présenté une version opérationnelle d'une démonstration de Nutch sur une base regroupant 100 millions de documents.

Sommaire

Historique

Le gouvernement du Québec adopte Nutch

En décembre 2006, le gouvernement du Québec a opté pour Nutch comme moteur de recherche pour le repérage de l'ensemble de ses sites selon une présélection. À ce jour, plus de 400 sites et 500 000 documents sont indexés. Cette migration a été effectuée par DocuLibre, une firme de Québec, en moins de 30 jours.

L'Oregon State University passe à Nutch

De septembre 2004 à Janvier 2010[1], l'Oregon State University a remplacé son pôle de recherche Google par Nutch. Cela lui a permis de réaliser des réductions de coûts significatives et de promouvoir la transparence de ce moteur de recherche. Cette réduction a été estimée à 100 000 $ par an selon l'Open Source Lab [2].

CreativeCommons.org s'appuie sur Nutch

Creative Commons inaugure en 2004 une beta version de son moteur de recherche qui parcoure le web à la recherche de texte, de son audio et de vidéo, indexant à cette date un million de pages ; tout cela réutilisable librement selon les termes des licences mis à disposition sur leur site web. [3]

Leur moteur de recherche s'appuie le Resource Description Framework (RDF) qui utilise le méta-langage XML , standardisé par le World Wide Web Consortium (W3C).

Cette sortie coïncide avec celle du navigateur Web Mozilla Firefox dans sa version 1.0 rendant par la même possible la recherche de contenu libre.

Nutch rejoint Apache

En janvier 2005, Nutch est un projet de deux ans d'âge qui a d'abord été hébergé par Sourceforge et soutenu par sa propre organisation à but non lucratif. Cette organisation a été fondé dans le but de donner un copyright au projet et de pouvoir garder le droit de changer la licence. L'équipe a décidé que la licence Apache était la plus approprié pour Nutch et qu'il n'avait plus besoin de l'aide d'une organisation extérieure. Les dirigeants et les développeurs sont maintenant soutenus par la fondation Apache.

Après cinq mois d'incubation, Nutch devient un sous-projet de Lucene.

Évaluation du moteur

Publiée le 1er juin 2004, l'étude menée par Lyle Benedict présente une comparaison des résultats du célèbre Google et de son homologue libre Nutch dans le cadre restreint du site internet de l'Université de l'État de l'Oregon sur une base de 100 requêtes ([4]). Pour exemple, sur des notes allant de 0 à 10 où 10 est la meilleure note, elle a trouvé 28 requêtes pour lesquelles Nutch et Google ont obtenu la note maximale.

Contributions

Les contributions sont basées sur le mérite et le karma. Les contributeurs doivent s'inscrire à une liste de diffusion pour savoir qui fait quoi et envoyer un court mail informant les autres de ce qu'ils vont faire. Quand le travail est fini, le bout de code est soumis à la liste de diffusion (ou attaché à un rapport de bug) afin que chaque contributeur puisse examiner sa qualité et sa pertinence ([5]).

Les critères d'acceptations sont :

  • une haute qualité (du code) ;
  • facilité de lecture ;
  • facilité d'intégration ;
  • cohérence avec les objectifs de Nutch.

Si tout est correct, le bout de code est inséré par les développeurs dans la base des sources et il devient partie intégrante de Nutch.

Voir aussi

Bibliographie

Articles connexes

Liens externes


  • (fr) Misterbot - Un moteur de recherche généraliste francophone basé sur Nutch.
  • (fr) Frutch (Francopho Nutch) est un groupe de travail francophone sur le moteur de recherche Open Source Nutch.

Notes et références

  1. [1], Depuis Janvier 2010 L'Oregon State University réutilise Google Search Appliance.

Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Nutch de Wikipédia en français (auteurs)

Игры ⚽ Поможем написать реферат

Regardez d'autres dictionnaires:

  • Nutch — Entwickler Apache Software Foundation Aktuelle Version 1.2 (24. September 2010) Betriebssystem Cross platform Kategorie Crawler, Parser und …   Deutsch Wikipedia

  • Nutch — Desarrollador Apache Software Foundation http://lucene.apache.org/nutch/ Información general Última versión estable 1 …   Wikipedia Español

  • Nutch — Lucene Nutch Screenshot  …   Wikipedia

  • Lucene — Developer(s) Apache Software Foundation Stable release 3.4 / September 14, 2011; 2 months ago ( …   Wikipedia

  • Doug Cutting — Douglas Reed Cutting is an advocate and creator of open source search technology. He originated Lucene and, with Mike Cafarella, Nutch, both open source search technology projects which are now managed through the Apache Software Foundation. He… …   Wikipedia

  • Hadoop — Apache Hadoop Тип Система для распределённых вычислений Разработчик Apache Software Foundation …   Википедия

  • Hadoop — Infobox Software name = Apache Hadoop caption = developer = Apache Software Foundation latest release version = 0.18.0 latest release date = release date|2008|08|22 latest preview version = latest preview date = operating system = Cross platform… …   Wikipedia

  • Frutch — est un groupe de travail visant à développer un moteur de recherche francophone, basé sur le moteur de recherche opensource Nutch. Liens externes (fr) Frutch.org Groupe de travail francophone sur Nutch (fr) Frutch.com Adresse du futur moteur de… …   Wikipédia en Français

  • Wikia Search — Не путайте с Википедией многоязычной свободной энциклопедией Wikia Search …   Википедия

  • Hadoop — Apache Hadoop Logotipo de Hadoop Desarrollador Apache Software Foundation http://hadoop.apache.org/ Información general …   Wikipedia Español

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”