Algorithme de fouille de flots de données

Algorithme de fouille de flots de données: Exploration de données

Articles principaux

Exploration de données

Fouille de données spatiales

Fouille du web

Fouille de flots de données

Fouille de textes

Fouille d'images

Fouille audio

Articles annexes

Logiciels de fouille de données

Algorithme de fouille de flots de données

Aide

Glossaire du data mining

Contextes liés

Probabilités et statistiques

Information géographique

Imagerie numérique

Informatique

Linguistique

Internet

En sciences de l'informatique, les algorithmes de fouille de flots de données reçoivent en entrée un flot continue d'items qui doivent être examinés en peu de passes (en général, ils le sont en une seule passe). Ces algorithmes ont peu de mémoire à leur disposition (beaucoup moins que la taille du volume en entrée) et peu de temps à accorder à chaque item. Ces contraintes peuvent impliquer qu'un tel algorithme fournit une réponse approchée fondée sur l'exploitation d'un résumé^[1] (« Summaries »)) du flot de données en mémoire.

Sommaire

1 Algorithmes

1.1 Recherche de fréquences

1.1.1 Comptages

1.1.1.1 Lossy-Counting

1.1.1.2 Sticky Sampling

1.1.1.3 DSM-FI

1.2 Arbres de décision

1.2.1 VFDT

1.2.2 CVFDT

1.2.3 Hoeffding tree

1.3 Segmentation

1.3.1 BIRCH

2 Voir aussi

2.1 Notes

2.2 Liens internes

2.3 Liens externes

2.3.1 Références

2.3.2 Bibliographie

Algorithmes

Recherche de fréquences

Pour la recherche d'items fréquents^[2] dans un flot de données, il y a deux types d'algorithmes : les algorithmes basés sur les comptages et les algorithmes axés sur les résumés (« Sketch »).

Comptages

Sticky Sampling et Lossy-Counting^[3] sont deux algorithmes importants dans ce domaine ne serait-ce que parce qu'ils sont des références. Ce sont tous les deux des algorithmes orientés faux-positifs (« false-positive ») à savoir, ils s'autorisent à présenter en résultat des items ou des itemsets fréquents alors qu'ils ne le sont pas, mais aucun faux-négatifs sont oubliés.

Lossy-Counting

Lossy-Counting^[4] est un des premiers algorithmes d'exploration des flots de données utilisant le modèle des fenêtres à drapeau (« landmark windows model »). C'est un algorithme paramétrique qui accepte deux paramètres de l'utilisateur : $\epsilon \in [0,1]$ et $s \in [0,1] ~\text{avec}~ \epsilon \ll s$ où $\epsilon$ est le taux d'erreur et s le seuil de support souhaités par l'analyste. Si N est le nombre d'items (itmesets) venant d'arriver, l'algorithme utilise des fenêtres de longueur 1/ $\epsilon$ . La conception de l'algorithme garantit que tous les items (itemsets) dont la fréquence réelle est supérieure à sN (le support $s i$ de i dans un ensemble de cardinalité N est égal à $\frac {f_i}{N}$ ) sont dans la liste de sortie, aucun item (itemset) dont la fréquence réelle est inférieure à $sN - \epsilon N$ sont dans la liste de sortie, et les fréquences estimées ne sont éloignées des fréquences réelles que d'un facteur au plus égal à $\epsilon N$ .

Sticky Sampling

Sticky Sampling utilise des fenêtres de longueur fixe, et un taux d’échantillonnage r, ie il choisit un élément avec une probabilité égale à $\frac{1}{r}$ . Il utilise trois paramètres $\epsilon$ - le taux d'erreur - s le seuil de support, et $δ$ la probabilité d’échec souhaités par l'analyste. Si $t= \frac{1}{\epsilon}\log(\epsilon^{-1} \delta^{-1})$ , les t premiers arrivants sont choisis avec un taux r égal à 1, les 2t suivants avec un taux égal à 2, .... Si l'analyste demande la sortie des items (itemsets) au dessus du seuil s, l'algorithme sort les élément dont la fréquence $f \ge (s- \epsilon)N$ .

DSM-FI

Data Stream Mining for Frequent Itemset^[5] est un algorithme créé par Hua-Fu Li, Suh-Yin Lee et Man-Kwan Shan pour explorer les itemsets fréquents dans un flot de données.

Arbres de décision

VFDT

« Very Fast Decision Trees learner »^[6] réduit le temps d'apprentissage pour les grands ensembles incrémentaux de données en sous-échantillonnant le flux de données. VFDT utilise un arbre de Hoeffding.

CVFDT

« Concept-adapting Very Fast Decision Trees learner »^[7] est une amélioration de l'algorithme précédent en ce qu'il tient compte de la Dérive conceptuelle (« Concept drift »).

Hoeffding tree

Un arbre de Hoeffding^[8]^,^[9] ^,^[10]est un algorithme d'arbre de décision incrémental et perpétuel, capable d'apprentissage à partir d'un flots de données massif, avec l'hypothèse que la distribution des échantillons ne varie pas en fonction du temps - pas de dérive conceptuelle(« Concept drift »). Cet algorithme construit un arbre d'une manière incrémentale, en rassemblant dans les feuilles suffisamment d'informations pour pouvoir choisir à un moment donné quel est le meilleur attribut pour transformer ces feuilles en nœuds. La division de la feuille - qui transforme la feuille en nœud - en deux sous-feuilles s'effectue en utilisant l'inégalité de Hoeffding (« Hoeffding bound »), mesure statistique qui permet de savoir à partir de combien d'échantillons un estimateur est proche de la vraie valeur de la variable estimée avec une probabilité $1 - δ$ , si on se donne $δ$ à priori.

Segmentation

BIRCH

BIRCH^[11]^,^[12] (« balanced iterative reducing and clustering using hierarchies ») est un algorithme d'exploration de données non-supervisé utilisé pour produire une segmentation hiérarchisée sur des volumes de données particulièrement importants. Cet algorithme utilise des vecteurs de caractérisation de segment (« Clustering Feature ») composés de $(\Nu, \sum_{k=1}^\Nu \Chi_i^2,\sum_{k=1}^\Nu \Chi_i)$ où chaque $Χ i$ est un vecteur, pour résumer les micro-segments (« micro-cluster ») afin de bâtir un arbre équilibré composé de ces micros-segments. Les informations contenues dans un vecteur CF sont suffisantes pour calculer les estimateurs de moyenne, variance, les centroids, et certaines distances. L'arbre CF possède trois paramètres : B le facteur de branche, T le seuil, L le nombre de feuilles maximum sous les derniers nœuds. Les feuilles sont reliées entre elles par des pointeurs prec et suiv. L'algorithme se déroule en trois phases : la première consiste à lire les données et à construire l'arbre CF dans la limite de la mémoire disponible. La deuxième phase sert à éliminer les aberrations (« outlier ») et un algorithme de segmentation est utilisé dans la phase trois pour segmenter les feuilles.

Voir aussi

Notes

(en) Cet article est partiellement ou en totalité issu de l’article en anglais intitulé « Streaming algorithm » (voir la liste des auteurs)

Liens internes

Cette section est vide, insuffisamment détaillée ou incomplète. Votre aide est la bienvenue !

Liens externes

BIRCH sur Wiki anglophone

Références

↑ ENST, Projet MIDAS

↑ Nishad Manerikar, Themis Palpanas, Frequent Items in Streaming Data: An Experimental Evaluation of the State-of-the-Art

↑ Gurmeet Singh Manku, Rajeev Motwani, Approximate Frequency Counts over Data Streams

↑ Hervé Bronnimann, Echantillonnage et Problèmes Géométriques en Ligne

↑ Hua-Fu Li, Suh-Yin Lee et Man-Kwan, ShanAn Efficient Algorithm for Mining Frequent Itemsets over the Entire History of Data Streams

↑ Pedro Domingos, Geoff Hulten, Mining High-Speed Data Streams

↑ Pedro Domingos, Laurie Spencer, Geoff Hulten, Mining Time-Changing Data Streams

↑ Pedro Domingos, Geoff Hulten, Mining High-Speed Data Streams

↑ Albert Bifet, Geoff Holmes, Bernhard Pfahringer, Richard Kirkby, Ricard Gavaldà, New Ensemble Methods For Evolving Data Streams, page 4

↑ Geoff Holmes, Bernhard Pfahringer, Richard Kirkby,Tie Breaking in Hoeffding Trees, page 2

↑ Tian Zhang, Raghu Ramakrishnan, Miron Livny, BIRCH:An Efﬁcient Data Clustering Method For Very Large Databases

↑ Chun Wei, Clustering Data Streams

Bibliographie

R. Agrawal, S. P. Ghosh, T. Imielinski, B. R. Iyer, and A. N. Swami. An interval classifier for database mining applications. In VLDB '92, pages 560-573, 1992.

R. Agrawal, T. Imielinski, and A. Swami. Database mining: A performance perspective. IEEE Trans. on Knowl. and Data Eng., 5(6):914-925, 1993.

A. Asuncion and D. Newman. UCI machine learning repository, 2007

Portail de l’informatique

Portail des probabilités et des statistiques

Catégories :
Apprentissage automatique
Ingénierie décisionnelle
Algorithme d'exploration de données

Exploration de données
Articles principaux
Exploration de données
Fouille de données spatiales
Fouille du web
Fouille de flots de données
Fouille de textes
Fouille d'images
Fouille audio
Articles annexes
Logiciels de fouille de données
Algorithme de fouille de flots de données
Aide
Glossaire du data mining
Contextes liés
Probabilités et statistiques
Information géographique
Imagerie numérique
Informatique
Linguistique
Internet

Contenu soumis à la licence CC-BY-SA. Source : Article Algorithme de fouille de flots de données de Wikipédia en français (auteurs)

Игры ⚽ Поможем сделать НИР

Regardez d'autres dictionnaires:

Fouille de flots de données — Exploration de données Articles principaux Exploration de données Fouille de données spatiales Fouille du web Fouille de flots de données Fouille de textes … Wikipédia en Français
Fouille du web — Exploration de données Articles principaux Exploration de données Fouille de données spatiales Fouille du web Fouille de flots de données Fouille de textes … Wikipédia en Français
Fouille de textes — Exploration de données Articles principaux Exploration de données Fouille de données spatiales Fouille du web Fouille de flots de données Fouille de textes … Wikipédia en Français
Fouille d'images — Exploration de données Articles principaux Exploration de données Fouille de données spatiales Fouille du web Fouille de flots de données Fouille de textes … Wikipédia en Français
Fouille de données spatiales — Exploration de données Articles principaux Exploration de données Fouille de données spatiales Fouille du web Fouille de flots de données Fouille de textes … Wikipédia en Français
Fouille audio — Exploration de données Articles principaux Exploration de données Fouille de données spatiales Fouille du web Fouille de flots de données Fouille de textes … Wikipédia en Français
Exploration de données — Articles principaux Exploration de données Fouille de données spatiales Fouille du web Fouille de flots de données Fouille de textes … Wikipédia en Français
Logiciels de fouille de données — Exploration de données Articles principaux Exploration de données Fouille de données spatiales Fouille du web Fouille de flots de données Fouille de textes … Wikipédia en Français
Glossaire du data mining — Exploration de données Articles principaux Exploration de données Fouille de données spatiales Fouille du web Fouille de flots de données Fouille de textes … Wikipédia en Français
Projet:Mathématiques/Liste des articles de mathématiques — Cette page n est plus mise à jour depuis l arrêt de DumZiBoT. Pour demander sa remise en service, faire une requête sur WP:RBOT Cette page recense les articles relatifs aux mathématiques, qui sont liés aux portails de mathématiques, géométrie ou… … Wikipédia en Français

Dictionnaires et Encyclopédies sur 'Academic'

Algorithme de fouille de flots de données

Sommaire

Algorithmes

Recherche de fréquences

Comptages

Lossy-Counting

Sticky Sampling

DSM-FI

Arbres de décision

VFDT

CVFDT

Hoeffding tree

Segmentation

BIRCH

Voir aussi

Notes

Liens internes

Liens externes

Références

Bibliographie

Regardez d'autres dictionnaires:

Share the article and excerpts

Dictionnaires et Encyclopédies sur 'Academic'

Wikipédia en Français

Algorithme de fouille de flots de données

Sommaire

Algorithmes

Recherche de fréquences

Comptages

Lossy-Counting

Sticky Sampling

DSM-FI

Arbres de décision

VFDT

CVFDT

Hoeffding tree

Segmentation

BIRCH

Voir aussi

Notes

Liens internes

Liens externes

Références

Bibliographie

Regardez d'autres dictionnaires:

Share the article and excerpts

Direct link