Prédiction par reconnaissance partielle

Prédiction par reconnaissance partielle: Les algorithmes de prédiction par reconnaissance partielle (ou PPM pour Prediction by Partial Matching) constituent une famille d'algorithmes de compression de données sans perte, statistiques et adaptatifs inventée par John Cleary et Ian Witten en 1984.

Sommaire

1 Principe

2 Propriétés

3 Performances

4 Variantes

4.1 PPM basé sur d'autres symboles que des octets

4.2 Modélisation de Markov dynamique

4.3 Pondération de contextes

5 Autres applications

6 Voir aussi

6.1 Articles connexes

Principe

La prédiction par reconnaissance partielle se base sur une modélisation de contexte pour évaluer la probabilité des différents symboles.

Usuellement, le contexte est un ensemble de symboles déjà rencontrés dans la source de données (fichier, flux). La longueur du contexte utilisé pour la prédiction confère son ordre au PPM. On note PPM(N) un PPM d'ordre N. Par exemple, un PPM(1) est un PPM d'ordre 1 ; c'est-à-dire qu'il prédit le motif suivant en fonction du seul symbole précédent. On note PPM* un PPM d'ordre infini ; c'est-à-dire qu'il prédit le motif suivant en fonction de l'intégralité de la source de données déjà analysée.

Le contexte permet de déterminer la probabilité des différents symboles grâce à un historique des entrées : à chaque contexte sont associées les fréquences d'apparition des différents symboles.

En général, plus le contexte utilisé est long, meilleure est la prédiction.

Un problème posé par l'utilisation de longs contextes est le cas de l'historique vide : lorsqu'un contexte donné est rencontré pour la première fois. Les deux solutions les plus fréquemment apportées sont l'utilisation de probabilités fixées à l'avance et le changement dynamique de l'ordre du prédicteur. Par exemple, si un PPM(8) ne dispose pas d'historique pour un contexte de longueur 8, il cherche un historique pour un contexte de longueur 7, puis 6... jusqu'à trouver un historique ou à tomber à l'ordre -1, auquel cas des probabilités fixées à l'avance sont utilisées.

La prédiction obtenue sert d'entrée à un codage entropique, le plus souvent un codage arithmétique, bien que n'importe quel codage entropique (codage de Huffman...) puisse être utilisé.

Plusieurs PPM peuvent être combinés entre eux et avec d'autres types de prédicteurs par pondération de contextes, ce qui permet d'étendre le domaine modélisé, ou d'améliorer la précision de la modélisation.

Propriétés

PPM est un algorithme symétrique. Cela signifie qu'il fait la même chose à la compression et à la décompression. Cela signifie aussi que sa vitesse est la même dans les deux cas (si l'on ne tient pas compte des subtilités des entrées-sorties), et que la quantité de mémoire nécessaire (pour stocker l'historique et les contextes) est identique.

La plupart des implémentations de PPM mettent à jour leur modèle au cours de la compression (on parle de compression statistique adaptative), ce qui rend l'algorithme capable de traiter des flux de données (streaming) car il n'est jamais nécessaire de connaître les symboles à venir.

Performances

Les taux de compression obtenus par les PPMs sont parmi les meilleurs obtenus aujourd'hui, notamment sur le texte.

La quantité de mémoire nécessaire varie de très peu à énormément. Un PPM(0) nécessite très peu de mémoire, alors qu'un PPM* peut exploiter une quantité infinie de mémoire.

La vitesse, notamment de la décompression, est le point faible des PPMs. En effet, contrairement à des algorithmes asymétriques (comme la famille des Lempel-Ziv), pour lesquels la décompression comporte beaucoup moins d'étapes que la compression, les PPMs ont une décompression strictement identique à la compression.

Variantes

PPM basé sur d'autres symboles que des octets

Bien que la plupart des implémentations de PPM travaillent sur des octets, pouvant ainsi traiter n'importe quel type de fichier sans adaptation particulière, certaines variantes utilisent d'autres types de symboles. Une variante spécialisée sur le texte consiste à utiliser des mots comme symboles, plutôt que des caractères.

Modélisation de Markov dynamique

Article détaillé : Modélisation de Markov dynamique.

Une approche similaire est utilisée par les algorithmes de modélisation de Markov dynamique.

Pondération de contextes

Article détaillé : Pondération de contextes.

Afin d'obtenir des prédictions plus fiables, certains algorithmes combinent plusieurs modèles statistiques.

Autres applications

PPM est également utilisé pour l'autocomplétion des commandes dans certains systèmes Unix.

Voir aussi

Articles connexes

PPMd

Compression de données

Dmitry Shkarin

Modélisation de Markov dynamique

Pondération de contextes

v · d · m

Techniques de compression de données

Sans perte

Codage entropique Unaire · Binaire tronqué · Gamma · Delta · Omega · Zeta · Fibonacci · Levenshtein · Even-Rodeh · Stout · Golomb · Rice · Exp-Golomb · Shannon-Fano · Huffman · Shannon-Fano-Elias · Arithmétique · Par intervalle

Dictionnaire LZ77 · LZ78 · LZSS · LZW · LZO

Modélisation de contextes Modélisation de Markov dynamique (DMC) · Prédiction par reconnaissance partielle (PPM) · Pondération de contextes (CM) · Pondération de contextes arborescents (CTW)

Techniques hybrides Implode · Deflate · LZP · LZMA · ROLZ

Autres Codage par plage (RLE)

Transformations Codage différentiel (Delta) · Transformée en étoile · MTF · Transformée de Burrows-Wheeler (BWT) · Transformée par substitution de mots (WRT) · BCJ2

Avec pertes

Codage par transformation Compression par ondelettes

Autres Modulation par impulsions et codage différentiel adaptatif (ADPCM) · Compression fractale

Transformations Transformée de Karhunen-Loève (KLT) · Transformée en cosinus discrète (DCT) · Transformée de Fourier discrète (DFT) · Transformée en ondelettes discrète (DWT)

Portail de l’informatique

Catégories :
Algorithme de compression sans perte
Théorie de l'information

Contenu soumis à la licence CC-BY-SA. Source : Article Prédiction par reconnaissance partielle de Wikipédia en français (auteurs)

Игры ⚽ Нужна курсовая?

Regardez d'autres dictionnaires:

Prediction par reconnaissance partielle — Prédiction par reconnaissance partielle Les algorithmes de prédiction par reconnaissance partielle (ou PPM pour Prediction by Partial Matching) constituent une famille d algorithmes de compression de données sans perte, statistiques et adaptatifs … Wikipédia en Français
Prediction by Partial Matching — Prédiction par reconnaissance partielle Les algorithmes de prédiction par reconnaissance partielle (ou PPM pour Prediction by Partial Matching) constituent une famille d algorithmes de compression de données sans perte, statistiques et adaptatifs … Wikipédia en Français
Compression par ondelettes — La Compression par ondelettes est une technique de compression de données, bien adaptée à la compression d images. Sommaire 1 Introduction aux ondelettes 2 Algorithme ondelettes 3 Transformée ondelettes … Wikipédia en Français
PPMII — Prédiction par reconnaissance partielle Les algorithmes de prédiction par reconnaissance partielle (ou PPM pour Prediction by Partial Matching) constituent une famille d algorithmes de compression de données sans perte, statistiques et adaptatifs … Wikipédia en Français
Compression de données — La compression de données ou codage de source est l opération informatique qui consiste à transformer une suite de bits A en une suite de bits B plus courte, contenant les mêmes informations, en utilisant un algorithme particulier. Il s agit d… … Wikipédia en Français
Compression De Données — La compression de données est l opération informatique qui consiste à transformer une suite de bits A en une suite de bits B plus courte, et qui contient les mêmes informations, en utilisant un algorithme particulier. La décompression est l… … Wikipédia en Français
Compression de donnees — Compression de données La compression de données est l opération informatique qui consiste à transformer une suite de bits A en une suite de bits B plus courte, et qui contient les mêmes informations, en utilisant un algorithme particulier. La… … Wikipédia en Français
Compression informatique — Compression de données La compression de données est l opération informatique qui consiste à transformer une suite de bits A en une suite de bits B plus courte, et qui contient les mêmes informations, en utilisant un algorithme particulier. La… … Wikipédia en Français
Pondération de contextes — Les algorithmes de pondération de contextes (ou CM pour Context Mixing) constituent une famille d algorithmes de compression de données sans perte, statistiques et adaptatifs. La pondération de contextes est encore aujourd hui un domaine de… … Wikipédia en Français
PPMd — PPMd, pour Prediction by Partial Matching by Dmitry, est un compresseur de données développé par Dmitry Shkarin et Dmitry Subbotin entre 1999 et 2006. Sommaire 1 Historique 2 Usages 3 Formats de fichier … Wikipédia en Français

Dictionnaires et Encyclopédies sur 'Academic'

Prédiction par reconnaissance partielle

Sommaire

Principe

Propriétés

Performances

Variantes

PPM basé sur d'autres symboles que des octets

Modélisation de Markov dynamique

Pondération de contextes

Autres applications

Voir aussi

Articles connexes

Regardez d'autres dictionnaires:

Share the article and excerpts

Dictionnaires et Encyclopédies sur 'Academic'

Wikipédia en Français

Prédiction par reconnaissance partielle

Sommaire

Principe

Propriétés

Performances

Variantes

PPM basé sur d'autres symboles que des octets

Modélisation de Markov dynamique

Pondération de contextes

Autres applications

Voir aussi

Articles connexes

Regardez d'autres dictionnaires:

Share the article and excerpts

Direct link