Déduplication

Déduplication

En informatique, la déduplication (également appelée factorisation ou stockage d'instance unique) est une technique de sauvegarde de données, consistant à factoriser des séquences de données identiques afin d'économiser l'espace utilisé.

Chaque fichier est découpé en une multitude de tronçons. À chacun de ces tronçons est associé un identifiant unique, ces identifiants étant stockés dans un index. L'objectif de la déduplication est de ne stocker qu'une seule fois un même tronçon. Aussi, une nouvelle occurrence d'un tronçon déjà présent n'est pas à nouveau sauvegardée, mais remplacée par un pointeur vers l'identifiant correspondant.

La déduplication est utilisée en particulier sur des solutions du type VTL (Virtual Tape Library).

Sommaire

Méthodes de déduplication

Déduplication hors ligne

Les données à sauvegarder sont recopiées sur un espace disque tampon, et dans un deuxième temps une recherche des blocs en double est réalisée. Cette méthode nécessite un espace de stockage important. C'est le principe de la solution Falconstore par exemple.

Déduplication en ligne

Les données à sauvegarder sont analysées "à la volée", et une table d'index des blocs identiques est gérée (solution EMC Data Domain ou IBM ProtecTIER)[1].

Déduplication à la source

Des agents répartis sur les serveurs à sauvegarder analysent les données à la source (solution EMC Avamar notamment)[1]

Principe

L'index créé lors de la sauvegarde est utilisé pour restituer les données au bon endroit. Les fichiers ou les blocs en double dans l'index sont dupliqués au moment de la restauration. L'expérience montre qu'en pratique le taux de déduplication augmente dans le temps, car en pratique peu de données changent entre deux sauvegardes totales. D'autre part le taux de réduction obtenu dépend fortement du type de données traitées[2].

Inconvénients de la déduplication

  • Risque de perte de données car les données ne sont pas en double et donc le support utilisé doit être fiable. La réduction de la taille des sauvegardes est un avantage par rapport à d'autres types de sauvegarde, mais au détriment de la sécurité des données. Par conséquent, il est recommandé de créer des doubles des supports de stockage.
  • Perte du format d'origine, ce qui dans certains cas pose des problèmes de conformité aux contraintes légales (par exemple Bâle II). Certaines solutions proposent pour cela de générer les données sensibles sur cartouche au format initial, pour s'affranchir d'une éventuelle défaillance de la VTL par exemple.

Avantage de la déduplication

  • L'avantage le plus important est la réduction d'espace occupé par les sauvegardes : selon le cabinet Gartner, cette technologie permet de diviser par 20 voire par 30 les besoins en espace de stockage[3].
  • Un avantage indirect, conséquence du précédent, est la diminution de la bande passante nécessaire à la sauvegarde dans le cas de la déduplication à la source[4].

Solutions de déduplication

Logiciels libres (ou assimilés)

Logiciels propriétaires de déduplication à la cible (VTL ou Stockage disque)

Les VTL (les Virtual Tape Libraries, ou bandothèques virtuelles, présentent aux systèmes l'équivalent d'un ou plusieurs lecteurs de bandes, avec des capacités de bandes virtuelles modifiable. Une solution de sauvegarde supplémentaire est en général nécessaire.)

  • FalconStor
  • Rocksoft (Adic/Quantum)
  • Sepaton

Le Stockage Disque (les solutions présentent au systèmes un disque ou dossier en partage réseau, utilisable directement, ou bien une solution complète de sauvegarde exploitant la déduplication de manière exclusive)

  • Asis (NetApp) (Stockage disque)
  • IBM ProtecTIER, (ex Diligent) (Stockage disque)
  • EMC Avamar (Solution de sauvegarde complète)
  • EMC Datadomain (Stockage disque)
  • Symantec PureDisk (Solution de sauvegarde complète)

Logiciels propriétaires de déduplication à la source (agent sur le serveur à sauvegarder)

  • ATEMPO HyperStream Server (HSS)
  • EMC Avamar
  • Symantec PureDisk
  • Symantec NetBackup (Media Server Deduplication Option)

Logiciels propriétaires de déduplication à la source (sans agent sur le serveur à sauvegarder)

  • dataStor Shield Enterprise Protection Server
  • Storex Storex Protek
  • Tandberg Data AccuGuard

Voir aussi

Sur les autres projets Wikimedia :

Notes et références

Liens externes



Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Déduplication de Wikipédia en français (auteurs)

Игры ⚽ Нужна курсовая?

Regardez d'autres dictionnaires:

  • Deduplication — De*du pli*ca tion, n. [Pref. de + duplication.] (Biol.) The division of that which is morphologically one organ into two or more, as the division of an organ of a plant into a pair or cluster. [1913 Webster] …   The Collaborative International Dictionary of English

  • Deduplication — The term deduplication refers generally to eliminating duplicate or redundant information. Data deduplication, in computer storage, refers to the elimination of redundant data Record linkage, in databases, refers to the task of finding entries… …   Wikipedia

  • deduplication — The removal of names and addresses that appear in a customer or prospect list more than once. Duplicate records often occur because data is collated from a variety of sources. Furthermore, names and addresses are not always listed in exactly the… …   Big dictionary of business and management

  • deduplication — noun The elimination of redundant duplicate data …   Wiktionary

  • déduplication — (dé du pli ka sion) s. f. Terme de botanique. Dédoublement. ÉTYMOLOGIE    Dé.... préfixe, et duplication …   Dictionnaire de la Langue Française d'Émile Littré

  • deduplication — /di:ˌdju:plɪ keɪʃ(ə)n/ noun removing duplicate entries from a database …   Marketing dictionary in english

  • deduplication — …   Useful english dictionary

  • Data deduplication — In computing, data deduplication is a specialized data compression technique for eliminating coarse grained redundant data. The technique is used to improve storage utilization and can also be applied to network data transfers to reduce the… …   Wikipedia

  • Data-Deduplication — Deduplizierung; Datendeduplizierung …   Universal-Lexikon

  • NetVault Backup — Quest Netvault Backup™ Stable release 8.5.3 / December 2010 Operating system cross platform Type Backup License Proprietary …   Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”