Rechercher  
Les flux RSS d'Indexel.net    
publicité
publicité

Par

Thierry Lévy-Abégnoli


24/09/2008

Les multiples avantages de la déduplication de données

Synonyme de réduction des espaces disques ou du trafic réseau, la déduplication de données est réalisée soit par l'outil de sauvegarde, soit par la baie de disques cible. Son champ d'applications encore restreint devrait s'étendre progressivement.

La déduplication des données consiste à identifier, dans les données, des séquences redondantes qu'il suffit ainsi de stocker une seule fois. La granularité d'un tel processus descend au niveau des blocs de données, éventuellement de tailles variables. Les motivations sont multiples : gain d'espace disque consommé par les sauvegardes ou par des applications de production, réduction de la charge sur le réseau, allègement des procédures de sauvegarde ou, au contraire, des restaurations. Associées aux volumes des données, elles orientent le choix d'une technologie - déduplication à la source ou à la cible, à la volée ou en mode batch - dont chacune possède ses avantages et ses inconvénients.

 

Quoi qu'il en soit, toutes sont apparues très récemment, surtout chez les grands constructeurs comme EMC, HP ou NetApp, dont certaines annonces remontent à l'été dernier. Pourquoi seulement en 2008 ? D'abord parce que la déduplication consomme d'importantes ressources mémoire et CPU, désormais disponibles à moindre coût. Ensuite parce que le phénomène montant de la virtualisation des serveurs attise ce besoin. Les images des différentes machines virtuelles sont en effet souvent presque identiques dont aisément déduplicables.

 

Déduplication à la source : par l'outil de sauvegarde

 

La déduplication à la source est réalisée par l'outil de sauvegarde, durant celle-ci. NetBackup Puredisk Storage de Symantec ou Avamar de EMC réalisent cette fonction. EMC vient en outre d'intégrer la technologie Avamar (issu d'un rachat) dans son outil Networker. "Le principal avantage de ce procédé, c'est la réduction d'un facteur d'environ 300 de la charge réseau, SAN ou LAN, générée par la sauvegarde", explique Miguel Dos Santos Lopes (photo), responsable produits Avamar chez EMC. La cible principale : les sites distants raccordés via des tuyaux modestes, ainsi que les serveurs virtualisés, afin de réduire les flux d'entrées/sorties sur les cartes réseau. L'espace disque mobilisé serait quant à lui divisé par 50 à 100. Ce ratio important est favorisé par le fait qu'à la source, l'outil peut identifier la nature des données. Au chapitre des inconvénients : les délais de restauration sont supérieurs à une sauvegarde sans déduplication ou réalisée sur la cible. D'autre part, le procédé n'est pas transparent vis-à-vis de l'outil de sauvegarde.

 

Déduplication à la cible : par la librairie virtuelle ou par un appliance

 

Au contraire, la déduplication à la cible est réalisée sur le système de sauvegarde. "Le procédé est moins efficace qu'à la source car le format de données vu par la cible est celui de l'outil de sauvegarde, c'est pourquoi le ratio de compression n'excède pas 20", estime Michel Parent (photo), chef produit solutions de stockage chez HP.

 

Ce système cible est généralement une librairie virtuelle de cartouches dont la base matérielle est une baie de disques standard. Chez HP, il s'agit des VLS (haut de gamme) et des D2D (entrée de gamme). Chez EMC, c'est la série EDL, Tous ces produits viennent tout juste d'être déclinés dans des versions offrant la déduplication. NetApp se distingue pour sa part en dédupliquant non seulement des sauvegardes mais aussi des données actives. Et cela, sur l'ensemble de ses baies et contrôleurs.

 

"Il s'agit généralement de serveurs de fichiers car pour les bases Exchange ou SQL, les entreprises préfèrent attendre de mieux connaître l'impact de la déduplication sur ce type de données", estime Matthieu Jamet (photo), consultant déduplication et virtualisation chez NetApp. Il est même possible de connecter un contrôleur NetApp sur une baie EMC afin de lui apporter la fonction de déduplication. Cette déduplication prise en charge par le système cible relève elle-même de deux précédés différents : à la volée ou en post processing (ou batch).

 

Demain : en temps réel sur des données de production

 

La première étant réalisée en temps réel, elle est gourmande en mémoire et en puissance CPU, ce qui la limite à des volumes de l'ordre de 10 To. La seconde, typiquement réalisée la nuit, quand les données dorment, n'est pas limitée en espace disque mais nécessite que cet espace soit capable d'accueillir les données avant déduplication. Seul le mode batch est pertinent lorsqu'il s'agit de dédupliquer des données vivantes, car il faut impérativement éviter de perturber la production.

 

La déduplication n'en est qu'à ses prémisses. A moyen terme, il est probable qu'on la réalisera en temps réel sur des données de production. D'ici là, des étapes plus modestes seront franchies. "Par exemple, on fera de la réplication distante de librairie à librairie, tout en dédupliquant", prévoit Michel Parent.

 

Lire aussi :

Sauvegarde en ligne : les PME à la traîne

Microsoft Hyper-V face à VMware Infrastructure

Les plans de reprise d'activité désormais accessibles aux PME


Envoyer
à un ami

Ecrire à la
rédaction

Imprimer
l'article
publicité
Lire aussi

Les plans de reprise d'activité désormais accessibles aux PME

70 projets pour l'informatique de demain

Microsoft Hyper-V face à VMware Infrastructure

Sauvegarde en ligne : les PME à la traîne

Futuroscope de Poitiers : l'expérience DXi 3500

  L'actualité
Newsletter
Abonnez-vous gratuitement à notre newsletter hebdomadaire
  >> valider <<
Glossaire

Un terme technique, une interrogation, l'informatique de A comme adresse IP à Z comme zip, découvrez notre glossaire.

>> cliquez ICI <<
  Appel à témoignage

Pour partager votre expérience avec nous

>> cliquez ICI <<
Toutes les actualités

Lenovo dévoile une station de travail portable à deux têtes !

Nvidia invente des lunettes 3D actives pour moniteurs LCD

Hausse du chômage des informaticiens mais difficulté des entreprises à les recruter

Informatique à la demande : le grand retour aux contrats de maintenance ?

OpenSolaris 2008.11 et FreeBSD 6.4 : les alternatives ?

Neuf entreprises sur dix satisfaites du SaaS

|  Contact  || Qui sommes nous ?  || Conditions d'utilisation  || Publicité | | Indexel.com |