VEEAM B&R v9.5 – Les Appliances de déduplication – Bonnes pratiques

Par défaut

L’idée de cet article n’est pas de rentrer dans le débat du « Oui ou Non » utiliser une baie de déduplication. Nous allons aborder tous les paramètres de configuration spécifique aux 4 modèles supportés par VEEAM B&R V9.5. (Dell EMC Datadomain, HPE StoreOnce, Exagrid, Quantum DXI)

Toutefois si vous êtes en manque de débat philosophique à la machine à café, il y a là un vrai sujet !

Chaque modèle (ou Appliance de déduplication) évolue au fil du temps avec ces avantages et ces inconvénients (qui ne sont pas toujours purement technique), on pourrait également parler de REFS mais je m’égare déjà.

L’instant Wikipédia ! La déduplication

Tout d’abord, il est difficile de démarrer ce sujet sans la définition de cette technologie d’optimisation de l’espace de stockage.

Chaque fichier est découpé en une multitude de tronçons. À chacun de ces tronçons est associé un identifiant unique, ces identifiants étant stockés dans un index. L’objectif de la déduplication est de ne stocker qu’une seule fois un même tronçon. Aussi, une nouvelle occurrence d’un tronçon déjà présent n’est pas à nouveau sauvegardée, mais remplacée par un pointeur vers l’identifiant correspondant. La déduplication (également appelée factorisation ou stockage d’instance unique) est une technique de stockage de données, consistant à factoriser des séquences de données identiques afin d’économiser l’espace utilisé.

Pourquoi utiliser une appliance de déduplication ? 

Les Appliances de déduplication fournissent à la fois des taux de compression et de déduplication élevés, ce qui permet de conserver les données pendant de longues périodes. (Un effet radicale sur le coût au To lorsque vous avez des contraintes de rétentions très longues ou tout simplement un volume de sauvegarde important). 

Voici un bref résumé des avantages / inconvénients de l’utilisation des appliances de déduplication comme présenté dans le webinar « Veeam Backup Repository Best Practice 2017«  

 

Je vous invite, aussi à consulter un très bon article d’Emmanuel Forgues sur la déduplication:

EXIT COST d’une solution utilisant de la déduplication propriétaire

Il est important d’avoir en tête ces principes

Dans un Design « VEEAM » idéal, ce type de baies est un stockage secondaire de sauvegarde. Un stockage primaire avec des performances plus importantes est conseillé (mais évidement avec un coût plus important pour les volumétries importantes). 

 

Avec les appliances de déduplication, les performances en écriture peuvent varier en fonction du modèle, du protocole et de l’architecture de l’infrastructure de sauvegarde.  

Veeam recommande de toujours utiliser une des baies de déduplication intégrée et testée avec leur solution. C’est-à-dire une de ses 4 baies : 

  • Dell EMC Data Domain (DDBoost API) 
  • HPE StoraOnce (Catalyst API) 
  • Exagrid (On-Board Data Mover) 
  • Quantum DXI  (On-Board Data Mover) 

Dans les cas des baies EMC DataDomain et HPE StoreOnce, les licences « DDBoost » et « Catalyst » sont fortement conseillées dans de nombreux « use case ».

Les baies ne disposant pas de Datamover VEEAM Intégré demandent une attention particulière. Dans tous les cas pour atténuer les problématiques liées à ces appliances, suivre les bonnes pratiques « VEEAM » sont une nécessité.  

Attention : Ces bonnes pratiques s’appliquent à la version V9.5 de VEEAM et n’ont pas toujours été identiques dans les anciennes versions (V7,V8). Il est donc possible que certaines de vos politiques actuelles soient encore configurées avec des paramètres qui ne sont plus d’actualité. 

Configuration Globale

Voici la configuration par défaut des baies de déduplication comme « backup Repository ». Nous verrons ensuite des spécificités liées à chaque modèle. 

Pour la configuration des « Jobs » de backup (Edit Job, Storage, Advanced), voici les paramètres à configurer : 

 

Pour la configuration du « Repository » de backup (Edit Repository, Advanced), voici les paramètres à configurer : 

 

Voici la configuration particulière pour chaque constructeur de baies de déduplication, nous allons commencer par les baies qui ne disposent pas de gateway VEEAM intégré. 

Un serveur « Gateway » est un composant de l’infrastructure de sauvegarde VEEAM qui « relie » le serveur de sauvegarde et le « Repository » de sauvegarde. Le serveur de passerelle est requis si vous déployez les types de « Repository » de sauvegarde suivants : 

  • Dossiers partagés 
  • Appliance EMC DataDomain et HPE StoreOnce 

 

Dell EMC Datadomain 

 La Technologie EMC DDBoost permet le support par VEEAM des fonctionnalités suivantes : 

  • Distributed Segment Processing 
  • Advanced Load Balancing and link Failover 
  • Virtual Synthétics 
  • In-Flight Data Encryption 
  • Per Storage Unit Stream 

Attention : La réplication DataDomain n’est pas supportée depuis VEEAM V8. Ce sera visiblement le cas en V10. 

Limitations EMC DataDomain 

  • L’utilisation d’une baie EMC Data Domain avec DD Boost ne garantit pas l’amélioration des performances du travail. Il réduit la charge sur le réseau et améliore le débit du réseau.
  • Data Domain requiert au moins 1 Gbit / s de réseau et 0% de perte de données de paquets entre le serveur « Gateway » et l’appliance Data Domain. Dans le cas contraire, la consistance des données ne peut être garantie. 
  • DataDomain ne supporte pas la méthode de sauvegarde « Reverse Incremental ». Ne pas activer cette méthode.
  • Vous ne pouvez pas utiliser une Appliance DataDomain comme source ou cible pour les « File Copy Job ».
  • Lorsque vous créez un travail de sauvegarde destiné à une appliance Data Domain, Veeam Backup & Replication vous propose de passer à des paramètres « Optimised Job » et d’utiliser le bloc de données de 4 Mo pour le traitement des données de machine virtuelle. Il est recommandé d’utiliser des paramètres « Optimised Job ». Les blocs de données de taille importante produisent une table de métadonnées plus petite qui nécessite moins de ressources de mémoire et de processeur à traiter. 
  • La longueur des chaînes de sauvegarde forward incremental and forever forward incremental (chaînes qui contiennent une sauvegarde complète et un ensemble de sauvegardes incrémentielles ultérieures) ne peut pas dépasser 60 points de restauration. Pour surmonter cette limitation, planifiez des sauvegardes complètes (actives ou synthétiques) afin de diviser la chaîne de sauvegarde en séries plus courtes.
  • Pour les appliances EMC Data Domain fonctionnant avec Fibre Channel, vous devez définir explicitement le serveur « Gateway » qui communiquera avec l’Appliance. En tant que serveur « Gateway », vous devez utiliser un serveur Microsoft Windows ajouté à l’infrastructure de sauvegarde et avoir accès à EMC Data Domain via Fibre Channel. 

DDBoost 

Autant dire que l’utilisation de DDBoost est fortement conseillée, voir obligatoire dans de nombreux cas. 

 

DDBoost permet les fonctionnalités suivantes : 

  • Déduplication côté source entre le serveur « Gateway » Veeam et l’appliance DataDomain. Cela réduira la quantité de données envoyées sur le réseau à l’appliance. 
  • Meilleure parallélisation LAN, puisque DDBoost gère son propre équilibrage de charge réseau (Algorithmes considérés comme plus efficaces que l’agrégation de liens réseau standard) 
  • Transformations de fichiers Veeam transparente comme « synthetic full » ou « forever forward incremental » 
  • DDBoost peut être utilisé via SAN Fibre Channel, fournissant ainsi une sauvegarde s’affranchissant totalement du LAN. (LAN-free backup). 

Limitations : 

  • L’option « Hardware assisted encryption » est disponible via DDBoost et doit être configurée dans les paramètres du « repository ».  Si cette option est activée au niveau du « Job », l’efficacité de réduction sera considérablement dégradée. 
  • Pour les appliances EMC Data Domain fonctionnant avec Fibre Channel, vous devez définir explicitement le serveur « Gateway » qui communiquera avec l’Appliance. En tant que serveur « Gateway », vous devez utiliser un serveur Microsoft Windows ajouté à l’infrastructure de sauvegarde et avoir accès à EMC Data Domain via Fibre Channel. 

Accelerated Restore of Entire VM 

Ce mécanisme est activé par défaut pour la restauration des VM complètes. Mais pensez à vérifier qu’il est bien activé. Plus d’infos sur le fonctionnement de ce mécanisme ici :

https://helpcenter.veeam.com/docs/backup/vsphere/emc_dd_accelerated_restore.html?ver=95 

 

HPE StoreOnce 

Deux modes disponibles : 

  • Souces side Data Deduplication  –> Licences Catalalyst 
  • Target Side Data Deduplication (Catalyst Store ou CIFS Store) –> Licences Catalalyst pour le catalyst store 

La Technologie StoreOnce Catalyst permet le support par VEEAM des fonctionnalités suivantes : 

  • Synthétic Full Backups 
  • VPower-Enabled Operations (Instant VM Recovery, SureBackup and On-Demand Sandbox) 
  • Accelerated Data Recovery (Instant VM Recovery, file-level recovery and application items recovery with Veeam Explorers) 
  • Wan-based Catalyst Store support 

 Attention : La réplication HPE StoreOnce n’est pas supportée. 

Comme pour une baie DataDomain, vous devez, pour les appliances HPE StoreOnce fonctionnant sur Fibre Channel, définir explicitement le serveur « Gateway » pour communiquer avec HPE StoreOnce. En tant que serveur « Gateway », vous devez utiliser un serveur Microsoft Windows ajouté à l’infrastructure de sauvegarde et avoir accès à HPE StoreOnce via Fibre Channel. 

Voici une liste de limitations pour l’HPe StoreOnce, mais pour plus de détails, je vous renvoie vers le site de VEEAM (les liens sont en bas de page).

Limitations pour les Appliances HPE StoreOnce  

  • Les fichiers de sauvegarde sur HPE StoreOnce sont exclusivement verrouillés par un travail ou une tâche. Si vous démarrez plusieurs tâches à la fois, VeeamBackup & Replication effectuera une tâche avec une priorité plus élevée et ignorera ou terminera une tâche avec une priorité inférieure. Dans VeeamBackup & Replication, les tâches ont les niveaux de priorité suivants (en commençant par la priorité la plus élevée) : 1 – restore > 2 – job de sauvegarde > 3 – copie de sauvegarde. Par exemple, si les travaux de copie de sauvegarde et de sauvegarde démarrent simultanément, VeeamBackup & Replication terminera la tâche de copie de sauvegarde. 
  • Lorsque vous créez un travail de sauvegarde destiné à une appliance HPE StoreOnce, VeeamBackup & Replication vous propose de passer à des paramètres « Optimized Job » et d’utiliser le bloc de données de 4 Mo pour le traitement des données de machine virtuelle. Il est recommandé d’utiliser la fonction « Optimized Job ». Les grands blocs de données produisent une table de métadonnées plus petite qui nécessite moins de ressources de mémoire et de processeur à traiter.
  • Le « Repository » HPE StoreOnce fonctionne toujours dans le mode « Use per-VM backup files  »
  • Les appliances HPe StoreOnce ne supportent pas la méthode de sauvegarde « Reverse Incrémental »
  • Le « Repository » HPE StoreOnce ne prend pas en charge l’option Defragment and compact full backup file (pour les travaux de sauvegarde et de copie de sauvegarde).
  • Vous ne pouvez pas procéder à un « Quick Migration » pour les VMs Hyper-V démarrées à l’aide de la fonctionnalité « Instant Recovery » sur une appliance HPe StoreOnce. 
  • Vous ne pouvez pas utiliser les appliances de sauvegarde HPe StoreOnce comme repository de sauvegarde pour les travaux de sauvegarde VEEAM Endpoint (Serveurs Physiques). C’est toutefois possible pour les copies de sauvegarde (Backup Copy Job).
  • Il est possible d’utiliser les appliances StoreOnce pour la fonctionnalité « File Copy Job »
  • Vous ne pouvez pas copier manuellement des fichiers de sauvegarde (VMK, VIB et VRB) sur un « repository » StoreOnce. Pour les copier, il faut utiliser les travaux de copie de sauvegarde.
  • Vous ne pouvez utiliser un « repository » en tant que référentiel Cloud »
  • HPE StoreOnce a une limite sur le nombre de fichiers ouverts simultanément. En raison de cette limite, la longueur maximale des chaînes de sauvegarde sur une appliance est également limitée et dépend du modèle de stockage particulier: 

 Quantum DXI 

Le support des baies Quantum DXI dans les baies supportées par VEEAM est intéressant. Je n’ai pas encore toutes les informations à ce sujet (et pas encore de retours pratiques) mais sur le papier, cela se présente pas mal. La solution est déjà supportée par VEEAM en V9.5 mais apparaîtra dans l’interface VEEAM (lorsque vous souhaitez ajouter une appliance dans les repository) à partir de la V10. 

 

Je n’ai également pas encore les limitations éventuelles des modèles Quantum. Je ferai des modifications de l’article dès que j’aurais validé les informations. 

Exagrid 

VEEAM B&R travaille avec une baie exagrid comme avec un repository « Linux ». VEEAM deploie le composant « Veeam Data Mover » sur l’appliance Exagrid. Le service « Data movers » (transport) établie une connexion avec le service Data Mover du « Backup Proxy » et active le transfert de data optimisé. De plus, l’appliance Exagrid dispose d’une « landing zone » intégré à la solution permettant l’utilisation de l’ensemble des fonctionalités de VEEAM. Certainement un des modèles pouvant le plus facilement se passer d’un stockage de sauvegarde primaire. 

 

Limitations

Les Appliances de déduplication ExaGrid ont une moins bonne déduplication lorsque le traitement multitâche s’effectue dans un seul travail de sauvegarde. Le traitement d’une seule tâche à la fois dans chaque « Job » de sauvegarde génère une meilleure déduplication. Si vous décidez d’utiliser ExaGrid comme « Repository » de sauvegarde, toutes les tâches exécutées dans un « Job » de sauvegarde doivent être traitées séquentiellement, une par une. Vous devez limiter les tâches simultanées maximales à 1 dans les propriétés du « Repository » de sauvegarde utilisées avec les appliances ExaGrid.

Pour activer le « parallel processing » pour les « repository » ExaGrid, vous devez configurer le « repository » et les « jobs » de la manière suivante :

  • Repository

Créez au moins un partage sur chaque appliance ExaGrid. Activez l’option de transport « ExaGrid-Veeam Accelerated Data Mover » pour le partage créé. Laissez les paramètres de compression et de déduplication par défaut pour le partage.
Dans Veeam Backup & Replication, configurez un « repository » de sauvegarde de dossiers partagés et pointez-le sur le partage créé sur l’appliance ExaGrid. Définissez l’option « Limiter les tâches simultanées maximales » sur 10 tâches. Vous pouvez par la suite modifier ce paramètre en fonction des performances observés.

  • Jobs
  1. Nombre de machines virtuelles par jobs : divisez le nombre total de machines virtuelles entre les tâches de sauvegarde en fonction de la capacité de l’appliance ExaGrid.
  2. Paramètres du travail de sauvegarde:
    Utilisez la méthode de sauvegarde « forward incremental backup »
    Activez les sauvegardes full synthétiques et planifiez leur exécution chaque semaine.
    Activez les sauvegardes Active Full et planifiez leur exécution tous les mois.
  3. Cible de sauvegarde: Affectez les jobs aux « repository » de sauvegarde ExaGrid en fonction de la capacité de l’appliance ExaGrid.

 

Documentation VEEAM et Constructeurs : 

Veeam Backup & Replication Best Practices 

https://bp.veeam.expert/ 

Veeam Repository Best Practice : 

https://www.veeam.com/fr/videos/backup-repository-best-practices-2017-10582.html 

EMC Data Domain Storage with Veeam Backup & Replication: 

https://www.veeam.com/kb1956 

EMC DataDomain Accelarated Restore Of Entire VM  

https://helpcenter.veeam.com/docs/backup/vsphere/emc_dd_accelerated_restore.html?ver=95 

Accelerated Restore of Entire VM 

https://helpcenter.veeam.com/docs/backup/vsphere/emc_dd_accelerated_restore.html?ver=95

 HPe StoreOnce : 

https://helpcenter.veeam.com/docs/backup/hyperv/deduplicating_appliance_storeonce.html?ver=95 

Exagrid :

https://helpcenter.veeam.com/docs/backup/vsphere/deduplicating_appliance_exgrid.html?ver=95

http://www.exagrid.com/exagrid-products/supported-data-backup-applications/veeam-backup/

Webinar VEEAM : 

https://www.veeam.com/fr/videos/backup-repository-best-practices-2017-10582.html 

Share This...Buffer this pageShare on LinkedInTweet about this on TwitterShare on Google+Email this to someonePin on PinterestShare on Facebook

Atlantis USX – Storage is Software

Par défaut

Atlantis USX – The New Order of Storage Freedom

Atlantis est une solution purement Software, elle fournit une solution de stockage par logiciel (100%), du pur SDS ! Atlantis USX Unified Software-Defined Storage est une solution intelligente de stockage définie par logiciel. Elle peut fournir instantanément des ressources de stockage pour toute application utilisant plus efficacement une infrastructure classique existante et permet de renforcer ou de faire évoluer cette infrastructures vers des solutions hyper-convergées.

En exploitant la puissance de traitement (calcul, mémoire et flash) plus rapide et moins cher, Atlantis USX élimine les inefficacités et les contraintes des solutions de stockage legacy (traditionnel) du SAN et du NAS matériel. Atlantis USX 3.1 optimise le stockage et améliore les performances pour supporter les workloads tels que les applications critiques, stockage de fichiers, VDI, SBC, et sur n’importe quel hyperviseur.

USX supporte VMware, vSphere et Citrix XenServer.

La solution Atlantis est en cela très intéressante car elle propose conjointement une couche de virtualisation, à laquelle il est possible d’ajouter de nouvelles fonctionnalités au stockage existant (VVOL), et de proposer une solution complète SDS Software-Defined Storage.

Atlantis permet de mettre en commun et de proposer une abstraction du stockage (NAS, SAN et DAS) afin de créer des volumes destinés aux applications VM, VDI… La solution offre également de nouvelles fonctionnalités comme le HA, la déduplication, la mise en cache, la compression…

Atlantis solution est aujourd’hui distribuée sous forme d’appliance virtuelle OVF. La phase d’installation et de configuration est relativement simple, elle nécessite uniquement une bonne compréhension de certains concepts de base.

Atlantis USX 3.1 GA est sortie le 16 octobre 2015.

AtlantisUSX_myvmworld

 

Atlantis Computing propose à ses clients deux approches très simples. La première permet de s’intégrer dans un environnement virtualisé et de consolider le stockage existant. La seconde permet de fournir directement sous forme d’appliance hyper convergée (HyperScale), une infrastructure complète et Full Flash. Les deux approches utilisent le même logiciel, le même moteur : Atlantis USX.

hyperscale_Myvmworld

Comment fonctionne Atlantis ?

Atlantis introduit une couche logicielle entre l’hyperviseur et les machines virtuelles afin de fournir une file d’attente optimisée permettant, grâce à une déduplication en ligne (réalisée par les appliances virtuelles) de réduire la latence des I/O, mais également de réduire la capacité de stockage nécessaire aux machines virtuelles consommant le Datastore présenté par Atlantis.

Une fois l’OVF téléchargé et déployé sur l’infrastructure virtuelle, Atlantis USX déploie de manière automatisée deux types de machine virtuelle : les Volumes VM et les Services VM. Ces deux machines virtuelles sont fondamentalement différentes car elles possèdent des rôles bien distincts.

La flexibilité et la souplesse du logiciel permet à Atlantis de pouvoir proposer plusieurs types de volume en fonction du cas d’usage.

  • Hyper-Convergé (Hybrid ou All Flash),
  • Hybrid,
  • In-Memory,
  • All Flash,
  • Simple Hybrid, Simple In-Memory, and Simple All Flash.

USX volume comparison table-Myvmworld

Volume VM

Le volume VM est une machine virtuelle (Ubuntu) entièrement autonome possédant toute l’intelligence d’Atlantis : déduplication en ligne, compression, réplication, cloning, snapshot, etc. Elle représente le cœur de la solution et permet de présenter un Datastore à l’hyperviseur.

Cette machine virtuelle, va exporter au travers du réseau, le Datastore sous deux protocoles NFS ou iSCSI.

Du point de vue des machines virtuelles, le Datastore USX est perçu comme un DataStore partagé et les lectures / écritures se font directement au travers de ce Datastore.

Atlantis_myvmworld

Architecture HCI

Service VM

Les services VM sont utilisés afin de pouvoir distribuer la couche de « back end » des volumes VM au niveau de plusieurs hyperviseurs. La donnée est donc répartie sur les différents hyperviseurs grâce au service VM, l’accès au Datastore se fera toujours au travers du Volume VM.

USX components_myvmworld

Source: https://help.atlantiscomputing.com/usx3

Pour les volumes de type Hyper-Converged (Hybrid ou All Flash), hybride, et en mémoire, Atlantis déploie aussi sur chaque hôte une VM appelée Service VM. Ces Services VM permettent d’exporter des ressources locales sous-jacente à l’hyperviseur (RAM, mémoire flash locale, DAS, JBOD, SSD) de chaque hôte et d’agréger ces ressources en un pool virtuel. Chaque service VM peut servir plusieurs volumes.

Chaque service VM peut exporter jusqu’à deux des ressources suivantes :

  • mem (RAM uniquement).
  • DISK (DAS seulement).
  • FLASH (flash local uniquement).
  • mem + disque (RAM + DAS).
  • mem + flash (Flash RAM + local).

 Deduplication In-line In-Memory

La Volume VM va procéder une déduplication en ligne sur des blocs de données fixes de 4KB (< 200 microsecondes de latence par opération IO). Avant d’écrire sur le système de fichier embarqué en mémoire (DedupFS), les données en écriture sont segmentées en block de 4KB. L’algorithme propriétaire d’Atlantis permet d’identifier si un bloc de données de 4KB est déjà présent ou non dans le système de fichier. A partir de son algorithme, Atlantis utilise un mécanisme de Hash (MD5 HASH) qui couvre un domaine de collision de 91 ExaByte par volume pour 0,0001% de probabilité. 

deduplication_myvmworld

Si celui-ci n’est pas présent, un nouvel inode est créé dans le DedupFS, la table de blocs est mise à jour, une nouvelle entrée est créé et  identifiée de façon unique, ce block (en mémoire) est copié sur le tiers de performance (SSD, PCIe Flash, RAM). Les inodes, ainsi que la table des blocs, sont copiés sur le tiers de performance, puis l’acquittement est envoyé au niveau de l’application. Si en revanche le bloc de 4KB est déjà présent dans le système de fichier, ce bloc de 4KB n’est pas copié sur le tiers de performance, il est acquitté immédiatement, après que les metadata (inode + reference count) soient mises à jour et copiées sur le tiers de performance, le tiers de performance jouera le rôle de Write Caching et de Read Buffer.

La déduplication est construite à partir d’un journal en trois dimensions :

  • 1 pour les métadonnées dedup,
  • 1 pour les blocs Rewired,
  • 1 pour le système de fichiers (DedupFS).

La déduplication est implémentée par volume, elle n’est pas globale.

x-lzma-compressed-tarLes données sont compressées à partir d’un algorithme de compression sans perte LZMA, et ensuite écrites sur le tiers de performance, la compression favorise la croissance du facteur de déduplication.

L’algorithme utilisé est propriétaire et protégé par les brevets US 8996800 B2 / US 8874877 B2 / US 8732401 B2 / US 8874851 B2 /US 8868884 B2.

 

Atlantis USX dispose d’une façon unique d’exploiter la mémoire disponible à l’intérieur des Hyperviseurs pour fournir un stockage performant et optimisé. En tirant parti des ressources de la RAM (un des composants les plus performants du serveur), Atlantis USX peut effectuer en temps réel, la déduplication Inline, la compression et l’écriture. Chacune de ces fonctions réduit la quantité de données consommée, d’accélérer les IOPS et surtout de diminuer la latence.

 

Share This...Buffer this pageShare on LinkedInTweet about this on TwitterShare on Google+Email this to someonePin on PinterestShare on Facebook