Cerca
Lingue

Data Deduplication and Compression

Risparmia sullo storage evitando di sovraccaricarlo e liberando spazio su disco occupato da dati ridondanti

Una crescita dei dati non controllata porta spesso a un rapido esaurimento della capienza di storage. Questo fa sì che i team IT continuino ad aggiungere hardware, con conseguenti costi ed eccesso di risorse non necessarie. I data set duplicati sono un elemento chiave del problema. Alcuni di essi possono potenzialmente essere compressi, ma vengono invece memorizzati con le dimensioni originali occupando più spazio su disco. Un'efficace ottimizzazione della capienza di storage può aiutare a vincere queste sfide.

Il software-defined storage DataCore SANsymphony mette a disposizione due tecniche di riduzione dei dati per ottimizzare l'uso della capienza. La deduplica nello storage elimina i dati ridondati. La compressione riduce lo spazio richiesto per la loro memorizzazione. Entrambe le tecniche prevengono perdite dei dati mantenendone intatta l'integrità.

What Is Deduplication & Compression?

deduplicaLa deduplica analizza i blocchi di dati e crea un hash univoco per ognuno di essi. Se un nuovo blocco scritto su disco presenta un hash con lo stesso valore di un blocco esistente, verrà sostituito da un identificatore che si limita a puntare al blocco di dati già presente.

Più copie ridondanti dei dati possono essere sostituite con riferimenti a una singola copia, riducendo così la capienza necessaria.

La deduplica offre i vantaggi maggiori quando ci sono più blocchi degli stessi dati, creati per esempio dalla ridondanza delle snapshot o delle immagini VDI.

deduplicaLa compressione è un processo algoritmico che riduce le dimensioni dei dati identificando prima le sequenze identiche che compaiono in una riga, poi salvando solo la prima sequenza e sostituendo quelle successive identiche con le informazioni sul numero di volte in cui appaiono in una riga.

Poiché solo la prima sequenza di dati viene memorizzata così com'è, per rappresentare nuovamente le stesse informazioni serve meno spazio su disco. Il livello di compressione dipende in genere dalla natura del data set stesso, che deve essere comprimibile almeno parzialmente.

I benefici di deduplica e compressione

  • Requisiti di spazio su disco ridotti che portano a un'allocazione ottimizzata dello storage
  • Maggiori risparmi sui costi IT e aumento del ROI
  • Minore ingombro dell'hardware, con una riduzione di spazio occupato e requisiti energetici più contenuti
  • Maggiore efficienza dello storage

Two Approaches for Data Deduplication and Compression

DataCore SANsymphony mette a disposizione due approcci per realizzare la deduplica e la compressione sullo storage. È possibile scegliere l'approccio appropriato in base ai requisiti aziendali e IT.

Deduplica e compressione inline: in questo caso, la riduzione dei dati avviene prima che questi vengano scritti sul disco. SANsymphony esegue scansioni e analisi dei dati in entrata alla ricerca di potenziali opportunità di ottimizzazione ed esegue deduplica e compressione. L'elaborazione in linea riduce i requisiti di capienza del disco poiché i dati vengono deduplicati e compressi prima di essere memorizzati. Quando vengono eseguite frequenti operazioni di backup e la quantità di dati ridondati generata è elevata, si consiglia l'approccio dell'elaborazione inline, in quanto riduce le dimensioni dei dati prima di memorizzare il backup.

La deduplica e la compressione inline sono supportate solo dall'edizione EN di SANsymphony e possono essere abilitate singolarmente o insieme (duplica, compressione o entrambe) in base alle esigenze.

Deduplica e compressione post-process: in questo caso, la riduzione dei dati avviene dopo che questi sono stati scritti sul disco. SANsymphony prima memorizza i dati grezzi nel dispositivo di storage di destinazione. Poi questi dati vengono scansionati e analizzati per individuare le possibilità di ottimizzazione. I dati deduplicati e compressi vengono riscritti sul dispositivo di storage che ora offre più capienza disponibile rispetto a prima. Va notato che con la post-elaborazione l'allocazione iniziale della capienza sul dispositivo target deve essere più elevata, poiché i dati non elaborati vengono memorizzati così come sono prima di essere sottoposti a riduzione. La post-elaborazione consente di pianificare l'ottimizzazione della capienza nelle ore non di punta, riducendo così l'impatto in termini di IOPS durante le ore di maggior utilizzo.

La deduplica e la compressione post-elaborazione sono supportate dalle edizioni EN, ST e LS di SANsymphony. Compara le edizioni di SANsymphony.

inline and post-process data deduplication and compression infographic

Inline vs. post-process data deduplication and compression using SANsymphony

There are many factors that play a role in determining the efficiency and output of deduplication and compression: type of data, rate of changes being made to the data, access frequency, backup frequency, etc. There are some workloads that inherently perform some level of redundancy elimination at the application level thus yielding lower deduplication and compression ratios. And then there are other workloads, such as VDI, with multiple copies of the same operating system image that, when being backed up, yield higher deduplication and compression ratios. The types of files most likely to benefit from deduplication and compression contain repetitive data blocks, with relatively static content and accessed infrequently. Both inline and post-processing capacity optimization techniques help IT teams achieve CAPEX savings. The actual savings depends on the efficiency of deduplication and compression operations and their individual capacity optimization ratios.

Iniziamo con SANsymphony, il Software-Defined Block Storage