Cerca
Lingue

Deduplica e compressione dei dati

Risparmia sullo storage evitando di sovraccaricarlo e liberando spazio su disco occupato da dati ridondanti

Una crescita dei dati non controllata porta spesso a un rapido esaurimento della capienza di storage. Questo fa sì che i team IT continuino ad aggiungere hardware, con conseguenti costi ed eccesso di risorse non necessarie. I data set duplicati sono un elemento chiave del problema. Alcuni di essi possono potenzialmente essere compressi, ma vengono invece memorizzati con le dimensioni originali occupando più spazio su disco. Un'efficace ottimizzazione della capienza di storage può aiutare a vincere queste sfide.

DataCore SANsymphony software-defined storage offers two data reduction techniques for capacity optimization. Storage deduplication eliminates redundant data. Compression condenses the space required to store data. Both techniques prevent data loss to always maintain data integrity.

Che cosa sono deduplica & compressione?

deduplicaLa deduplica analizza i blocchi di dati e crea un hash univoco per ognuno di essi. Se un nuovo blocco scritto su disco presenta un hash con lo stesso valore di un blocco esistente, verrà sostituito da un identificatore che si limita a puntare al blocco di dati già presente.

Più copie ridondanti dei dati possono essere sostituite con riferimenti a una singola copia, riducendo così la capienza necessaria.

La deduplica offre i vantaggi maggiori quando ci sono più blocchi degli stessi dati, creati per esempio dalla ridondanza delle snapshot o delle immagini VDI.

deduplicaLa compressione è un processo algoritmico che riduce le dimensioni dei dati identificando prima le sequenze identiche che compaiono in una riga, poi salvando solo la prima sequenza e sostituendo quelle successive identiche con le informazioni sul numero di volte in cui appaiono in una riga.

Poiché solo la prima sequenza di dati viene memorizzata così com'è, per rappresentare nuovamente le stesse informazioni serve meno spazio su disco. Il livello di compressione dipende in genere dalla natura del data set stesso, che deve essere comprimibile almeno parzialmente.

I benefici di deduplica e compressione

  • Requisiti di spazio su disco ridotti che portano a un'allocazione ottimizzata dello storage
  • Maggiori risparmi sui costi IT e aumento del ROI
  • Minore ingombro dell'hardware, con una riduzione di spazio occupato e requisiti energetici più contenuti
  • Maggiore efficienza dello storage

Due approcci a deduplica e compressione dei dati

DataCore SANsymphony mette a disposizione due approcci per realizzare la deduplica e la compressione sullo storage. È possibile scegliere l'approccio appropriato in base ai requisiti aziendali e IT.

Deduplica e compressione inline: in questo caso, la riduzione dei dati avviene prima che questi vengano scritti sul disco. SANsymphony esegue scansioni e analisi dei dati in entrata alla ricerca di potenziali opportunità di ottimizzazione ed esegue deduplica e compressione. L'elaborazione in linea riduce i requisiti di capienza del disco poiché i dati vengono deduplicati e compressi prima di essere memorizzati. Quando vengono eseguite frequenti operazioni di backup e la quantità di dati ridondati generata è elevata, si consiglia l'approccio dell'elaborazione inline, in quanto riduce le dimensioni dei dati prima di memorizzare il backup.

La deduplica e la compressione inline sono supportate solo dall'edizione EN di SANsymphony e possono essere abilitate singolarmente o insieme (duplica, compressione o entrambe) in base alle esigenze.

Deduplica e compressione post-process: in questo caso, la riduzione dei dati avviene dopo che questi sono stati scritti sul disco. SANsymphony prima memorizza i dati grezzi nel dispositivo di storage di destinazione. Poi questi dati vengono scansionati e analizzati per individuare le possibilità di ottimizzazione. I dati deduplicati e compressi vengono riscritti sul dispositivo di storage che ora offre più capienza disponibile rispetto a prima. Va notato che con la post-elaborazione l'allocazione iniziale della capienza sul dispositivo target deve essere più elevata, poiché i dati non elaborati vengono memorizzati così come sono prima di essere sottoposti a riduzione. La post-elaborazione consente di pianificare l'ottimizzazione della capienza nelle ore non di punta, riducendo così l'impatto in termini di IOPS durante le ore di maggior utilizzo.

La deduplica e la compressione post-elaborazione sono supportate dalle edizioni EN, ST e LS di SANsymphony. Compara le edizioni di SANsymphony.

infografica su deduplica e compressione dei dati inline e post-process

Deduplica e compressione dei dati inline e post-process utilizzando SANsymphony

Esistono molti fattori che svolgono un ruolo nel determinare efficienza e output di deduplica e compressione: tipologia di dati, quantità di modifiche apportate, frequenza di accesso, numero di backup e così via. Alcuni workload eseguono intrinsecamente un certo livello di eliminazione della ridondanza a livello applicativo, con conseguente riduzione dei rapporti di deduplica e compressione. Inoltre, esistono altri workload, come quelli della VDI con più copie dello stesso sistema operativo, che quando vengono sottoposti a backup producono rapporti di deduplica e compressione più elevati. I file che più facilmente traggono vantaggio da deduplica e compressione sono quelli che contengono blocchi di dati ripetuti, con contenuti relativamente statici e a cui si accede raramente. Le tecniche di ottimizzazione della capienza inline e post-process consentono ai team IT di risparmiare sulle CAPEX. I risparmi effettivi dipendono dall'efficienza delle operazioni di deduplica e compressione e dai loro rapporti di ottimizzazione della capienza individuale.

Iniziamo con SANsymphony, il Software-Defined Block Storage