Wat is datareductie?

Inhoudsopgave

Met behulp van datareductiemethoden kan de hoeveelheid fysiek opgeslagen data worden verminderd. Dit bespaart opslagruimte en kosten.

Wat betekent datareductie?

De term datareductie omvat verschillende methoden die worden gebruikt om de capaciteit te optimaliseren. Dergelijke methoden zijn erop gericht om de hoeveelheid opgeslagen data te verminderen. Nu de hoeveelheid data wereldwijd toeneemt, is datareductie noodzakelijk om te zorgen voor efficiënt gebruik van middelen en kosten bij het opslaan van data.

Gegevensreductie kan worden uitgevoerd door middel van gegevenscompressie en deduplicatie. Terwijl verliesvrije compressie gebruikmaakt van redundantie binnen een bestand om gegevens te comprimeren, vergelijken deduplicatiealgoritmen gegevens tussen bestanden om herhaling te voorkomen.

Wat is deduplicatie?

Deduplicatie is een proces van gegevensreductie dat in wezen gebaseerd is op het voorkomen van gegevensredundantie in het opslagsysteem. Het kan worden geïmplementeerd op het opslagdoel of bij de gegevensbron. Er wordt een deduplicatie-engine gebruikt, die speciale algoritmen gebruikt om redundante bestanden of gegevensblokken te identificeren en te verwijderen. Het belangrijkste toepassingsgebied voor deduplicatie is gegevensback-up.

Het doel van gegevensreductie door middel van deduplicatie is om alleen zoveel informatie op niet-vluchtige opslagmedia te schrijven als nodig is om een bestand zonder verlies te kunnen reconstrueren. Hoe meer duplicaten worden verwijderd, hoe kleiner het gegevensvolume dat moet worden opgeslagen of overgedragen.

Het identificeren van duplicaten kan bijvoorbeeld op bestandsniveau worden gedaan met Git of Dropbox. Een efficiëntere methode is echter het gebruik van deduplicatie-algoritmen, die op subbestandsniveau werken. Hiervoor worden bestanden eerst opgedeeld in gegevensblokken (chunks) en voorzien van unieke checksums of hashwaarden. De trackingdatabase, die elke checksum bevat, fungeert als een centrale toezichthoudende instantie.

De blokgebaseerde deduplicatiemethoden kunnen worden onderverdeeld in twee varianten:

Vaste bloklengte: bestanden worden verdeeld in secties van exact dezelfde lengte op basis van de clustergrootte van het bestand of RAID-systeem (meestal 4 KB).
Variabele bloklengte: het algoritme verdeelt de gegevens in verschillende blokken, waarvan de lengte varieert afhankelijk van het type gegevens dat moet worden verwerkt.

De manier waarop blokken worden verdeeld, heeft een enorme invloed op de efficiëntie van de gegevensduplicatie. Dit is vooral merkbaar wanneer gededupliceerde bestanden vervolgens worden gewijzigd. Bij gebruik van vaste blokgroottes worden, als een bestand wordt gewijzigd, alle volgende segmenten ook als nieuw geclassificeerd door het deduplicatiealgoritme vanwege de verschuiving in blokgrenzen. Dit verhoogt de rekeninspanning en het gebruik van bandbreedte.

Als een algoritme daarentegen variabele blokgrenzen gebruikt, hebben de wijzigingen van een afzonderlijk gegevensblok geen invloed op de volgende segmenten. In plaats daarvan wordt het gewijzigde gegevensblok gewoon uitgebreid en opgeslagen met de nieuwe bytes. Dit verlicht de belasting van het netwerk. De flexibiliteit van de bestandswijzigingen is echter rekenintensiever, omdat het algoritme eerst moet uitzoeken hoe de brokken zijn opgesplitst.

Wat is datacompressie?

Bij datacompressie worden bestanden omgezet naar een alternatief formaat dat efficiënter is dan het origineel. Het doel van dit type gegevensreductie is om zowel de benodigde geheugenruimte als de overdrachtstijd te verminderen. Een dergelijke coderingswinst kan worden bereikt met twee verschillende benaderingen:

Redundantiecompressie: Bij verliesvrije gegevenscompressie kunnen gegevens na compressie nauwkeurig worden gedecomprimeerd. De invoer- en uitvoergegevens zijn dus identiek. Dit soort compressie is alleen mogelijk wanneer een bestand redundante informatie bevat.
Irrelevantiecompressie: Bij compressie met verlies wordt irrelevante informatie verwijderd om een bestand te comprimeren. Dit gaat altijd gepaard met gegevensverlies. Na een irrelevantiecompressie is er slechts een benaderende herstel van de oorspronkelijke gegevens. Het proces voor het classificeren van gegevens als irrelevant is discretionair. Bij een audiocompressie via MP3 worden bijvoorbeeld de frequentiepatronen verwijderd waarvan wordt aangenomen dat ze nauwelijks of helemaal niet door mensen worden gehoord.

Hoewel compressie op het niveau van het opslagsysteem in wezen verliesvrij is, wordt gegevensverlies op andere gebieden, zoals beeld-, video- en audio-overdracht, bewust geaccepteerd om de bestandsgrootte te verkleinen.

Zowel het coderen als het decoderen van een bestand vereist rekenkracht. Dit hangt voornamelijk af van de gebruikte compressiemethode. Sommige technieken zijn gericht op een zo compact mogelijke weergave van de oorspronkelijke gegevens, terwijl andere zich richten op het verminderen van de benodigde rekentijd. De keuze van de compressiemethode is daarom altijd afhankelijk van de vereisten van het project of de taak waarvoor deze wordt gebruikt.

Welke methode voor gegevensreductie is beter?

Om back-upprocedures te implementeren of opslag in standaardbestandssystemen te optimaliseren, maken bedrijven doorgaans gebruik van deduplicatie. Dit komt voornamelijk doordat deduplicatiesystemen uiterst efficiënt zijn wanneer identieke bestanden moeten worden opgeslagen.

Datacompressiemethoden daarentegen gaan doorgaans gepaard met hogere rekenkosten en vereisen daarom complexere platforms. Opslagsystemen die een combinatie van beide methoden voor gegevensreductie gebruiken, kunnen het meest effectief worden ingezet. Eerst worden redundante gegevens uit de op te slaan bestanden verwijderd met behulp van deduplicatie, waarna de resterende gegevens worden gecomprimeerd.