De risico’s van serveruitval

Bij ‘criminaliteit op internet’ denken bedrijven doorgaans vooral aan bedrijfsspionage, het stelen van vertrouwelijke bedrijfsgegevens en de daarmee verbonden inbreuk op de privacy. Maar door de toenemende digitalisering zijn aanvallen binnen of op het netwerk groter dan ooit tevoren. Steeds meer bedrijfsactiviteiten zijn afhankelijk van ICT-systemen. Deze binden bedrijven in toenemende mate aan openbare netwerken, waardoor ze kwetsbaar worden voor aanvallen van hackers. Als een cyberaanval resulteert in systeemuitval, betekent dat een dure onderbreking van de bedrijfsprocessen. Binnen enkele minuten kan serveruitval een schade van duizenden euro's veroorzaken. De schade kan vooral groot zijn als de server van het bedrijf bijvoorbeeld winkelsoftware of een centrale database host. Maar serveruitval heeft niet alleen externe oorzaken; ook interne risico’s vormen een bedreiging voor het soepel verlopen van bedrijfsprocessen.

Een uitgebreid beveiligingsconcept bevat daarom – naast een afweersysteem tegen externe bedreigingen en een standaardprocedure voor disaster recovery – ook maatregelen op het vlak van organisatie en personeel. Tegenmaatregelen zijn over het algemeen gericht op compensatie; technisch gezien is dit gebaseerd op de mogelijkheid om redundante hardware in het kader van hoge beschikbaarheid ter beschikking te stellen of uitvaltijd te overbruggen met stand-by-systemen. Beheerders zorgen ervoor dat gegevens niet verloren gaan door back-upsoftware en recoverysoftware te gebruiken en een redundante opslagarchitectuur te maken. De financiële gevolgen van serveruitval kunnen met een verzekering worden beperkt.


Overzicht van uitvalscenario's

Als het om gevarenbronnen van serveruitval gaat, onderscheiden experts tussen interne en externe bedreigingen. Interne bedreigingen omvatten alle scenario's waarbij een uitval wordt veroorzaakt door de eigen ICT-infrastructuur, verkeerde koeling of locatiekeuze van het datacenter of verkeerd gebruik door medewerkers. Externe bedreigingen zijn kwaadwillige aanvallen van buiten of onvoorspelbare gebeurtenissen zoals ongelukken en rampen.

Interne gevarenbronnen:

  • brand in het datacenter
  • stroomuitval in het datacenter
  • hardware-uitval (gecrashte harde schijf, overbelasting, oververhitting)
  • softwarefout (uitval van de database)
  • netwerkproblemen
  • menselijke fout

Externe gevarenbronnen:

  • infiltratie (man-in-the-middle-aanval, phishing, social engineering)
  • sabotage (aanval op SCADA-systemen)
  • een virus, Trojaans paard, computerworm
  • Distributed-Denial-of-Service-aanval (DDoS)
  • overmacht (aardbeving, blikseminslag, overstroming)
  • ongeluk (neergestort vliegtuig)
  • aanslag

Over het algemeen is het voor bedrijven eenvoudiger om zich voor te bereiden op interne veiligheidsrisico's dan op bedreigingen van buitenaf. Hackers passen hun aanvallen namelijk steeds aan de huidige veiligheidsstandaarden aan, waardoor ze netwerken van bedrijven steeds weer met nieuwe schadelijke programma's of infiltratiestrategieën kunnen confronteren. Bedrijven proberen interne gevarenbronnen te voorkomen door bepaalde voorzorgsmaatregelen te treffen, zoals een noodstroomvoeding, brandveiligheidsmaatregelen, servers met hoge beschikbaarheid en omvangrijke veiligheidscursussen.


Gevolgen van systeemuitval

De financiële gevolgen van serveruitval zijn afhankelijk van verschillende factoren, waaronder het type server dat uitgevallen is: een mailserver, webserver, of bijvoorbeeld een applicatieserver. Hoe lang de server uitgevallen is, speelt ook een rol. Als het om enkele minuten gaat, is het wellicht niet de moeite waard om het verlies te berekenen. Maar voor langere uitvaltijden kan dit wel handig zijn. Als de server op het moment van de uitval door werknemers werd gebruikt, moet je berekenen hoeveel er aan deze werknemers betaald is terwijl zij niets konden doen, wat natuurlijk afhankelijk is van hun salaris. Als het probleem een e-commerceserver betreft, zul je moeten berekenen hoeveel bestellingen niet geplaatst konden worden toen de server niet werkte. Om dit te berekenen kun je kijken naar de specifieke tijdsperiode (bijvoorbeeld op een woensdag tussen 17.00 en 19.00 uur) en vervolgens nagaan hoeveel bestellingen je normaliter op dat moment ontvangt. Als een mailserver down is, hangen de kosten af van de mate waarin je bedrijf afhankelijk is van e-mailverkeer. Klanten kunnen geïrriteerd zijn omdat ze niet snel antwoord op hun vragen hebben gekregen; vooral als ze dit wel gewend zijn. Dit is voor sommige klanten reden genoeg om niet langer voor jouw producten of diensten te kiezen. Vergeet ook niet de kosten mee te nemen die gepaard gaan met het repareren van de server.

Of en in welke mate serveruitval ervoor zorgt dat de bedrijfsactiviteiten moeten worden onderbroken, hangt af van de sector en het businessmodel van het bedrijf. In principe kunnen medewerkers voor alternatieven kiezen, door bijvoorbeeld een vergadering te houden, te telefoneren of gesprekken met klanten naar een eerder tijdstip te verplaatsen. Maar als centrale processen niet alleen ICT-ondersteund, maar geheel ICT-gestuurd worden, is downtime bijzonder ingrijpend. Het wordt bijvoorbeeld duur als een online shop offline is en klanten geen bestellingen meer kunnen plaatsen, of als serveruitval van het SCADA-systeem de productie belemmert.

Als de kosten van een operationele onderbreking worden berekend, moet er – behalve met het uurloon van de medewerkers die niet konden werken – ook rekening worden gehouden met de kosten die zijn ontstaan omdat bestellingen niet konden worden geplaatst of te laat werden geleverd (incl. eventuele boetes die hieruit voortkomen). Vergeet daarnaast de moeilijk in te schatten reputatieschade door ontstemde klanten niet.


Preventiemaatregelen

Om serveruitval tegen te gaan, moeten reële risico's worden beperkt door middel van preventiemaatregelen. Hierbij gaat het over het algemeen om infrastructurele en organisatorische maatregelen, die betrekking hebben op het kiezen en inrichten van een datacentrum. Een opsomming van zulke beveiligingsmaatregelen is te vinden op de pagina van Oracle.


Brandveiligheid en preventie

Brandveiligheid en preventie

Om serveruitval door overmacht, zoals brand, overstroming, stroomuitval of hardwaresabotage te voorkomen, moet het datacenter bedachtzaam worden ingericht. Het begint al bij de locatie. Kelders die snel onder water kunnen komen te staan bij noodweer of een natuurramp, zijn niet aan te bevelen. Bovendien wordt aangeraden om alleen vakpersoneel toegang tot het datacenter te geven, en veiligheidsdeuren te installeren. Verder is een datacenter niet geschikt om voor langere tijd als werkplek dienst te doen.

Schade door brand kun je beperken met brandveiligheidsmaatregelen en brandblussystemen. Voorbeelden hiervan zijn branddeuren, brandmelders, brandblussers en automatische brandblussystemen (bijvoorbeeld blusgassystemen). Andere preventieve maatregelen zijn richtlijnen voor brandveiligheid, waarin de juiste opslag van brandbaar materiaal, brandbeveiliging in kabelgoten en het gebruik van geschikte materialen voor warmte- en geluidsisolatie worden beschreven.

Technische apparaten veranderen elektrische energie in warmte. Ook zonnestralen zorgen ervoor dat de temperatuur in het datacenter stijgt. Om serveruitval en datafouten vanwege oververhitting of te hoge luchtvochtigheid te voorkomen, moeten sterke ventilatoren en airco's worden geïnstalleerd. Voor apparaten voor langdurige opslag zijn een temperatuur tussen 20°C en 22°C en een luchtvochtigheid van 40% optimaal.

Een vereiste voor een naadloos functionerende server is bovendien een constante stroomtoevoer. Storingen binnen het ICT-proces zijn al mogelijk als de elektriciteit langer dan 10 ms uitvalt. Een onderbreking van de stroomtoevoer kan worden opgevangen door noodstroomgeneratoren. Hierdoor is het mogelijk om bedrijfsprocessen tijdelijk onafhankelijk van het reguliere stroomnetwerk te laten doorlopen.


Reservesystemen

Reservesystemen

Vooral middelgrote bedrijven onderschatten het effect dat een ICT-uitval op bedrijfsprocessen kan hebben. De reden is de betrouwbaarheid van standaardcomponenten die tegenwoordig in de ICT-infrastructuur van een bedrijf worden gebruikt. De beschikbaarheid hiervan wordt geschat op 99,9%. Dit lijkt veel te zijn, maar als het systeem 24 uur per dag draait, mag het jaarlijks bijna 9 uren uitvallen. Als dit precies tijdens een drukke periode gebeurt, kunnen ook de kosten van relatief korte serveruitval hoog oplopen. Daarom worden ICT-systemen met een hoge beschikbaarheid van 99,99 % als standaard gezien om kritieke gegevens en applicaties te beheren. Zij hebben een maximale downtime van 52 minuten per jaar. Enkele ICT-experts vinden dat je pas vanaf een beschikbaarheid van 99,999% van hoge beschikbaarheid mag spreken. Deze systemen vallen dan maximaal 5 minuten per jaar uit.

Het probleem van zulke waarden is echter dat ze alleen betrekking hebben op de uitvaltijd van de serverhardware. Volgens de definitie van het IEEE (Institute of Electrical and Electronics Engineers) heeft een systeem een hoge beschikbaarheid, als de beschikbaarheid van de ICT-processen ook kan worden gewaarborgd wanneer systeemcomponenten uitvallen:

"High Availability (HA for short) refers to the availability of resources in a computer system, in the wake of component failures in the system."

Dit wordt bijvoorbeeld bereikt door een server met een geheel redundante opbouw. Alle onderdelen die belangrijk zijn voor bedrijfsprocessen – vooral de processor, opslagchips en in-/uitvoerkaarten – zijn dubbel beschikbaar. Dit voorkomt weliswaar effectief dat een defect onderdeel de server platlegt, maar hoge beschikbaarheid beschermt de server niet tegen brand in het datacenter, doelgerichte aanvallen via schadelijke software en DDoS-aanvallen, sabotage en hackers. Een bedrijf moet daarom rekening houden met duidelijk langere uitvaltijden, en passende maatregelen voor preventie en schadebeperking nemen.

Bij andere strategieën die een uitgevallen server kunnen compenseren, gaat het om stand-by-systemen en clusters van hoge beschikbaarheid. De twee mogelijkheden zijn gebaseerd op het idee van twee of meer verbonden servers, die samen meer hardwaremogelijkheden ter beschikking stellen dan noodzakelijk is voor het gewone bedrijfsproces.

Een stand-by-systeem is een tweede server, ter vervanging van het eerste systeem, en neemt de taken van de primaire server over als deze uitvalt vanwege hard- of softwarefouten. Het overschakelen naar een andere server wordt failover genoemd en automatisch door cluster management-software op gang gebracht; zonder toedoen van een beheerder. Deze opbouw met een actieve en een passieve serverknoop kan als asymmetrische cluster van hoge beschikbaarheid worden gezien. Als alle knopen in een cluster bij normale bedrijfsactiviteiten in gebruik zijn, is er sprake van een symmetrische opbouw.

Korte onderbrekingen van de bedrijfsprocessen kunnen ook bij stand-by-systemen en clusters van hoge beschikbaarheid niet worden voorkomen, omdat er een vertraging ontstaat als de processen van een systeem naar een ander systeem worden overgezet.


Afweersystemen

Afweersystemen

Beheerders hebben verschillende software- en hardwareoplossingen bedacht die schadelijke aanvallen van hackers kunnen ontdekken, registreren en afweren. Om een server te beschermen tegen ongeautoriseerde toegang, worden kritieke systemen met firewalls en demilitarized zones (DMZ) afgeschermd van openbare netwerken.

Met programma's die aanvallen herkennen, zogenoemde intrusion detection systems (IDS), is het mogelijk om servers en netwerken automatisch te controleren. Het systeem slaat alarm zodra iemand probeert in te breken of er een automatische aanval door schadelijke software wordt geregistreerd. De software herkent deze situaties door patronen en statistieken te analyseren. Als intrusion prevention systems (IPS) worden ingezet, worden automatisch tegenmaatregelen genomen nadat een aanval is gedetecteerd. Een verbinding met de firewall is gebruikelijk, omdat gegevenspakketten op die manier verwijderd en verdachte verbindingen onderbroken kunnen worden.

Om hackers van kritieke ICT-systemen weg te houden, gebruiken beheerders bovendien zogenoemde honeypots. Voor aanvallers zien de honeypots eruit als aantrekkelijke doelen, maar eigenlijk lopen ze gescheiden van de bedrijfsprocessen en beïnvloeden ze de functionaliteit van het bedrijf niet. Honeypots worden voortdurend gecontroleerd en maken het mogelijk om snel te reageren op aanvallen en de gebruikte aanvalspatronen en -strategieën te analyseren.


Back-up en gegevensherstel

Back-up en gegevensherstel

Om belangrijke data na serveruitval zo snel mogelijk te kunnen herstellen, is het aan te raden om een plan voor gegevensherstel te ontwikkelen. Houd hierbij liefst een internationale standaard aan, zoals ISO 27001. In het plan is vastgelegd wie verantwoordelijk is voor de databeveiliging en wie beslist wanneer het proces van gegevensherstel moet worden gestart. Het concept voor databeveiliging legt bovendien vast wanneer back-ups moeten worden gemaakt, hoeveel generaties moeten worden opgeslagen, waar de gegevens moeten worden opgeslagen en of bijzondere transportmodaliteiten (zoals encryptie) nodig zijn. Bovendien wordt de back-upmethode gedefinieerd:

  • Volledige back-up - Als alle te kopiëren bestanden op een bepaald moment op een aanvullend opslagsysteem worden opgeslagen, is er sprake van een volledige back-up. Bij deze back-ups wordt er geen rekening mee gehouden of de gegevens zijn veranderd nadat ze voor het laatst zijn opgeslagen. Een volledige back-up kost daarom veel tijd en vereist veel opslagplaats. Dit is vooral te merken als verschillende generaties langer worden bewaard. Het voordeel van deze methode is dat je eenvoudig en snel alle gegevens en bestanden kunt herstellen, omdat je alleen terug hoeft te gaan naar de versie die als laatste opgeslagen is. Dit voordeel valt echter weg als bedrijven niet vaak genoeg back-ups maken. Er ontstaat dan veel werk, omdat later veranderde bestanden aan moeten worden gepast aan de actuele stand.
  • Incrementele back-up - Als een bedrijf ervoor kiest om incrementele back-ups te maken, worden alleen de bestanden opgeslagen die zijn veranderd sinds de laatste back-up. Daardoor kost het uitvoeren van de back-up niet alleen minder tijd; ook de benodigde opslagplaats voor verschillende generaties is duidelijk geringer dan bij een volledige back-up. Voor een incrementele back-up moet je van tevoren minstens één volledige back-up maken. In de praktijk worden de twee back-upstrategieën vaak gecombineerd. Dan worden er verschillende incrementele back-ups tussen twee volledige back-ups gemaakt. Als gegevens moeten worden hersteld, wordt de laatste volledige back-up als basis genomen en aangevuld met de gegevens van de incrementele back-ups. Over het algemeen moeten hiervoor meerdere back-ups na elkaar worden vergeleken.
  • Differentiële back-up - Ook de differentiële back-up is gebaseerd op een volledige back-up. Alle gegevens die sinds de laatste volledige back-up zijn veranderd, worden opgeslagen. In tegenstelling tot de incrementele back-up is er echter geen aaneenschakeling van verschillende back-ups. Om gegevens te herstellen is het dus genoeg om de laatste volledige back-up te vergelijken met de nieuwste differentiële back-up.

Welke opslagstrategie in een bedrijf wordt toegepast, is afhankelijk van de beschikbaarheidseisen en financiële mogelijkheden. Er wordt voornamelijk gekeken naar acceptabele hersteltijden, de frequentie en het tijdstip van het maken van back-ups en de verhouding tussen het veranderde deel en de gehele omvang. Als de laatste twee aspecten bijna even groot zijn, kan niet veel opslagruimte worden bespaard met incrementele of differentiële methoden.


Cursussen

Cursussen

Maatregelen met betrekking tot informatieveiligheid kunnen in een bedrijf alleen goed worden doorgevoerd, als alle medewerkers erkennen en accepteren dat zij zelf een belangrijke bijdrage leveren aan het economische succes van het bedrijf. Dit bewustzijn kan worden opgebouwd en gewaarborgd door regelmatige cursussen en bijscholingen, waarin risicoscenario's worden besproken en de mogelijke gevolgen worden uitgelegd. Daardoor raken medewerkers ontvankelijker voor interne en externe gevarenbronnen.

Systematische cursussen zijn gebaseerd op regelingen en voorschriften rondom het bedienen van veiligheidsrelevante toestellen en apparaten en op een noodgevallenplan. Dit plan vertelt de medewerkers welke stappen moeten worden gezet om ervoor te zorgen dat bedrijfsprocessen zo snel mogelijk kunnen worden hersteld. Business continuity management biedt een gestructureerde aanpak voor het maken van een dergelijk plan.


Business continuity management (BCM)

Om de door serveruitval veroorzaakte schade zo laag mogelijk te houden, investeren bedrijven steeds vaker in preventiemaatregelen. Daarbij speelt business continuity management (BCM) een belangrijke rol. Op ICT-vlak worden BCM-strategieën ingezet om serveruitval op bedrijfskritieke gebieden tegen te gaan, en er in het geval van een onderbreking voor te zorgen dat een onmiddellijk herstel van het systeem mogelijk is. Voorwaarde voor een maatregelensysteem bij calamiteiten en rampen is een zogenoemde business impact-analyse (BIA). Deze helpt bedrijven om kritieke bedrijfsprocessen te identificeren. Een proces is dan kritiek, als een uitval een significant effect op de gang van zaken heeft. De BIA legt de focus eerst op de consequenties van concrete schadescenario's. Oorzaken van serveruitval, de waarschijnlijkheid dat mogelijke gevaren zullen plaatsvinden en tegenmaatregelen worden als onderdeel van de risicoanalyse geregistreerd. Hoe je, met het oog op BCM, systematisch een BIA en een risicoanalyse kunt realiseren, is in diverse standaarden en algemene kaders beschreven.


Business impact-analyse

Business impact-analyse (BIA)

De eerste stap bij het opstellen van een omvangrijk business continuity plan, is het maken van een business impact-analyse. Centrale vragen in het kader van deze analyse zijn: welke systemen zijn van essentieel belang voor het lopend houden van de hoofdzakelijke bedrijfsprocessen? En wat zijn de gevolgen voor het bedrijfsproces, als deze systemen uitvallen? Er wordt aanbevolen om de belangrijkste producten en dienstverleningen van een bedrijf, en de ICT-infrastructuur waarop deze gebaseerd zijn, te identificeren. Als een bedrijf zich voornamelijk richt op verkoop via internet, zijn de servers waarop de webshop en de bijbehorende databases staan bijzonder belangrijke elementen. In een callcenter wordt echter de technische basis van het telefoonnetwerk als kritiek proces vastgelegd. In de BIA zijn de prioriteit van de te beveiligen systemen, een berekening van de schade en een opsomming van de benodigde hulpmiddelen om de systemen te herstellen beschreven.


Risicoanalyse

Risicoanalyse

Een risicoanalyse heeft in het kader van calamiteitenbeheer de functie om interne en externe gevarenbronnen te identificeren, die serveruitval en daardoor ook een onderbreking van bedrijfsprocessen kunnen veroorzaken. Het doel is om veiligheidsrisico's en de oorzaken ervan transparant te maken en passende tegenmaatregelen te ontwikkelen om de herkende gevarenbronnen tegen te gaan. Risico's kunnen worden beoordeeld op basis van de te verwachten schade en de waarschijnlijkheid dat ze voorkomen. Het onderstaande voorbeeld voor risicobeoordeling komt uit de BSI-standaard 100-4 (van het Duitse Bundesamt für Sicherheit in der Informationstechnik):

Oorzaak Risico Scenario Gevolgen Waarschijnlijkheid Risicobeoordeling Zwakke punten Strategie Maatregelen Verantwoordelijke
Brandende kabels, kortsluiting, opwarming Brand Uitval datacenter Zeer groot Mogelijk Gemiddeld Indeling van de ruimte ... ... ...
Uitval van de externe stroomtoevoer, uitval van de interne stroomtoevoer Stroomuitval Uitval datacenter Groot Mogelijk Gemiddeld Benodigde hoeveelheid diesel voor de noodstroomgenerator ... ... ...

De huidige toestand bepalen

De huidige toestand bepalen

Als in het kader van een BIA en een risicoanalyse de gevarenbronnen en het schadepotentieel van concrete serveruitvalscenario's zijn vastgelegd, is de derde stap van een business continuity plan het bepalen van de huidige toestand. Belangrijk zijn in dit geval de reeds doorgevoerde preventiemaatregelen voor noodgevallen en de actuele duur van het weer op gang brengen van de bedrijfsprocessen. Door de huidige toestand te bepalen, kunnen bedrijven inschatten welke handelingen moeten worden uitgevoerd om de risico's in te perken en welke investeringskosten daardoor ontstaan.


Continuity-strategie bepalen

Continuity-strategie bepalen

Over het algemeen zijn er voor de interne en externe gevarenbronnen verschillende strategieën, die het mogelijk maken dat de bedrijfsprocessen ook bij storing door kunnen gaan of snel weer kunnen worden hersteld. In het kader van business continuity management moet daarom worden vastgelegd welke continuity-strategie in het geval van nood moet worden toegepast. De beslissing is gebaseerd op een kosten-batenanalyse die centrale factoren bevat, zoals de benodigde financiële middelen, de betrouwbaarheid van de oplossing en de geschatte hersteltijd.

Als een continuity-strategie moet worden ontwikkeld met het oog op brandgevaar in het datacenter, kun je kiezen uit diverse oplossingen. Minimale oplossingen omvatten schadecompensatie van de verzekering bij bedrijfsonderbrekingen en een reservedatacenter bij een hostingaanbieder. Een duurdere mogelijkheid is het ombouwen van het datacenter, zodat het conform de moderne brandveiligheidsmaatregelen is ingericht. Als grotere investeringen mogelijk zijn, kan de schade beperkt worden door een extra, redundant datacenter te bouwen.