Onderbreking dienstverlening 20 augustus

Op woensdag 20 augustus zijn er twee verstoringen geweest: is er voor verschillende cloudservers ongepland downtime geweest, veroorzaakt door een storing in een opslagplatform van de HostingXS cloud. Ook hebben enkele klanten met dedicated server een netwerkprobleem ondervonden waardoor verschillende IP’s onbereikbaar waren.

In dit bericht proberen we uit te leggen wat hiervan de oorzaak is geweest en welke maatregelen we nemen om te zorgen dat dit in de toekomst niet nog eens gebeurt.

Kleine geschiedenis

Er is twee keer eerder een storing geweest met deze opslagserver die ervoor gezorgd heeft dat verschillende cloudservers onbereikbaar werden. Deze eerdere storingen kwamen voor ons onverwacht. We hadden daarna wel een patroon ontdekt, namelijk: de opslagserver werd telkens iets langzamer na een periodieke controle en binnen 5 weken daarna onstabiel.

Elke maand voert de opslagserver rond 7 uur een periodieke controle uit voor een ingebouwde accu, die ervoor zorgt dat bij een stroomuitval geen gegevens verloren gaan. Tijdens deze controle wordt een cache tijdelijk uitgeschakeld, dit zorgt voor een kleine vertraging, maar levert nooit echt merkbare problemen op. Deze controle kost ongeveer 10-15 minuten tijd en sporadisch ongeveer een max. 1 ½ uur aanhouden voor ze verdwijnen.

Firmware update

Gistermorgen is de software-update klaargezet. Het toepassen er van gebeurt pas bij een herstart. Een onverwacht en ongedocumenteerd effect was echter dat de cache werd uitgeschakeld en niet meer aangezet kon worden. Klanten merkten een vertraging en konden geen mail meer ontvangen en/of websites waren slecht bereikbaar. Om de serverload te verlagen hadden we diverse servers uitgezet en diverse onderhoudscripts gestopt.

Gezien de ervaring met de maandelijkste tests was het onze verwachting dat de traagheid na maximaal 1 ½  uur voorbij zou zijn. Dat was echter niet het geval. De server bleef onacceptabel traag wat opleverde dat sites slecht presteerden of zelfs timeouts gaven.

Ondanks het uur van de dag, hebben we moeten besluiten om de opslagserver per direct opnieuw te starten, met alle merkbare gevolgen van dien. Firmware update is wel gelukt.

Tijdspad

11:50 uur: eerste melding van vertraging

12:00 uur: diverse eigen servers uitgeschakeld om serverbelasting te verminderen

13:00 uur: mailing ter aankondiging spoedonderhoud; deze blijkt echter niet verzonden geweest

13:30 uur: het calamiteitenplan gestart, cloudservers ‘netjes’ uit te zetten
14:10 uur: netwerkstoring +/- 15 minuten in ons datacenter, totaal ongerelateerd aan onze storing achteraf, maar dat wel onze aandacht nodig en zorgde voor latere restart opslagserver

14:30 uur: restart opslagserver

15:00 uur: cloudservers worden inmiddels gestart in volgorde van SLA

15:30 uur: meeste cloudservers zijn weer up-and-running

 

Cloudservers en hostingpakketten met een SLA Goud hebben geen downtime gehad.

Toekomst

  • De eerste maatregel om dit in de toekomst te voorkomen, is dus al genomen: de noodzakelijke firmwareupdate aan de opslagserver is uitgevoerd. We verwachten dat de spontane crashes hiermee opgelost zijn.
  • Het klaarzetten van dergelijke updates zullen voortaan gepland worden op een tijdstip buiten de piekuren. De impact van dit soort storingen wordt daarmee verminderd.
  • Wij bieden deze maand 20% korting aan voor de getroffen klanten op een High Availability opslag bij cloudservers, voor de duur van 1 jaar. Dit wapent tegen crashes van een opslagserver.