Storing vannacht en vanmorgen

Vannacht rond middernacht is er een storing ontstaan in de systemen van HostingXS. Een groot deel van de klanten heeft hier hinder van ondervonden.
Die klanten konden geen mail meer ophalen via pop3 of webmail, of ze konden geen contact maken via ftp.
Tijdens het oplossen van de storing zijn er een aantal onderbrekingen geweest op een aantal servers. Ook een aantal websites zijn enkele minuten onbereikbaar geweest.

Door de hoge systeembelasting in combinatie met een trage accountdatabase, zijn er een aantal mailboxen geblokeerd. Ook na het verhelpen van de LDAP-storing bleven deze boxen geblokkeerd.

De storing is inmiddels verholpen. Het kan wel zijn dat er nog wat mail vertraagd wordt afgeleverd. Dat zal zich snel moeten oplossen. Voor zover bekend is er geen mail verloren gegaan.

Oorzaak van de storing

HostingXS maakt gebruik van een zogenaamde LDAP server waarop centraal accounts staan opgeslagen. Deze server is dubbel uitgevoerd om storingen te voorkomen. Beide servers zijn echter overbelast geraakt door een te groot aantal gelijktijdige verbindingen.
Hierdoor werd het opvragen van accountinformatie dusdaning traag dat het inloggen via pop3 of ftp (vrijwel) onmogelijk is geworden.

Ons monitoringssysteem heeft deze storing direct opgemerkt. Echter, ook het monitoringssyteem werkte niet goed meer: door de storing kon het systeem geen bericht meer sturen naar onze engineers.
Ons monitoringssyteem wordt door ander monitoringssyteem op een andere server continue in de gaten gehouden. Deze heeft de storing echter niet opgemerkt.

Maatregelen

– Vanaf nu kunnen onze LDAP servers 8 keer zoveel gelijktijdige verbindingen aan
– Vanaf nu wordt het aantal gelijktijdige LDAP verbindingen continue gemonitord; er wordt alarm geslagen als 80% van het aantal beschikbare verbindingen in gebruik is.
– Vanaf nu worden een aantal kritieke services ook door onze tweede monitoring-server in de gaten gehouden.
– Alle mail locks zijn gereset.

Tenslotte

We hebben temaken gehad met een complexe storing die alleen heeft kunnen ontstaan door een samenloop van omstandigheden. Door die samenloop van omstandigheden werd de storing pas vanmorgen opgemerkt door onze engineers. Er zijn maatregelen genomen om te voorkomen dat een storing als deze in de toekomst weer kan gebeuren.

Onze excuses voor de overlast.