Hardware storing in centrale fileserver

Gistermorgen (donderdag 13 januari) heeft zich een grote crash voorgedaan van één van onze centrale fileservers.

Dit bracht veel downtime en problemen met zich mee. Door middel van deze mail proberen wij duidelijk te maken wat er gebeurd is; hoe dit heeft kunnen gebeuren; wat de gevolgen waren; wat we nu al gedaan hebben om te voorkomen dat het weer gebeurt en wat we nog gaan doen.

Ten eerste willen we onze excuses aanbieden voor de gevolgen van deze crash. We beseffen ons terdege dat steeds meer klanten volledig afhankelijk zijn van het functioneren van hun website of server. Zoals we hopelijk in deze e-mail zullen verduidelijken, nemen we de betrouwbaarheid van ons systeem uiterst serieus en werken we hard aan de verbetering hiervan.

Wat is er gebeurd
Gistermorgen is één van onze centrale fileservers gecrasht. Deze fileserver heeft drie taken:

  • Beschikbaar maken van virtuele schijven voor VDSsen
  • Beschikbaar maken van virtuele schijven van VDS hardware servers
  • Beschikbaar maken van homedirectories van beheerders van HostingXS

Virtuele servers draaien op fysieke hardware. Deze fysieke hardware draait een aantal (meestal rond de 10-15) virtuele servers. De schijf van de virtuele server draait niet op die fysieke hardware, maar op een centrale fileserver. Dit om centraal veel opslagcapaciteit te hebben die snel en betrouwbaar is. Tevens kunnen wij zo makkelijk virtuele machines op andere fysieke hardware draaien.

De fysieke hardware waarop de virtuele servers draaien heeft in sommige gevallen zelf niet eens een harde schijf. Ze starten op vanaf een netwerkserver. Op die manier minimaliseren we de hardware die kapot kan gaan.

Tevens hebben wij centrale homedirectories voor de beheerders van HostingXS. Hiermee kunnen beheerders inloggen op alle servers en overal dezelfde data beschikbaar hebben.

Hoe heeft dit kunnen gebeuren
Nadere analyse van de fileserver heeft twee theorieën opgeleverd:
1) De RAID-controller is onbetrouwbaar en heeft de crash veroorzaakt

De RAID-controller kan alle problemen veroorzaakt hebben. Hij gaf problemen bij beide resets van de server en het verklaart de beschadigde bestandssystemen.

Een RAID-controller zorgt ervoor dat alle data over meerdere schijven verdeeld wordt zodat als een schijf kapot gaat, het volledige systeem met al zijn data beschikbaar blijft. (Wij draaien RAID-6).

2) De software is onbetrouwbaar en de resets hebben problemen met de RAID-controller veroorzaakt

De software die de virtuele schijven beschikbaar moet maken in het netwerk heeft sinds de stroomstoring van december 2010 problemen gegeven. Dit viel ons toen nog niet op omdat de problemen niet naar voren kwamen in de normale monitoring. Echter, terugkijkend in logbestanden en grafieken kunnen we de problemen wel terugzien.
Gisteren tijdens het opstarten van de virtuele servers gaf de software ook meerdere malen fouten.

Wat de gevolgen waren
Door de crash van gistermorgen zijn een hele serie virtuele servers gecrasht, zijn er een aantal fysieke servers gecrasht en hadden de meeste servers last van ontbrekende homedirectories van beheerders.
Doordat er zoveel diensten niet beschikbaar waren, was de crash voor onszelf onoverzichtelijk. Het duurde even voordat met name de fysieke machines waarop VDSsen draaien weer beschikbaar waren.

We hebben de centrale server tweemaal uit en weer aan moeten zetten voordat hij weer goed werkte. Normaal mag dit geen problemen geven, maar in dit geval is er tweemaal wat data verloren gegaan wat resulteerde in beschadigde virtuele schijven van VDSsen.

De eerste diagnose was dat de RAID-controller van de fileserver kapot was. Daarom hebben we beschadigede virtuele schijven gekopieerd naar een andere centrale fileserver. Dit heeft veel tijd gekost gezien de hoeveelheid data die gekopieerd moest worden.
Vanaf de andere fileserver hebben we de beschadigingen gerepareerd.

Tevens is het zo dat als een server (virtueel of fysiek) hard gereset wordt, er altijd een check gedaan moet worden van zijn schijf. Dit kost tijd en levert een hoge belasting op voor de centrale fileservers. Hierdoor kunnen wij alleen gefaseerd virtuele servers opstarten.

Wat we nu al gedaan hebben om te voorkomen dat het weer gebeurt
We hebben de software op de fileserver geüpgrade naar de nieuwste versie. Dit gaf een directe verbetering. De upgrade is gisteravond rond 23:30 uitgevoerd.

We hebben gistermiddag direct per spoedkoerier een nieuwe controller laten komen zodat we deze in kunnen bouwen als de huidige echt defect blijkt te zijn.

Tevens hebben wij contact opgenomen met de fabrikant van de RAID-controller en zoeken we samen uit of de huidige controller nog betrouwbaar is.

Wat gaan we nog doen
Het onderzoek naar de stabiliteit van de RAID-controller loopt nog. Afhankelijk daarvan vervangen we de huidige controller door de nieuwe.

We gaan alle fysieke servers die geen harde schijf hebben, voorzien van een schijf. Dit gaat waarschijnlijk SSD worden: een schijf zonder bewegende onderdelen. Hierdoor zijn deze servers onafhankelijk van de centrale fileserver geworden.

We hebben een offerte-aanvraag gedaan voor een tweede identieke centrale fileserver. We laten een plan opstellen om deze twee servers in een geclusterde omgeving te draaien. Bij een crash van één van de servers neemt de andere het automatisch binnen een seconde of 20 over.

Tot slot willen we alle klanten bedanken die gisteren hun steun en begrip hebben uitgesproken.