Incidentrapport hosting storingen 21 mei 2012

Op maandag 21 mei 2012 is ons hostingplatform getroffen door een tweetal storingen, die overigens helemaal niets met elkaar te maken hadden.

Om 09.19u ontstond er een probleem op een van de primaire database servers, als gevolg van een routine handeling, het importeren van een database.  Dit leidde er toe dat deze database server niet meer snel genoeg reageerde, waardoor op hun beurt de zogenaamde ‘delivery devices’ niet meer goed konden communiceren met deze database server. Enkele van de delivery devices liepen daardoor vast. Omdat de primaire database server op zichzelf wel nog functioneerde, werd het probleem in eerste instantie door de automatische monitoring niet opgemerkt, maar toen de delivery devices in de problemen kwamen werden de dienstdoende technici wel gealarmeerd. Ze hebben toen handmatig een zogenaamde “fail over” naar de secundaire database server uitgevoerd, waarmee het probleem was verholpen. Nadat de primaire database server was gereset is de normale toestand weer hersteld. Deze storing heeft in totaal ongeveer 4 minuten geduurd en was om 09.23u verholpen.

Om 23.42u ontstond er een storing aan een zogenaamde ‘router’, dit is hardware in het netwerk in ons data center. Hierdoor was er plotseling geen enkel netwerkverkeer meer mogelijk. De automatische omschakeling naar de reserve router vond niet plaats, waarna een technicus deze handmatig in gang heeft gezet om 23.55u. Deze storing heeft in totaal ongeveer 14 minuten geduurd en was om 23.56u verholpen. Er wordt nog onderzocht waarom de storing aan de router niet werd opgemerkt door de monitoring software.

We verontschuldigen ons voor het ongemak dat door deze twee storingen is veroorzaakt, waarbij het natuurlijk extra vervelend was dat ze zo kort na elkaar optraden.

OpenX Source Ad Server