Hosting overzicht september 2011

Totale uptime in september 2011 op Ad Delivery Platform 1: 99,782% (94 minuten downtime)

Total uptime in september 2011 op Ad Delivery Platform 2: 99,782% (94 minuten downtime)

Total uptime in september 2011 op Content Delivery Platform: 99,782% (94 minuten downtime)

Op 8 september om 16.19u trad een fout op in de core netwerk switches die onze platforms verbinden met het internet, waardoor het gehele netwerk down ging. Omdat de technici niet meer van afstand bij de switches konden (om diezelfde reden), moesten er technici naar het data center gestuurd worden. De SLA met de upstream provider schrijft voor dat een prio 1 incident zoals dit voorval binnen 2 uur verholpen moet worden. In de praktijd was het netwerk na 94 minuten weer operationeel. Uit de post-incident analyse blijkt dat een software bug in de switches de uitval heeft veroorzaakt, en niet zoals eerst gemeld een stroomstoring.

We hebben een online status dashboard van onze platforms en services, verzorgd door Pingdom. Helaas is deze externe monitoring dienst niet altijd volledig betrouwbaar, we zien af en toe ‘false positives’ , wat inhoudt dat er een ‘down’ status wordt gerapporteerd terwijl op dat moment al onze systemen perfect functioneren. Het status dashboard wordt extern gehost, zodat het ook beschikbaar is als er technische probleme zouden zijn met onze eigen systemen. We gebruiken ook Twitter om snel updates te verspreiden als er incidenten zijn.

Naast deze externe monitoring gebruiken we natuurlijk ook een intern monitoring systeem met tools zoals Cacti and Nagios. Als er een technisch incident is worden technici gealarmeerd per e-mail en SMS. Wij hebben daarvoor een 24/7 bezetting.

OpenX Source Ad Server