Omluva a vysvětlení výpadku sítě SuperHostingu z 30.7.2015

Vážení klienti,

přijměte prosím moji omluvu za výpadek služeb SuperHosting.cz z 30.7.2015 v čase mezi 15.30 a 17.00

Výpadek byl způsoben sérií technických incidentů s IP konektivitou — 100 % na naší straně.

Od prvního okamžiku incidentu jsme dělali ihned vše pro maximálně rychlé vyřešení, bohužel celá oprava a zprovoznění trvala 90 minut.

Průběžný stav v době výpadku jsme aktualizovali každých 15 minut na Twitter účtu.

Co se stalo?

15.30

Záložní páteřní router na vstupu IP konektivity do datacentra TTC začal vykazovat chyby s pamětí, konkrétně jde o model Cisco 7609.

Technicky:

Došlo k memory leaku, který způsobil zacyklení některých routovacích pravidel.

Jul 30 15:28:15 192.168.150.27 1205870: Jul 30 15:28:14.936: %
MALLOCFAIL: Memory allocation of 1708 bytes failed from 0x81D61A0, alignment 32

Důvodem tohoto selhání je nejčastěji bug v konkrétní verzi Cisco IOSu.

Souběžně s memory leakem záložní router přestal komunikovat s jednou z linkových karet s 8 x 10G porty, kterou používáme jako jeden z uplinků mezi datacentry Sitel a TTC.

15.35

Provoz ze sekundárního routeru automaticky převzal primární páteřní router (Cisco 6509), který měl dostatek kapacity a do té doby odbavoval přibližně 80 % provozu, avšak z důvodu zacyklení routovacího procesu na výše zmíněném sekundárním routeru došlo k zacyklení provozu i na primárním prvku.

V tuto chvíli přestaly být některé naše prefixy viditelné z okolních sítí.

15.40

IP konektivita pro 90 % serverů v datacentru TTC byla offline.

15.50

Provedli jsme reload primárního páteřního Cisco 6509 routeru v TTC, který po tomto zásahu i přes správnou konfiguraci nenačetl kompletní nastavení a následně chybně detekoval jednu 8 x 10G linkovou kartu, kterou používáme jako uplink mezi datacentry TTC a Sitel.

Důvod ztracení konfigurace po reloadu routeru je dle informace od Cisco podpory vzácná chyba a prakticky ji nelze předcházet.

16.00

Obnovujeme kompletní konfiguraci na primárním páteřním routeru v TTC a přesouváme v datacentru TTC fyzicky uplinky v záložním routeru do funkční linkové 8 x 10G karty.

Zároveň přesouváme uplinky mezi TTC a Sitelem v primárním routeru do nové karty z produkční karty, která v daný moment — po reloadu routeru — nereagovala.

16.30

Máme link na primárním i záložním routeru mezi TTC a Sitelem.

17.00

Obnovili jsme funkčnost 95 % všech služeb a serverů, které jsou umístěné v datacentru TTC.

21.00

Odstranili jsme minoritní problémy, se kterými se potýkalo několik zákazníků. Síť je 100% stabilní.

Výpadek DNS serverů

Po dobu výpadku nám nefungovala dvojice DNS serverů resp. ani jeden ze 4 fyzických DNS serverů.

DNS servery máme umístěny ve dvou datacentrech (Sitel, TTC), přičemž jsme se několik let zpět rozhodli, že oba DNS servery ns1 a ns2.superhosting.cz budeme hostovat v našem AS39392, protože jedině tak máme vždy jejich funkčnost pod 100% kontrolou a jsme schopni rychleji reagovat např. na DDOS útoky.

V době výpadku byl jeden DNS server mimo postiženou část sítě, druhý byl offline v TTC.

Bohužel chybou na naší straně v návrhu, kdy prefix 95.168.192.0/20 propagujeme pouze z dvojice páteřních routerů v TTC, jsme v daný moment měli oba BGP routry offline, nebyl agregovaný prefix DNS serverů vidět v internetu.

Nedostupnost obou DNS serverů je situace, která se nám za posledních 10 let nikdy nestala a uděláme vše pro zajištění 100% dostupnosti v budoucnu.

V následujících dnech přesuneme DNS servery SuperHostingu do subnetu, který bude do internetu propagován pomocí anycast subnetu tj. kdy je jedna konkrétní IP adresa-subnet propagována z na sobě zcela nezávislých více sítí.

Tímto krokem budou DNS služby SuperHostingu dostupné i v okamžiku, který nastal včera.

Zajistíme propagaci DNS služeb z několika lokalit v Evropě a v USA.

Celková doba výpadku je vidět na následujícím grafu, který sleduje dostupnost z Budapešti:

Kontext

Důvěra se v hosting a IP služby buduje mnoho let a lze ji ztratit během několika desítek minut.

Včerejší 90 minutový výpadek byl pro nás největším výpadkem za posledních 7 let, navzdory naší dosavadní práci, která vždy směřuje primárně k zajištění dostupnosti.

Nedostupnost se nedotkla služeb, které poskytujeme v datacentru Sitel (IP konektivita) a neměla vliv na fungování Peering.cz služeb.

Zároveň se na internetu objevily spekulace, že došlo k saturaci portů na naší straně, které nejsou pravdivé.

Děkuji za pochopení a zachováte-li nám svoji důvěru, uděláme vše pro to, abychom ji nezklamali.

Kompenzaci za nedostupnost řešíme s klienty od dnešního rána individuálně, podle typu služby, kterou v konkrétním obchodním vztahu dodáváme.

Kontakt na nonstop podporu: podpora@superhosting.cz nebo +420 296 826 296.

Zdeněk Cendra, jednatel společnosti