Omluva a vysvětlení výpadku sítě SuperHostingu z 30.7.2015

Vážení klienti,

přijměte prosím moji omluvu za výpadek služeb SuperHosting.cz z 30.7.2015 v čase mezi 15.30 a 17.00

Výpadek byl způsoben sérií technických incidentů s IP konektivitou — 100 % na naší straně.

Od prvního okamžiku incidentu jsme dělali ihned vše pro maximálně rychlé vyřešení, bohužel celá oprava a zprovoznění trvala 90 minut.

Průběžný stav v době výpadku jsme aktualizovali každých 15 minut na Twitter účtu.

Co se stalo?

15.30

Záložní páteřní router na vstupu IP konektivity do datacentra TTC začal vykazovat chyby s pamětí, konkrétně jde o model Cisco 7609.

Technicky:

Došlo k memory leaku, který způsobil zacyklení některých routovacích pravidel.

Jul 30 15:28:15 192.168.150.27 1205870: Jul 30 15:28:14.936: %
MALLOCFAIL: Memory allocation of 1708 bytes failed from 0x81D61A0, alignment 32

Důvodem tohoto selhání je nejčastěji bug v konkrétní verzi Cisco IOSu.

Souběžně s memory leakem záložní router přestal komunikovat s jednou z linkových karet s 8 x 10G porty, kterou používáme jako jeden z uplinků mezi datacentry Sitel a TTC.

15.35

Provoz ze sekundárního routeru automaticky převzal primární páteřní router (Cisco 6509), který měl dostatek kapacity a do té doby odbavoval přibližně 80 % provozu, avšak z důvodu zacyklení routovacího procesu na výše zmíněném sekundárním routeru došlo k zacyklení provozu i na primárním prvku.

V tuto chvíli přestaly být některé naše prefixy viditelné z okolních sítí.

15.40

IP konektivita pro 90 % serverů v datacentru TTC byla offline.

15.50

Provedli jsme reload primárního páteřního Cisco 6509 routeru v TTC, který po tomto zásahu i přes správnou konfiguraci nenačetl kompletní nastavení a následně chybně detekoval jednu 8 x 10G linkovou kartu, kterou používáme jako uplink mezi datacentry TTC a Sitel.

Důvod ztracení konfigurace po reloadu routeru je dle informace od Cisco podpory vzácná chyba a prakticky ji nelze předcházet.

16.00

Obnovujeme kompletní konfiguraci na primárním páteřním routeru v TTC a přesouváme v datacentru TTC fyzicky uplinky v záložním routeru do funkční linkové 8 x 10G karty.

Zároveň přesouváme uplinky mezi TTC a Sitelem v primárním routeru do nové karty z produkční karty, která v daný moment — po reloadu routeru — nereagovala.

16.30

Máme link na primárním i záložním routeru mezi TTC a Sitelem.

17.00

Obnovili jsme funkčnost 95 % všech služeb a serverů, které jsou umístěné v datacentru TTC.

21.00

Odstranili jsme minoritní problémy, se kterými se potýkalo několik zákazníků. Síť je 100% stabilní.

Výpadek DNS serverů

Po dobu výpadku nám nefungovala dvojice DNS serverů resp. ani jeden ze 4 fyzických DNS serverů.

DNS servery máme umístěny ve dvou datacentrech (Sitel, TTC), přičemž jsme se několik let zpět rozhodli, že oba DNS servery ns1 a ns2.superhosting.cz budeme hostovat v našem AS39392, protože jedině tak máme vždy jejich funkčnost pod 100% kontrolou a jsme schopni rychleji reagovat např. na DDOS útoky.

V době výpadku byl jeden DNS server mimo postiženou část sítě, druhý byl offline v TTC.

Bohužel chybou na naší straně v návrhu, kdy prefix 95.168.192.0/20 propagujeme pouze z dvojice páteřních routerů v TTC, jsme v daný moment měli oba BGP routry offline, nebyl agregovaný prefix DNS serverů vidět v internetu.

Nedostupnost obou DNS serverů je situace, která se nám za posledních 10 let nikdy nestala a uděláme vše pro zajištění 100% dostupnosti v budoucnu.

V následujících dnech přesuneme DNS servery SuperHostingu do subnetu, který bude do internetu propagován pomocí anycast subnetu tj. kdy je jedna konkrétní IP adresa-subnet propagována z na sobě zcela nezávislých více sítí.

Tímto krokem budou DNS služby SuperHostingu dostupné i v okamžiku, který nastal včera.

Zajistíme propagaci DNS služeb z několika lokalit v Evropě a v USA.

Celková doba výpadku je vidět na následujícím grafu, který sleduje dostupnost z Budapešti:

Kontext

Důvěra se v hosting a IP služby buduje mnoho let a lze ji ztratit během několika desítek minut.

Včerejší 90 minutový výpadek byl pro nás největším výpadkem za posledních 7 let, navzdory naší dosavadní práci, která vždy směřuje primárně k zajištění dostupnosti.

Nedostupnost se nedotkla služeb, které poskytujeme v datacentru Sitel (IP konektivita) a neměla vliv na fungování Peering.cz služeb.

Zároveň se na internetu objevily spekulace, že došlo k saturaci portů na naší straně, které nejsou pravdivé.

Děkuji za pochopení a zachováte-li nám svoji důvěru, uděláme vše pro to, abychom ji nezklamali.

Kompenzaci za nedostupnost řešíme s klienty od dnešního rána individuálně, podle typu služby, kterou v konkrétním obchodním vztahu dodáváme.

Kontakt na nonstop podporu: podpora@superhosting.cz nebo +420 296 826 296.

Zdeněk Cendra, jednatel společnosti

Welcome to a place where words matter. On Medium, smart voices and original ideas take center stage - with no ads in sight. Watch
Follow all the topics you care about, and we’ll deliver the best stories for you to your homepage and inbox. Explore
Get unlimited access to the best stories on Medium — and support writers while you’re at it. Just $5/month. Upgrade

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store