[ITNOG] R: Wind offline

Andrea Costantino costan@amg.it
Lun 16 Giu 2014 12:11:54 CEST


I casini che si possono fare sono molti. Circa una decina di anni fa quando
fecero la fusione di AS 9034 e 9035 (e non c'era ancora il 1267 di
Infostrada/Iunet, se non sbaglio) annunciarono la full routing table al MIX
per errore, facendo un fantastico transito free per tutti quelli attaccati..
o almeno quelli il cui router a bassa capacità non cominciò a ribootare
spontaneamente (la routing table era già +200k prefissi all'epoca, e la RAM
dei router costava carissima!).

Comunque per il tipo di fault, non credo che sia spiegabile con un semplice
errore su singolo router, anche perché è il primo del domino, e se è uno
solo con l'errore al reboot sparisce l'effetto (per esempio se
redistribuisci la full routing table internet in IGP).

Inoltre il backbone Wind comprende apparati di vari brand (e varia capacità)
che dovrebbero avere comportamenti diversi.. insomma, sui router di core
anche se l'IGP ha la full routing table, funzionano uguale, secondo me.. i
dati di targa sono molto elevati e le TCAM/CEF/dCEF/acceleration path hanno
pletore di entry per via della full routing table comunque.

L'unica spiegazione, a parte un down elettrico molto grosso in un DC che ha
componenti non ridondate altrove (per esempio, sei un cretino e metti tutti
i route-reflector in un solo DC..), è una mutua ridistribuzione fra IGP e
BGP, che magari ha messo in blackhole tutto.. mentre l'IGP flappava sui
router meno carrozzati, la rotta restava perché loopava fra IGP e BGP, ed
ecco fatto il down.

Quanto alla ridondanza di DC, ho visto casi in cui riuscivano a fare
low-availability mettendo le catene incrociate fra i DC. Nodo 1a ha bisogno
di nodo 2a, e sono in due DC diversi. I gemelli (nodo 1b e nodo 2b) sono
nella stessa situazione, ma con i DC invertiti. Se si spegne un DC si
spengono entrambe le catene perchè manca un pezzo ad ognuna delle due
catene. Demenziale, ma a volte è inevitabile per motivi disparati, release
software, spazi, vendor incompatibili, pianificazione miope, migrazioni
interrotte etc.

Ad ogni modo nei sistemi attuali e con la migrazione Full IP che sta
avvenendo nei sistemi telco "tradizionali" (Sigtran, nodi solo IP, Evolved
Packet Core, VoiceOverLTE, Diameter-to-MAP, WifiOffload, Pico/NanoCelle
etc.), la maggior parte dei telefonici di vecchia data non capiscono le
implicazioni di una rete a pacchetto e di tutte le sfighe conseguenti.
Il risultato è stato venerdi 13.. non va l'IP -> non va nulla.

Ciao,
A.


-----Messaggio originale-----
Da: itnog [mailto:itnog-bounces@lists.itnog.it] Per conto di Lukas Tribus
Inviato: lunedì 16 giugno 2014 11:01
A: giorgio@grg-web.eu; Leonardo Arena; itnog@lists.itnog.it
Oggetto: Re: [ITNOG] Wind offline

> La vera domanda è: hanno scaricato tutto su un errore BGP di qualche tipo.

> 
> Secondo voi può spiegare un down completo e totale di tutta la rete? Ho 
> notizie di MPLS e comunque trasporti ETH punto punto che erano giù, 
> questi con il BGP ed errori L3 c'entrano ben poco.


Se per errori sul BGP hanno sovraccaricato le TCAM e le macchine hanno
fatto il forwarding in software, si (100% di CPU load sulle macchine,
flapping sulle interfacce, continui ricalcoli SPF del IGP).

O, se hanno redistribuito la full-table BGP in un IGP, anche quello
può causare casini di questo tipo.


Un 'meltdown' dell'IGP occorre in entrambi casi, con un effetto di questo
tipo.



Lukas

 		 	   		  

-- 
Mailing list info: http://lists.itnog.it/listinfo/itnog



Maggiori informazioni sulla lista itnog