ThousandEyes: ‘De grootste internetstoringen van 2019 – een terugblik’

24 februari 2020

Een inter­net­sto­ring kan voor elk bedrijf enorme gevolgen hebben. Doordat gebrui­kers bij een storing geen toegang hebben tot appli­ca­ties en diensten, is de kans op een forse omzet­da­ling en omvang­rijke repu­ta­tie­schade groot. Daarbij is het leveren van appli­ca­ties niet alleen afhan­ke­lijk van veel verschil­lende Internet Service Providers (ISP’s), maar in toene­mende mate ook van een groot en complex ecosys­teem van inter­net­dien­sten, zoals CDN, DNS, DDoS-bescher­ming en public cloud. Deze diensten werken samen aan het leveren van optimale gebrui­ker­s­er­va­ringen en zelfs korte onder­bre­kingen kunnen al serieuze gevolgen hebben.

Een inter­net­sto­ring kan voor elk bedrijf enorme gevolgen hebben. Doordat gebrui­kers bij een storing geen toegang hebben tot appli­ca­ties en diensten, is de kans op een forse omzet­da­ling en omvang­rijke repu­ta­tie­schade groot. Daarbij is het leveren van appli­ca­ties niet alleen afhan­ke­lijk van veel verschil­lende Internet Service Providers (ISP’s), maar in toene­mende mate ook van een groot en complex ecosys­teem van inter­net­dien­sten, zoals CDN, DNS, DDoS-bescher­ming en public cloud. Deze diensten werken samen aan het leveren van optimale gebrui­ker­s­er­va­ringen en zelfs korte onder­bre­kingen kunnen al serieuze gevolgen hebben.
 
Tege­lij­ker­tijd vertrouwen bedrijven steeds meer op het internet om hun locaties onderling te verbinden en kritische appli­ca­ties en diensten beschik­baar te stellen. Appli­ca­ties worden steeds vaker niet meer in eigen data­cen­ters gehost en vesti­gingen zijn al lang niet meer onderling verbonden via MPLS. Het internet doet dienst als vervan­ging voor of aanvul­ling op MPLS nu bedrijven steeds vaker kiezen voor SD-WAN-tech­no­lo­gieën. Zo is het internet nu feitelijk de backbone van een onder­ne­ming. Maar dit ´best effort´-transport kan behoor­lijke (onvoor­ziene) conse­quen­ties hebben.
 
Wij hebben in het afgelopen jaar verschil­lende groot­scha­lige inter­net­sto­ringen gerap­por­teerd. De storingen met de meeste impact vonden plaats in de zomer van 2019 en raakten nagenoeg elk groot techbedrijf.
 
Dit waren in chro­no­lo­gi­sche volgorde de grootste storingen van 2019 en de lessen die ze ons leren.
 

13 mei 2019 — De storing bij China Telecom laat de wereldwijde reikwijdte van het bedrijf zien

Dit was weliswaar niet de grootste storing van 2019, maar wel een wereld­wijde en redelijk lang­du­rige. Het zorgde voor verschil­lende inci­denten en illu­streerde de reik­wijdte van China Telecom, die veel verder gaat dan China.
 
Op 13 mei was er gedurende vijf uur sprake van substan­tieel packet loss binnen de backbone van China Telecom. Dat had met name impact op de netwer­k­in­fra­struc­tuur in China zelf, maar ook op het netwerk in Singapore en op verschil­lende punten in de Verenigde Staten, waaronder Los Angeles. Meer dan honderd diensten hadden last van de storing. Hoewel de storing geen exclu­sieve impact had op diensten in het westen, moeten veel gebrui­kers van grote westerse tech­be­drijven als Apple, Amazon, Microsoft, Slack, Workday en SAP er last van hebben gehad. 

Figuur 1: cloud­dien­sten die getroffen werden door de storing bij China Telecom

 
Dit incident laat zien dat China een grotere invloed heeft op het wereld­wijde internet dan velen tot nu toe dachten. Meer specifiek illu­streert het incident dat de censuur van China verder­gaat dan eigen land­grenzen en zich uitstrekt tot landen waar een heel ander beleid voor inter­net­ge­bruik geldt. 
 

2 juni 2019 — De ‘zomer van de storingen’ begint met Google Cloud

Op 2 juni was er bij het Google Cloud Platform (GCP) sprake van een flinke netwerk­sto­ring die van invloed was op diensten in het oosten, midden en westen van de Verenigde Staten. De storing was van invloed op de eigen appli­ca­ties van Google, waaronder GSuite en YouTube, en duurde meer dan vier uur – wat lang is, gezien de kritische aard van de diensten voor zakelijke gebrui­kers. Google bracht enkele dagen later een officieel rapport uit over het incident. Thou­san­dEyes zag met behulp van zijn vantage points in realtime hoe de storing zich ontwik­kelde en kon al ‑voordat er meer detail­in­for­matie bekend was- de kenmerken en de schaal­grootte van de storing aangeven.
 
Deze begon rond 9.00 uur lokale tijd in het oosten van de Verenigde Staten. Thou­san­dEyes consta­teerde honderd procent packet­loss van wereld­wijde monitors die probeerden een verbin­ding te maken met een service die gehost werd in GCP us-west2‑a. Hetzelfde verlies zagen we bij sites die gehost werden in delen van GCP us-east, waaronder us-east4‑c.

Figuur 2: gebrui­kers kunnen een service die gehost wordt in GCP us-west, niet bereiken

De volledige onbe­reik­baar­heid van delen van Google’s netwerk was – zo consta­teerde Thou­san­dEyes – te wijten aan het per ongeluk offline halen van een netwerk-control plane. Google meldde later dat gedurende de storing een set van auto­ma­ti­sche policy’s bepaalde welke services wel en welke niet bereik­baar waren via de niet-getroffen delen van zijn netwerk.
 
Een van de belang­rijkste lessen van een derge­lijke cloud­sto­ring is de duide­lijke noodzaak van een cloud­ar­chi­tec­tuur met voldoende betrouw­baar­heids­maat­re­gelen, zij het op een multi­regio- of multi­cloud­basis. Het ligt immers voor de hand dat tech­no­logie soms last zal hebben van een storing. 
 

6 juni 2019 — Een ongelukkige samenloop van omstandigheden maakt WhatsApp onbereikbaar voor veel gebruikers

Op 6 juni hadden veel WhatsApp-gebrui­kers wereld­wijd last van connec­ti­vi­teitsis­sues. Thou­san­dEyes zag direct dat honderd procent packet­loss ervoor zorgde dat de service niet bereik­baar was. Na een nadere analyse zagen we dat de oorzaak lag in een omvang­rijke route leak die verkeer leidde naar China Telecom. Deze servi­ce­pro­vider stuurt echter geen Facebook-verkeer door. 
 

Figuur 3: China Telecom stuurt WhatsApp-verkeer niet door

 
Klinkt inge­wik­keld? Hieronder de feiten op een rij.
 
Het incident ontstond toen het Zwitserse colo­ca­tie­be­drijf Safe Host aan het internet liet weten dat WhatsApp en duizenden IP-prefixes het beste te bereiken zouden zijn via zijn AS 21217-netwerk. Toen Safe Host deze routes bekend­maakte, werden ze geac­cep­teerd door China Telecom en verder verspreid via andere ISP’s, waaronder Cogent. Gebrui­kers van wie het verkeer naar Cogent werd gerou­teerd – en dat uitein­de­lijk bij China Telecom terecht­kwam –, konden de service niet meer bereiken.
Het is niet duidelijk waarom China Telecom routes accep­teerde naar een dienst die het censu­reert. De les van deze storing is wel duidelijk: BGP route leaks zijn niet ongewoon op het internet. Wanneer je op het internet vertrouwt, dan is het zaak dat je weet hoe het werkt en dat een kleine storing bij een servi­ce­pro­vider gevolgen kan hebben voor andere partijen. Het is helaas de realiteit dat de risico’s van BGP route leaks en andere inter­net­te­kort­ko­mingen voor bedrijven toenemen, gezien het moderne service delivery-landschap.
 

24 juni 2019 – Gebruikers van Cloudflare zijn het slachtoffer van een routingfout

Slechts enkele weken na de grote WhatsApp-storingen was er opnieuw sprake van een route­ge­re­la­teerd incident. En dit keer was de schade groter.
 
Op 24 juni zorgde een flinke BGP-routing­fout twee uur lang voor problemen met de toegang tot de services via de CDN-leve­ran­cier Cloud­flare, waaronder de gaming­plat­forms Discord en Nintendo Life. Een analyse van Thou­san­dEyes liet zien dat een signi­fi­cante BGP route leak verschil­lende prefixes van verschil­lende providers had aangetast. DQE, een tran­sit­pro­vider, was de originele bron van de route leak, die was verspreid via Allegheny Tech­no­lo­gies, een klant van zowel DQE als Verizon. Onge­luk­ki­ger­wijze verspreidde Verizon de route leak verder, waardoor het effect werd versterkt. 
 

Figuur 4: een opval­lende path change voor toegang tot een Cloud­flare-gerou­teerde prefix

 
Sites die via het Cloud­flare CDN geser­veerd worden, hadden twee uur last van de storing die rond de vijftien procent van het wereld­wijde Cloudfare-verkeer en ‑services als Discord, Facebook en Reddit beïn­vloedde. De route leak had ook invloed op toegang tot sommige AWS-services.
 
De kern­oor­zaak van het incident bleek het gebruik van BGP-opti­ma­li­sa­tie­soft­ware door DQE. Deze software creëerde routes naar Cloud­flare-services, die alleen bedoeld waren voor gebruik binnen het interne netwerk van DQE. Nu deze routes per ongeluk naar een van zijn klanten werden gelekt, ging het mis.
 
Dit incident laat opnieuw zien hoe makkelijk het is om een wijziging aan te brengen in het inter­net­land­schap. Bedrijven hebben daarom inzicht nodig in het internet om vandaag de dag succesvol diensten aan gebrui­kers te kunnen leveren. 
 

6 september 2019 — DDoS-aanvallers belagen Wikipedia

Op 6 september waren Wikipedia-sites overal in de wereld gedurende bijna negen uur niet bereik­baar door een groot­scha­lige en hard­nek­kige Distri­buted Denial of Service-aanval (DDoS). DDoS-aanvallen kunnen de webom­ge­ving van een doelwit volledig over­spoelen met data en tevens zorgen voor file­vor­ming binnen servi­ce­pro­vi­der­net­werken. Dat kan weer leiden tot packet­loss. Dit was precies wat Thou­san­dEyes zag gebeuren bij deze aanval op Wikipedia.

Tijdens dit incident zagen we een signi­fi­cante terugval in de beschik­baar­heid van http-servers overal in de wereld en een sterke verslech­te­ring van de http-respons­tijden. Daardoor was het voor veel mensen in tal van regio’s niet mogelijk om via internet contact te leggen met Wikipedia-servers. Thou­san­dEyes consta­teerde ook packet­loss tot wel zestig procent, wat tevens bijdroeg aan de onbe­reik­baar­heid van Wikipedia-sites.

Figuur 5: de http-respons­tijden namen tijdens de aanval wereld­wijd sterk toe

 
DDoS-aanvallen gebeuren helaas op het internet, echter de getroffen orga­ni­satie dient dan wel inzicht te hebben in de scope, de impact en het gedrag van een aanval, zodat zij kan bepalen of de stappen die tegen een aanval genomen worden, echt effectief zijn. 
 
Het internet is voor veel bedrijven een black box, Wanneer er een storing optreedt, kunnen IT- en opera­ti­o­nele teams de oorzaak vaak moeilijk bepalen en is een effec­tieve reactie lastig. Aangezien het internet veel afhan­ke­lijk­heden kent en fragiel van aard is, zijn storingen onver­mij­de­lijk. Echter, inzicht in deze storingen kan de tijd die nodig is voor escalatie en het oplossen van problemen, sterk verkorten. Ook is dan beter met klanten te communiceren. 
 
Wie de risico’s van het onvoor­spel­bare internet wilt beheersen, wordt het tijd om de moge­lijk­heden van Thou­san­dEyes te onder­zoeken. Wij lanceerden onlangs Internet Insights, een dienst die de collec­tieve gegevens van miljoenen dage­lijkse inter­net­me­tingen bij elkaar brengt en een totaal­beeld creëert van de actuele gezond­heid van het internet.
 
Internet Insights iden­ti­fi­ceert en isoleert storingen bij speci­fieke servi­ce­pro­vi­ders en op speci­fieke locaties. De storingen worden op een in NOC-stijl vorm­ge­geven dashboard gepre­sen­teerd via views met tijd­lijnen en topo­gra­fi­sche data. Deze door data gedreven inzichten helpen Opera­tions-teams bij de storings­af­han­de­ling van inci­denten en netwerk­ma­na­gers en planners bij het creëren van inzicht in de betrouw­baar­heid van providers. 
 
 

 

Pin It on Pinterest

Share This