Flächiger Ausfall reichweitenstarker Websites zeigt Abhängigkeiten auf

Nichts ging mehr am Dienstag dieser Woche bei den Webauftritten der britischen Regierung, von CNN, der New York Times, Financial Times – und auch der englische The Guardian war betroffen. Teilweise Ausfälle traten bei Amazon, Spotify, Twitch und Reddit auf. Es dauerte über zwei Stunden, bis die meisten Angebote wiederhergestellt waren – für Unternehmen, die von Online-Umsätzen leben, eine unerträglich lange Wartezeit.


Abbildung: Streaming, Lizenz CC0

Globaler Content

Ursache der Ausfälle war ein technisches Versagen beim kalifornischen Clouddienste-Anbieter Fastly, der sogenannte CDN-Dienste anbietet. Content Delivery Networks, das sind Netze weltweit verteilter, verbundener Server, mit denen hochvolumige Inhalte ausgeliefert werden, nutzen oft Anbieter, die audiovisuellen Content und reichweitenstarke Newsangebote ausspielen. Das CDN sorgt für globale Distribution und gleicht dabei Peaks – also Lastspitzen des Datenabrufs – aus, die einzelne Anbieter erzeugen, wenn neuer Content publiziert wird oder Events für hohe Nachfrage sorgen. Die aufwändige Technologie dahinter nimmt eine Verteilung auf regionale Knoten vor, die den Content “cachen”, also temporär zwischenspeichern, um ihn dann effizient über kurze Wege an die Streaming-Nutzerinnen und Webseitenbesucher weiterzureichen. Optimalerweise erhalten Sie die Inhalte dann ohne spürbare Latenz direkt von Ihrem Zugangsprovider, ohne dass jedes Datenpaket einmal um die Welt geht. CDNs bestehen aus zehntausenden leistungsstarken Servern, die sich gegenseitig vor Ausfällen schützen. Eine hohe Redundanz sorgt dafür, dass der erbrachte Dienst nie ausfällt. Nun ja, fast nie.

Reparieren und Schweigen

Aber genau das ist dann am Dienstag doch passiert. Eine Fehlkonfiguration sorgte für ein globales Versagen des CDN, wobei der Anbieter recht schmallippig blieb. Mehr als die Information, dass ein Fehler vorlag, gefunden worden sei und schließlich beseitigt wurde, war nicht zu erfahren. Die Sache war den Betreibern wohl mehr als nur unangenehm und dürfte auch zu Schadenersatzforderungen führen. Interessant wäre auch die Frage: Kann dies wieder passieren? Sind auch längere Ausfälle möglich, wenn jemand in der Systemadministration mal einen schwerwiegenden Fehler begeht? Der “fat finger” des Admins war schon häufiger die Ursache für den Ausfall redundanter Systeme, menschliche Fehler werden auch nie auszuschließen sein.

Gefährliche Bagger

Flächige Ausfälle sind vergleichsweise seltene Ereignisse, was mit dem Siegeszug der hochverfügbaren Clouddienste einhergeht. Noch vor einem Jahrzehnt wurden deutlich mehr Ausfälle von reichweitenstarken Sites registriert, die dann oft auf einen Ausfall eines örtlichen Rechenzentrums zurückgeführt wurden, das nicht global redundant ausgelegt war. Lokale Rechenzentren waren gängige Infrastrukturen, womit eine Abhängigkeit von der Stromversorgung vor Ort, der Verfügbarkeit von einzelnen Datenleitungen und der Hardware gegeben war. Manchmal genügte der Fehler eines unvorsichtigen Baggerfahrers, um tausende Websites tagelang lahmzulegen.

CDN-Anbieter fallen aufgrund der globalen Verteilung redundanter Knoten seltener aus, aber es gibt nur wenige Anbieter und diese stellen mittlerweile einen beachtlichen Teil der Infrastruktur. Kundenunternehmen sind hilflos, wenn ihr Anbieter in die Knie geht, da sie keine Möglichkeit haben, die Auslieferung ihres Contens kurzfristig umzuziehen oder auf die Störungsbeseitigung Einfluss zu nehmen.

Amerikanische Infrastrukturen

Die meisten CDNs sind amerikanische Unternehmen, Europa ist wieder einmal abgehängt. Wer also zu Zeiten Donald Trumps darüber scherzte, dass dieser bei seinem nächsten Wutausbruch den Europäern Streaming-Fernsehen und das Internet abschalten könnte, lag also gar nicht so weit daneben. Über rechtliche Verfügungen an US-amerikanische Anbieter wäre es durchaus denkbar, dass ein solch massiver Eingriff in die globale Webseite- und Content-Infrastruktur erfolgt. Der fast schon sprichwörtliche infrastrukturgefährdende Baggerfahrer saß also im weißen Haus. Der Schaden für die Unternehmen wäre aber erheblich und würde wohl auch die amerikanische Digitalwirtschaft empfindlich treffen, was gegen eine solche Wut-Aktion spräche. Und Joe Biden macht einen deutlich ausgeglicheneren Eindruck als sein Vorgänger, was uns alle beruhigen könnte.

Ein Plan B wäre sinnvoll

Unternehmen, die CDNs nutzen, sollten aber in Betracht ziehen, einen Plan B in der Schublade zu haben, wenn es mal zu einem Ausfall ihres Dienstleisters kommt. Im letzten Jahr gab es auch stundenweise Ausfälle bei den Cloudstrukturen von Google und Amazon, die ebenfalls als Warnzeichen angesehen werden können. Sollte ein mächtiger globaler Anbieter mal tageweise ausfallen, dürfte dies dann auch für Onlineauftritte großer Tageszeitungen, Fernsehsender, Newsdienste und E-Commerceanbieter gelten. Nicht jedes Unternehmen würde dies ohne dauerhafte Blessuren überleben.

”The purpose of computing is insight, not numbers.” (Richard Hamming) Ulrich Greveler studierte in Gießen Mathematik und Informatik, arbeitete sechs Jahre in der Industrie im In- und Ausland, bevor er als Wissenschaftler an die Ruhr-Universität nach Bochum wechselte. Seit 2006 lehrt er Informatik mit dem Schwerpunkt IT-Sicherheit an der Fachhochschule Münster (bis 03/2012) und der Hochschule Rhein-Waal (seit 03/2012). Sein besonderes Interesse gilt datenschutzfördernden Technologien und dem Spannungsverhältnis zwischen Privatsphäre und digitaler Vernetzung.

3 Kommentare

  1. Durch die CDNs wird die ursprüngliche Absicht des www unterlaufen, die Sicherheit des Datenverkehrs dadurch zu garantieren, dass man nicht weiß, welchen Weg die Daten vom Absender zum Empfänger nehmen werden.
    Wenn man also die CDN-Server kennt und ihren Standort, dann kann die Datenübermittlung gezielt gestört werden. Oder, wie hier, durch einen Fehler im CDN-Server.

    • @hwied (Zitat): „Durch die CDNs wird die ursprüngliche Absicht des www unterlaufen, die Sicherheit des Datenverkehrs dadurch zu garantieren, dass man nicht weiß, welchen Weg die Daten vom Absender zum Empfänger nehmen werden.“
      Wobei es ja gerade ein Problem sein kann, dass im heutigen Internet ein Datenpaket, das von A nach B geschickt wird, einen Weg beispielsweise auch über Russland nehmen kann. Ein Angreifer kann sogar bewusst den Pfad des Datenpakets verändern.
      Das Projekt SCION will ein alternatives, wesentlich sicheres Internet aufbauen und eines der zentralen Elemente von SCION ist gerade die Kontrolle und Einschränkung der möglichen Pfade, die ein Datenpaket nehmen kann. Zitat: “ Während Pakete heute «blind» von einem Router zum nächsten weitergereicht werden, «weiss» ein SCION-Datenpaket, wo es durch muss. Da ihm jeweils mehrere Pfade zur Auswahl stehen, kann der jeweils schnellste Pfad verwendet werden, wohingegen Datenpakete im heutigen Internet durch Angriffe oder Routing-Fehler auf Umwege geschickt werden oder ganz verloren gehen können. “.

      • Zitat: Die meisten CDNs sind amerikanische Unternehmen, Europa ist wieder einmal abgehängt.
        Ja, abgehängt ist Europa in vielen Bereichen. Die Frage ist warum? Am fehlenden Willen scheint es nicht zu liegen. Die Lissabon-Strategie 2010 sollte die Europäische Union zur „wettbewerbsfähigste Region der Erde“ machen. Im selben Jahr rief Brüssel die „Digitale Agenda für Europa“ aus.

        Doch geändert haben diese politischen Programme nichts. Man könnte sie 11 Jahre später unverändert wieder auflegen.

        Vielleicht ist es mehr ein kulturelles Problem als ein Problem, das die Politik lösen könnte.

        Im Tagesspiegel liest man unter dem Titel Einhörner im weltweiten Vergleich Wie abgehängt Europa in der Start-up-Welt ist dazu:

        Mit dem schwedischen Zahlungsdienstleister Klarna, der mit 31 Milliarden US-Dollar bewertet wird, findet sich in der weltweiten Rangliste des Datennetzwerks CB Insights erst auf Platz sieben ein Start-up aus Europa.

        Mit den Tech-Unternehmen Checkout.com und Global Switch folgen rund 15 Plätze dahinter zwei britische Firmen. Das nächste Einhorn aus der EU liegt sogar erst auf Platz 90; es ist der Logistiker Bolt aus Estland.

        Das ist kein Zufall. In den USA und auch in China sitzt das Risikokapital sehr viel lockerer.

        CDN‘s die, so wie hier beschrieben, Content regional cachen, sind absolut notwendig, denn wer in Brasilien den Spiegel liest sollte nicht jedesmal auf einen Hamburger Server zugreifen. Und dennoch gibt es für ein absolut notwendiges Produkt (fast) keinen europäischen Anbieter. Warum nur? Die kulturelle Erklärung scheint mir am Einleuchtendsten: Europäische Firmen scheuen das Risiko oder bekommen kein Risikokapital. Wer aber das Risiko scheut, der scheut vielleicht sogar das Leben.

Schreibe einen Kommentar