• E-Mail Newsletter

    Abonnieren Sie unseren E-Mail Newsletter um über geplante Wartungsarbeiten und Störungen informiert zu werden.

  • Twitter

    Folgen Sie @nine_ch_status auf Twitter.

  • RSS-Feed

    Abonnieren Sie unseren RSS-Feed.

    Abonnieren
  • API

    Über unsere REST-API können Sie diverse Informationen zum aktuellen Status abfragen.

    API Dokumentation
Geschlossen Betriebsstörung

Eingeschränkte Konnektivität

Zeitraum
28.11.2016, 23:40 CET
Betroffene Kunden
CZH4.1, ES34, CZH4.2, Letzigraben und Colocation/Housing
Update #2 - Freitag, 02. Dezember 2016, 09:16 CET

Incident Report: Core Router Config Changes 28.11.2016

Was:

Am 28.11.2016 um 23:25 Uhr kam es während eines Wartungsfensters zu einem unerwarteten Unterbruch einiger Netzwerkverbindungen von nine.ch.

Ablauf:

Um 23:00 Uhr wurde mit den geplanten Wartungsarbeiten gestartet. Diese hatten zum Ziel, Teile des nine.ch-Netzwerks als Vorbereitung für die neue DDoS-Filter- und Blackholing-Lösung auf SDN umzustellen.

Um 23:02:38 Uhr wurden interne Downstream-Interfaces auf dem ersten Core-Router im Rechenzentrum colozüri.ch deaktiviert. Nach diesen internen Downstream-Interfaces folgten die externen BGP-Verbindungen sowie die internen BGP-Verbindungen. Danach wurden die Verbindungen zu den weiteren Core-Routern sauber getrennt. Zeit: 23:11:16 Uhr. Bis zu diesem Zeitpunkt wurden keine Unterbrüche bei Kunden festgestellt, da die Redundanz über den zweiten Core-Router gegeben war.

Nach den Konfigurationsänderungen und dem planmässigen Neustart des ersten Routers um 23:20:16 Uhr wurden um 23:22:13 Uhr die ersten Interfaces aktiviert. Um 23:25:53 Uhr kam es zum Crash der Linecards des zweiten Core-Routers im colozüri.ch. Die Arbeiten am ersten Core Router wurden unterbrochen, damit die Ursache des Crashes des zweiten Routers analysiert werden konnte. Um 23:37:51 Uhr waren die Linecards des zweiten Routers, nachdem diese nach einem noch ungeklärten Fehler neu gestartet wurden, wieder bereit.

Eine Statusmeldung zu dem Vorfall wurde eröffnet. Die Wartungsarbeiten wurden um 23:44:51 Uhr fortgesetzt. Die internen sowie externen BGP Verbindungen und Ports in Richtung Kunden wurden wieder aktiviert.

Bei der Prüfung der Redundanz wurde festgestellt, dass eine einzelne OSPF-Verbindung nicht mehr aktiviert wurde. Nach dem manuellen Disablen des Interfaces konnte diese Verbindung reaktiviert und die Redundanz wieder hergestellt werden.

Verschiedene weitere Routing Probleme machten sich bemerkbar. Da unterschiedliche Teile des Netzes betroffen waren, gab es keine klare Indikation, wo die Ursache lag. Nachdem sich nach einiger Zeit der Status wieder zu beruhigen schien, wurden die Arbeiten fortgesetzt. Gleichzeitig wurden die Fehler im Zusammenhang mit MPLS weiter analysiert und es wurde nach einer Lösung gesucht.

Um 00:25 Uhr wurde mit den Arbeiten am zweiten Core-Router im e-shelter begonnen. Diese waren um 00:55:55 Uhr abgeschlossen und die Inbetriebnahme begann.

Der Fehler konnte nun besser eingegrenzt werden. Entsprechende Anpassungen der Konfiguration wurden ab 01:07 Uhr vorgenommen. Nach wenigen Sekunden beruhigte sich die Lage. Nachdem sich das Netz stabilisiert hatte, wurden Logs und Konfigurationsdaten auf den Routern gesammelt und um 02:00 Uhr ein Support-Case beim Hersteller eröffnet. Zurzeit arbeitet der Hersteller an der Root Cause Analyse.

Ursache:

Unser Netzwerk-Design sieht vor, dass wir den Ausfall von einzelnen Geräten abfangen können. Durch den gleichzeitigen, fehlerhaften Ausfall des zweiten Core-Routers im colozüri.ch konnte die Redundanz jedoch nicht aufrecht erhalten werden.

Massnahmen / Verbesserung: Im Moment prüfen wir verschiedene Möglichkeiten, unsere Redundanz noch weiter zu erhöhen, um einen solchen Ausfall während eines Wartungsfensters besser abdecken zu können. Ebenso laufen die Abklärungen mit dem Hersteller der Geräte zur Ursachenforschung und Lösungsfindung, um ein solches Problem in Zukunft zu verhindern.

Update #1 - Dienstag, 29. November 2016, 01:31 CET

Die volle Netzwerk-Konnektivität konnte wiederhergestellt werden. Wir werden zusammen mit dem Router Hersteller die Ursache untersuchen.

Meldung

Es bestanden Verbindungsprobleme zwischen unseren Datacenters eShelter, ColoZürich und Letzigraben. Die eingeschränkte Erreichbarkeit war für 5 Minuten gegeben.

Aktuell sind alle Verbindungen wieder normal. Die Analyse des Problems wird zurzeit durchgeführt. Sobald wir weitere Details kennen, werden wir wieder informieren.

Für die entstandenen Umstände bitten wir um Entschuldigung.