Neue Details und Partner-Reaktionen zum Azure-Ausfall
Nach dem achtstündigen Ausfall bei Microsoft Azure gibt es neue Details zur Ursache. Für Partner und ihre Kunden waren die Folgen teils heftiger als erwartet. "Immer wenn so etwas passiert, wird allen bewusst, welche Dienste auf welchen Plattformen laufen", beobachtete etwa Zac Paulson von der ABM Technology Group.
Microsoft hat weitere Details zu dem mehr als achtstündigen Ausfall von Azure veröffentlicht, der vergangene Woche die Leistung einer Vielzahl von Produkten und Diensten des Technologieriesen beeinträchtigte und damit zahlreiche Nutzer bis hin zu Parlamenten ausbremste sowie die Services anderer Anbieter wie einer Fluggesellschaft, eines Flughafens und eines Telekommunikationsriesens lahmlegte. Der in Redmond, Washington, ansässige Anbieter veröffentlichte am Mittwoch einen vorläufigen Bericht über den Vorfall (PIR) und die Maßnahmen, die er ergreift, um eine Wiederholung des Problems zu verhindern. Der Ausfall scheint trotz seiner Dauer und Reichweite insgesamt weniger Probleme verursacht zu haben als der Vorfall bei Amazon Web Services in der Woche zuvor, der Verluste in Höhe von möglicherweise mehreren hundert Millionen Dollar verursacht hat.
Stillstand trotz Multicloud
Zac Paulson, Vice President of Technology bei der ABM Technology Group mit Sitz in Fargo, North Dakota, einem Mitglied der CRN 2025 MSP 500, erklärte CRN in einem Interview, dass der Ausfall Auswirkungen auf Azure- und Microsoft 365-Produkte und -Dienste hatte, die der Microsoft-Lösungsanbieter nutzt. Durch den Ausfall waren demnach einige von ABM genutzte Anbieterportale nicht mehr zugänglich, von denen Paulson davon ausgeht, dass sie in Azure gehostet wurden.
Der auf Microsoft-Produkte spezialisierte Softwareanbieter, dessen Kunden überwiegend Microsoft-Nutzer sind, nutzt gezielt Multi-Cloud-Umgebungen, um die Vorteile der einzelnen Cloud-Anbieter zu kombinieren und zudem ein Failover zu haben, falls eine Cloud ausfällt. Dass einige der von ihm und seinen Kunden genutzten Produkte und Dienste beim AWS-Ausfall dennoch nicht verfügbar waren, bezeichnete Paulson als umso aufschlussreichere Erfahrung. "Wir haben einfach abgewartet", sagte Paulson. "Immer wenn so etwas passiert, wird allen klar, welche Dienste auf welchen Plattformen laufen."
Im Folgenden fassen wir alle bisher bekannten Details zum Ausfall bei Microsoft Azure, seiner Vorgeschichte mit einem ähnlichen Ausfall am 9. Oktober, seinen Auswirkungen und den von Microsoft angekündigten Konsequenzen (Seite 2), sowie weitere Reaktionen von Partnern (Seite 3) zusammen.
So kam es zum achtstündigen Azure-Ausfall
Der Ausfall von Azure begann laut einem vorläufigen Bericht von Microsoft am Mittwoch um 16:45 Uhr UTC und endete am Donnerstag um 01:05 Uhr MEZ. Im Mittelpunkt der Probleme standen demnach das Cloud Content Delivery Network (CDN) und der Sicherheitsdienst Azure Front Door (AFD).
Die Probleme mit AFD führten zu Latenzen, Zeitüberschreitungen und Fehlern bei einer Vielzahl von Microsoft-Produkten und -Diensten, darunter Azure Active Directory B2C, Azure Databricks, Azure Healthcare APIs, Azure Portal, Azure SQL Database, Azure Virtual Desktop (AVD), Container Registry, Microsoft Copilot for Security, Teile von Microsoft Entra ID, Microsoft Defender External Attack Surface Management, Microsoft Purview, Microsoft Sentinel Threat Intelligence und Video Indexer.
Außerhalb der Microsoft-eigenen Produkte gaben auch andere Unternehmen wie Kroger und Alaska Airlines an, zum Zeitpunkt des Ausfalls Probleme gehabt zu haben. The Independent berichtete zudem, dass das schottische Parlament während des Ausfalls die Abstimmungen ausgesetzt habe.
Unbeabsichtigte Mandantenkonfiguration als Ursache
Microsoft machte "eine unbeabsichtigte Änderung der Mandantenkonfiguration innerhalb" von AFD für den Ausfall verantwortlich. Die Änderung führte laut Angaben des Anbieters zu Störungen bei Microsoft-Diensten und Kundenanwendungen, die für die globale Bereitstellung von Inhalten auf AFD angewiesen sind. Microsoft begann am Mittwoch um 17:15 Uhr mit der Untersuchung der Probleme.
AFD-Knoten konnten aufgrund des ungültigen oder inkonsistenten Konfigurationsstatus nicht ordnungsgemäß geladen werden, was sich auf nachgelagerte Dienste auswirkte. Die Auswirkungen wurden durch eine unausgewogene Verkehrsverteilung auf "intakte Knoten" verstärkt, da die "defekten Knoten" aus dem globalen Pool herausfielen. Selbst in teilweise intakten Regionen kam es deshalb laut Microsoft zu zeitweiligen Ausfällen. Der Anbieter schaltete das Azure-Portal um 18:26 Uhr außerhalb von AFD ab.
Microsoft blockierte weitere Konfigurationsänderungen, um die Ausbreitung des fehlerhaften Zustands zu stoppen. Es setzte die "letzte als funktionierend bekannte" Konfiguration in seiner globalen Flotte in einer schrittweisen Wiederherstellung ein, um das System zu stabilisieren, die Skalierbarkeit wiederherzustellen und eine Wiederholung des Problems zu verhindern. Die Bereitstellung der zuletzt bekannten funktionierenden Konfiguration begann um 18:40 Uhr, die manuelle Knotenwiederherstellung um 19:45 Uhr.
Möglicher Zusammenhang mit AFD-Problem von Anfang Oktober – weitere Schritte
Microsoft gab bekannt, dass die Störung am Donnerstag um 01:05 UTC beendet war und bestätigte, dass das AFD-Problem für die Kunden erfolgreich behoben wurde. Laut dem vorläufigen Bericht hat Microsoft seine Sicherheitsvorkehrungen überprüft und zusätzliche Validierungs- und Rollback-Kontrollen implementiert, um zu verhindern, dass ein ähnliches Problem in Zukunft erneut auftritt. Ein Softwarefehler ermöglichte es, dass die fehlerhafte Bereitstellung der Mandantenkonfiguration die bereits vorhandenen Sicherheitsvalidierungen umging. Der Anbieter erwartet einen detaillierteren Bericht in weniger als 14 Tagen.
Interessanterweise gab es bei Microsoft bereits am 9. Oktober ein AFD-Problem, das zu Latenzzeiten und Zeitüberschreitungen in Afrika, Europa, im asiatisch-pazifischen Raum und im Nahen Osten führte. Das Problem betraf Kunden ab 08:50 Uhr und endete um 17:00 Uhr desselben Tages.
Der Grund für diesen Vorfall war die Bereinigung von Mandanten mit fehlerhaften Metadaten, die durch eine bestimmte Abfolge von Profilaktualisierungsvorgängen erzeugt worden waren – ein laut Microsoft bisher unbekannter Fehler. Die Bereinigung begann 20 Minuten vor den ersten Auswirkungen auf die Kunden. Da Microsoft sein Schutzsystem umging, wurden die fehlerhaften Metadaten versehentlich in späteren Phasen weiter angezeigt, wodurch wiederum der Datenflächendienst abstürzte und Edge-Standorte in Europa und Afrika gestört wurden. Laut Microsoft führte der Fehler zu einer Unterbrechung von 26 Prozent der AFD-Datenebenen-Infrastrukturressourcen in diesen Regionen.
Microsoft gab nach dem Vorfall vom 9. Oktober bekannt, dass es seine Standardarbeitsanweisungen verschärft habe, um sicherzustellen, dass das Konfigurationsschutzsystem bei keinem Vorgang umgangen werden kann. Der Anbieter gab an, dass die Verbesserungen an den Failover-Systemen des Azure-Portals von AFD bis Dezember abgeschlossen sein sollten. Dennoch ist nicht unmittelbar nachvollziehbar, ob die von Microsoft seit dem Vorfall vom 9. Oktober bereits vorgenommenen Änderungen einen Einfluss auf den jüngsten AFD-Ausfall hatten.
So reagieren die Partner auf den MS-Azure-Ausfall
Paulson von ABM war bei weitem nicht der einzige Lösungsanbieter, der von dem Ausfall betroffen war. Wayne Roye, CEO des in New York ansässigen Microsoft-Lösungsanbieters Troinet, erklärte gegenüber CRN in einem Interview, dass nicht nur Microsoft-Tools, die er intern nutzt, sondern auch die Arbeit der Entwickler beeinträchtigt war, da die gesamte Entwicklungsumgebung von Troinet auf Azure läuft.
Der Ausfall zeige, dass selbst die besten Systeme auf dem Markt nicht unbedingt eine 100-prozentige Verfügbarkeitsgarantie bieten, konstatiert Roye. Nach eigenem Bekunden ist er oft bemüht darum, Kunden für den Fall von Massenausfällen und anderen Vorfällen über Business-Continuity-Pläne und die Infrastruktur von Drittanbietern aufzuklären. "Wir haben Sicherheitsgurte, aber das ist keine Garantie dafür, dass diese Sie bei einem Unfall retten werden", sagte Roye. Er geht davon aus, dass der Vorfall vielen Kunden nun deutlich vor Augen geführt hat, was er damit meint: "Viele Unternehmen werden ihr Infrastrukturdesign im Hinblick auf Redundanz neu bewerten."
John Snyder, CEO des in Durham, North Carolina, ansässigen Microsoft-Lösungsanbieters Net Friends, erklärte CRN in einem Interview, dass er eine Störung des Single Sign-On (SSO) beobachtet habe, wodurch die Vertriebs- und Marketingteams daran gehindert wurden, sich bei HubSpot anzumelden. "Das hatte Auswirkungen auf so ziemlich alles", beobachtete Snyder. Obwohl der Ausfall nicht "lähmend" war, sorgte er dennoch "für einen seltsamen Tag, an dem mehrere Teammitglieder feststellten, dass ein Tool, von dem sie dachten, es wäre nicht betroffen, aufgrund unserer Abhängigkeit von Microsoft für die Authentifizierung tatsächlich betroffen war."
Kein Wort zu den Vorfällen bei den Bilanzkonferenzen
Die Tatsache, dass es bei den großen Cloud-Anbietern immer wieder zu Ausfällen kommt, hat weder ihre in dieser Woche veröffentlichten Quartalsergebnisse getrübt, noch haben Analysten die Ausfälle in den Gewinnbekanntgaben angesprochen. Microsoft hat weiterhin die Exklusivrechte für die Azure-Anwendungsprogrammierschnittstelle (API) mit dem ChatGPT-Hersteller OpenAI, nachdem die beiden Unternehmen einige Details ihrer jüngsten Vereinbarung veröffentlicht haben. OpenAI hat sogar zusätzliche Azure-Dienste im Wert von 250 Milliarden US-Dollar in Auftrag gegeben. Der Bereich Intelligent Cloud (IC) von Microsoft erzielte im Quartal einen Umsatz von 30,9 Milliarden US-Dollar, was ohne Berücksichtigung von Wechselkurseffekten einem Anstieg von 27 Prozent entspricht. Azure und andere Cloud-Dienste verzeichneten einen Umsatzanstieg von 39 Prozent gegenüber dem Vorjahr.
Der Umsatz von Amazons AWS stieg im letzten Quartal um 20 Prozent gegenüber dem Vorjahr auf 33 Milliarden US-Dollar. Das Unternehmen hat nun einen annualisierten Umsatz von 132 Milliarden US-Dollar. Diese Wachstumsrate war auch die höchste seit 11 Quartalen und markiert ein seit 2022 nicht mehr gesehenes Wachstum und eine Beschleunigung um 270 Basispunkte gegenüber dem letzten Quartal.
Dieser Artikel erschien zuerst bei unserer Schwester-Publikation crn.com
CRN-Newsletter beziehen und Archiv nutzen - kostenlos: Jetzt bei der CRN Community anmelden