Unerwünschte Reboots durch Lüfterprobleme:
Aus den Top-25-Netzwerk-Fehlern: Trick 17 mit Selbstüberlistung

von Werner Veith (werner.veith@networkcomputing.de)

16.04.2009

Nichts ist schöner, als wenn die Änderung funktioniert. Doch dann vergisst der Nutzer die Konfiguration im Switch abzuspeichern, und das Unheil nimmt zunächst unbemerkt seinen Lauf. Netzwerk-Fehler können sehr unterschiedlich sein. Im dritten Teil geht es um Firewall-, Konfigurations- und Geräte-Problemen. Teil 1 und 2 widmen sich den häufigsten Fehlern bei Links, Routing und Quality-of-Service.

(Fortsetzung des Artikels von Seite 1)

Eigentlich sollte es nicht vorkommen, aber jeder Administrator hat es bestimmt schon einmal erlebt: Die Änderung auf dem Switch funktioniert, doch der Nutzer vergisst, sie abzuspeichern. Das fällt zunächst nicht auf. Erst wenn der Switch etwa wegen einem Stromausfall neu startet, wird die alte Konfiguration wieder wirksam. Da kann die Änderung aber schon lange her sein. Dies ist eines der Probleme, wie sie in den Top 25 der Netzwerkfehler von Netcordia [1] auftauchen. Der Anbieter hat sie aus seiner Praxis zusammengestellt. Die Schwierigkeiten sind dabei sehr unterschiedlich. Im dritten Teil geht es nun Probleme durch Firewalls, bei der Konfiguration und durch Komponenten. Teil 1 [2] widmete sich Link- und Routing-Problemen. Beim Teil 2 [3] standen Quality-of-Service (QoS) und Routing, speziell auch OSPF (Open-Shortest-Path-First), im Vordergrund.

In ihrem Poster listet Netcordia die Top 25 der Netzwerk-Fehler aus ihrer Praxis auf.

Firewall-Konfiguration kann eine Sache für sich sein. Wird das Regelwerk zu umfangreich, wird die Verarbeitung langsamer und die Performance sinkt. Auch viele ACL-Einträge können dazu führen. Hier hilft es, nicht benötigte Einträge zu entfernen. Dies erhöht gleichzeitig auch die Sicherheit. Ähnlich kann der Administrator nach nicht verwendeten Regeln in der Firewall suchen und diese entfernen. Das erhöht auch die Übersichtlichkeit und die Sicherheit.

Die Firewall kann aber auch erst ab einer bestimmten Last, einen Einbruch der Performance verursachen. Das passiert, wenn die Anzahl der gleichzeitig erlaubten Verbindungen zu klein ist und ab einem bestimmten Punkt dann nicht mehr ausreicht. Die Firewall weist nun weitere Verbindungsanfragen zurück. Da dies vermutlich eher bei einer hohen Last passiert, muss die Firewall gar nicht mal zuerst im Verdacht stehen, die eigentliche Bremse zu sein. Dies erschwert auch die Fehlersuche.

Netzwerkkomponenten verhalten sich manchmal seltsam und starten scheinbar ohne Grund neu. Deswegen hängen dann Applikationen mal kurz. Ursachen dafür sind beispielsweise Probleme mit der Lüftung, der Stromversorgung oder zu hohe Temperaturen. Aber auch ein Speicherüberlauf kann dafür der Grund sein. Etwa ein Fehler im Betriebssystem der Komponente führt dazu, dass Gerät weiter Speicher belegt, aber keinen mehr freigibt.

Eine zu geringe Bandbreite etwa auf einem WAN-Link zu einer Zweigstelle kann zu unregelmäßigen Problemen führen. Das berührt eventuell auch die Stabilität des Routing-Protokolls. Je mehr Bandbreite die Applikationen verwenden, desto instabiler verhält sich das Routing-Protokoll. Um dann Netzwerkpfade zu ändern, empfiehlt es sich dies über Routing mit Hilfe von Policies zu tun, anstatt die Parameter für die Bandbreite des Links zu ändern. Dabei sollte der Administrator auch darauf achten, dass die Bandbreiteneinstellungen der Tunnel ausreichend sind.

Mittels Redundanz stellt der Administrator sicher, dass beim Ausfall eines Switches oder Routers ein zweites Gerät einspringt. Es kann nun Vorkommen, dass das aktuelle Geräte meldet: HSRP- (Hot-Standby-Router-Protocol) oder VRRP-Peer (Virtual-Router-Redundancy-Protocol) not found. In diesem Fall funktioniert die Verbindung noch, aber bei einem Ausfall springt das Backup-System nicht an. Deshalb ist wichtig, dieser Meldung nachzugehen, solange die erste Komponente noch arbeitet. Ursachen für die Meldung sind beispielsweise ein kaputter Link, das zweite Gerät ist noch nicht installiert oder es ist dort ein Fehler aufgetreten.

Schließlich können auch Systeme Probleme verursachen, deren Konfiguration nicht den Unternehmensregeln entspricht. Dies führt etwa zu Problemen bei der Stabilität, der Sicherheit und der Performance. Ab einer gewissen Größe des Netzes wird es schwierig, die Konformität von Hand sicherzustellen. Hier hilft dann ein entsprechendes Managementprogramm.

[1] http://www.netcordia.com/
[2] die-top-25-netzwerk-fehler-von-routing-und-link-problemen/
[3] die-top-25-netzwerk-fehler-von-routing-und-qos-noeten/

Verwandte Artikel