Am Montag morgen kommt ein Prio 1 + Ticket rein, direkt vom Vorstand. Die weltwichtigste Videokonferenz von Europa nach Amerika funktioniert nicht. Im Ticket steht " bitte das gesamte Netzwerk neu starten".

Solche oder so ähnliche Anfragen sind immer eine Herausforderung. Man muss unter Zeitdruck schnell herausfinden was das eigentliche Problem ist.

Einige Probleme können einfach gelöst werden, wenn man direkt herausbekommt wo die Ursache liegt. Seit langer Zeit ist ping und traceroute eines der meistbenutzten Werkzeuge des Administrators.

Es ist überall verfügbar und bietet direkt eine Aussage über Erreichbarkeit und RoundTripTimes.

Wenn es aber dazu kommt, wie im oben beschriebenen Beispiel mit der Videokonferenz, dass die erste Analyse mit ping und traceroute keine Probleme aufzeigt, wird es meistens zeitintensiver den Fehler zu finden.

In Zeiten von Overlays, SDN und MPLS ist es komplexer geworden eine Fehlersuche durchzuführen. Hier kann es passieren, dass unsere alten Werkzeuge ping und traceroute sich als falsche Freunde erweisen.

Wenn unsere Testwerkzeuge einen anderen Weg durch das Netzwerk gehen als die gestörte Applikation wie die Pakete der Videokonferenz, werden wir bei der Fehlersuche in die falsche Richtung gelenkt.

Auch von der Provider Seite bekommt man oft nur nichtssagende Port Uplink Statistiken des eigenen Anschlusses geliefert, wenn man ein Ticket dort eröffnet. Nicht sehr hilfreich, wenn die Statistik vom eigenen

Asnchluss OK ist mit 10% Auslastung, der Uplink des Providers aber 100% Auslastung durch einen anderen Kunden hat.

Auch beim Provider sind die Uplinks geshared für alle angeschlossenen Endkunden. Teure, gemietete MPLS, private WAN Verbindungen des Providers stellen sich als Wolke dar, die für den Endkunden keinerlei oder

nur sehr eingeschränkte Möglichkeiten bieten was Monitoring und Verfügbarkeit angeht.

1.jpg

Wenn man sich nur auf seinen Provider verlässt, ist man oft verlassen. Hier hilft es sehr, wenn man in diesem

Bereich ausserhalb der eigenen Infrastruktur mehr Informationen bekommt.

Die angesprochenen Probleme werden von SolarWinds NetPath addressiert. Mit NetPath kann man einfach

Ende zu Ende Messungen durch komplexe Netzwerke durchführen, egal ob diese zur eigenen Netzwerk

Infrastruktur oder der des Providers gehört.

 

Das Prinzip ist einfach und genial. Es wird der Netpath discovered und danach eine permanente Ende zu Ende

Messung durchgeführt. Man kann in NetPath Traffic auf beliebigen Ports generieren um z.B. Video oder

Voice Traffic zu emulieren. Dadurch erhält man eine detaillierte Grafik über alle Komponenten im "NetPath"

der Kommunikation darstellt.

Neben dem Dokumentation Aspekt hat man auch sofort Hop-by-Hop live Daten aus der Messung und kann schnell

Flaschenhälse identifiezieren. Gerade in Situationen, in denen man keine aktuelle Dokumentation verfügbar hat,

ist dies sehr hilfreich. Die Dokumentation zu erstellen während der Fehlersuche ist nicht gerade ideal. Dazu ist die automatisiert ausgelesene Topologie aktuell und man sucht keine Phantomkomponenten aus der

Dokumentation, die vielleicht schon gar nicht mehr exsistieren.

2.jpg

Ist der Netpath einmal generiert, bekommt man sofort aus der live Messung Updates sobald sich etwas ändert. Gerade diese kontinuierliche Überwachung lässt uns besser die eigentlichen Probleme verstehen. Um das Bild

zu vervollständigen hat SolarWinds auch noch eine Integration des traditionellen Monitorings in NetPath. Wenn man z.B. eine hohe Latenz auf einem Link sieht und diese sofort

in Kontext mit Paketverlusten auf einem Interface bringen kann, ist die Fehlersuche schnell erfolgreich. Wenn die Videokonferenz wieder läuft kann man sich entspannt dem nächsten Ticket zuwenden.