Die Tools zur Leistungsüberwachung und Fehlerdiagnose im Netzwerk (NPMD) von VIAVI erlauben, die Netzwerkdaten zu untersuchen und umfassende Analysen durchzuführen, um die IT-Ressourcen in Echtzeit sowie nach Eintritt des Ereignisses zu optimieren.
Durch die Überwachung der Netzwerkleistung wertvolle Einblicke gewinnen
Ihr Netzwerk-Team wird mit Beschwerden überhäuft, aber es hat keine Zeit, alle Störungen sofort zu beheben? Die größte Herausforderung bei der Sicherstellung der Leistung im Netzwerk besteht darin herauszufinden, wo man mit der Suche nach der eigentlichen Fehlerursache beginnen muss. Diese Situation verschärft sich noch, da die Netze mit der Einführung von IoT-, SD-WAN- und Cloud-Technologien immer abstrakter und dezentraler werden.
Die Tools zur Überwachung der Netzwerkleistung (Network Performance Monitoring, NPM) von VIAVI identifizieren die wichtigsten Probleme proaktiv, zeigen die Erlebnisqualität des Endnutzers an, führen eine Problemdiagnose durch und leiten die IT-Teams mit sofort einsatzbereiten Workflows direkt zur Lösung. Die von der Observer-Plattform bereitgestellten Einblicke basieren auf lückenlosen, nicht veränderten Paket- und Flussdaten, die granulare Sicherheitsuntersuchungen und Ursachenanalysen ermöglichen.
Lückenlose Überwachung der Netzwerkleistung für alle IT-Dienste
Observer bietet im Kern des Rechenzentrums, am Netzrand sowie in der Cloud umfassende Einblicke in kritische IT-Ressourcen. Die Plattform stellt aus der Perspektive des Endnutzers aussagekräftige Daten zum Netzwerk sowie zu den Anwendungen bereit und hilft den Netzwerk- und Betriebsteams eine maximale Effektivität der IT-Dienste zu gewährleisten. Hierbei unterstützt Observer diese drei kritischen Anwendungsfälle:
- Management neuer Initiativen und der täglichen Betriebsabläufe
- Minderung der mit planmäßigen und unerwarteten Ereignissen verbundenen Risiken
- Behebung von Leistungs- und Sicherheitsproblemen
Die von VIAVI angebotene Lösung zur Überwachung der Netzwerkleistung dient als Ausgangspunkt zum Beheben von Dienststörungen, zum Verwalten der Netzwerkressourcen sowie zum Untersuchen von besorgniserregenden Ereignissen (Indicators of Compromise, IOC) oder bestätigten Sicherheitsverletzungen. Auf dieser Grundlage können die IT-Teams umgehend auf die relevanten operativen Parameter der Anwendungen, Netzwerke, Infrastrukturen und Nutzer zugreifen und eine Vielzahl kritischer Leistungs- und Sicherheitsszenarien untersuchen.
Welche Komponenten umfasst die Überwachung der Netzwerkleistung?
Die Überwachung der Netzwerkleistung umfasst das Messen, Analysieren und Optimieren der Dienstgüte (QoS) im gesamten Netzwerk aus der Sicht des Nutzers. Effektive NPM-Lösungen charakterisieren und melden relevante Kennwerte der IT-Dienste und der unterstützenden Ressourcen. Zudem ermöglichen sie die Diagnose von Störungen in Netzen, Anwendungen und Sicherheitsroutinen und bieten Funktionen, die es erlauben, die Bereitstellung der Dienste insgesamt zu verbessern.
NPM-Tools nutzen verschiedene Datentypen, wie Flussdaten, Paketdaten und Infrastrukturkennwerte des Netzwerks. Lückenlose forensische und Echtzeitdaten in Verbindung mit herausragenden Analysefunktionen erlauben den Netzwerk-Administratoren, die täglichen Betriebsabläufe zu kontrollieren und Trends zu überwachen sowie gleichzeitig die Leistung zu optimieren und Sicherheitsrisiken weitestgehend zu mindern.
Warum wird die Überwachung der Netzwerkleistung immer komplexer?
Die mit der Überwachung des Netzwerks verbundenen Anforderungen steigen allgemein aufgrund der neuen hybriden IT-Infrastrukturen und insbesondere wegen der cloudbasierten Implementierungen. Hinzu kommen Abstraktionen von Ressourcen wie Server-Virtualisierungen und softwaredefinierte Netze (SDN). Da die Kontrollfunktionen, die bisher von traditionellen Routern, Servern und Firewalls übernommen wurden, jetzt in softwarebasierte Lösungen überführt werden, müssen auch die Überwachungsverfahren möglichst schnell an diese neuen virtualisierten Funktionen angepasst werden.
Zudem werden die Anwendungen immer komplizierter, da die Anzahl der Ebenen und der möglichen Hosting-Standorte ansteigt. Die Anwendungen sind nicht länger auf die früher notwendigen Vor-Ort-Implementierungen beschränkt, sondern können heute zwischen mehreren cloudbasierten oder externen geographischen Standorten, die sich mit traditionellen lokalen Installationen überlappen, verteilt sein. Diese zunehmende Komplexität hat zu einem modernen NPM-Konzept der Überwachung der Netzwerkleistung geführt, das eine umfassende Big-Data-Analyse, maschinelles Lernen (ML) und Cloud-Computing beinhaltet.
Welche Anforderungen muss die Fehlerdiagnose der Netzwerkleistung bewältigen?
Der von VIAVI Solutions durchgeführten Studie State of the Network Global Study for 2019 zufolge gab mehr als die Hälfte der Netzwerkspezialisten an, dass die Ermittlung der eigentlichen Fehlerursache die größte Herausforderung bei der Behebung von Leistungsstörungen im Netzwerk ist. Das bedeutet, dass die Netzwerk-Teams nicht wissen, wo sie mit der Arbeit beginnen sollen: Liegt die Fehlerursache im Netzwerk, in der Anwendung, beim Kunden oder im System? Diese Herausforderung wird noch komplexer, wenn es darum geht, die Netzwerkleistung in der Cloud oder an abgesetzten Standorten zu kontrollieren.
Das Internet der Dinge (IoT) und die daraus folgende stark steigende Anzahl von angeschlossenen Geräten wird die Situation weiter verschärfen. Eine zentrale Überwachung der Netzwerkleistung kann sich als eine effektive Strategie erweisen, um isolierte Vorgehensweisen (Silos), die die Probleme gelegentlich nur lückenhaft beheben, weitestgehend zu vermeiden. Auch ermöglicht sie einen aussagekräftigen Gesamtüberblick über das Netzwerk, der für eine effiziente Fehlerdiagnose unverzichtbar ist.
Wie können NPM-Lösungen die Fehlerdiagnose unterstützen?
Die Symptome sind leicht zu erkennen: Langsame oder instabile Verbindungen und sogar Ausfälle gehören zu den am häufigsten gemeldeten Störungen. Die Überwachung der Netzwerkleistung bietet den unschätzbaren Vorteil, dass sie es erlaubt, anhand der Symptome umgehend die tatsächliche Ursache der Störung zu identifizieren. Dadurch ist es möglich, effektive Korrektur- und Vorbeugungsmaßnahmen zu ergreifen.
Forrester Research zufolge wird ein Drittel der Leistungsstörungen in Netzwerken erst nach einem Monat oder auch gar nicht behoben. Ohne eine effektive Fehlerbehebungsstrategie treten diese niemals oder spät geklärten Probleme zweifellos immer wieder auf.
NPM-Lösungen erlauben, die Leistungskennwerte und andere relevante Daten mithilfe von Dashboards, aussagekräftigen Ansichten und Grafiken übersichtlicher darzustellen. Die von den meisten Produkten gebotenen Diagnose- und Analysefunktionen sind bei eventuell auftretenden Leistungs- oder Sicherheitsproblemen auch für die automatisierte Fehlerbehebung nutzbar. Ein weiteres wichtiges Leistungsmerkmal sind Alarme, die bei Überschreitung zuvor festgelegter Schwellwerte ausgelöst werden. Sie erhöhen die Aufmerksamkeit für potentielle Störungen, bevor diese kritische Zustände erreichen und die Leistung ernsthaft beeinträchtigen.
Lösungen, die es erlauben, alle Datenpakete, Datenflüsse, Konversationen und Transaktionen aufzuzeichnen, zu analysieren und langfristig zu speichern, können die Problembehebung deutlich beschleunigen. Die Archivierung dieser kritischen Daten sowie deren erweiterte Analyse versetzen das IT-Team in die Lage, nach einer Störung in kürzester Zeit große Datenmengen des Netzwerkverkehrs bis zum Zeitpunkt des Auftretens des auslösenden Ereignisses rückwirkend zu prüfen. Dabei ist es unerheblich, ob es sich um ein Problem mit Diensten oder um eine Sicherheitsverletzung handelt. Niemand muss mehr darauf warten, dass die Störung noch einmal auftritt. Nach der Lokalisierung des Problems können die Daten vor dem Hintergrund anderer Vorgänge, die zeitgleich abgelaufen sind, analysiert werden. Dieses Leistungsmerkmal ist mit einer Sicherheitskamera vergleichbar, die ununterbrochen „Bilder“, d. h. in diesem Fall Daten, vom Netzwerk aufzeichnet.
Welche Funktionen sind zum Beheben von Leistungsstörungen im Netzwerk erforderlich?
Eine effektive Strategie zur Leistungsüberwachung in Netzwerken muss drei Aufgaben erfüllen. Die erste und wichtigste Aufgabe besteht darin, das Nutzererlebnis exakt und zeitgerecht nachvollziehbar zu machen.
Da mehr als 40 % der Leistungsstörungen zuerst vom Nutzer gemeldet werden, gehört die Bewertung (Scoring) der Erlebnisqualität des Endnutzers zu den Parametern, die die umfassendsten und wertvollsten Einblicke in das Leistungsverhalten des Netzwerks bieten. Hierfür nutzen moderne NPM-Tools adaptive Intelligenz, um die Netzwerkbedingungen aus Nutzersicht zu überwachen. Damit ist es möglich, die Abläufe zur Problemlösung zu rationalisieren und zu priorisieren sowie gleichzeitig die Zufriedenheit und Bindung der Kunden zu erhöhen.
Die zweite wichtige Funktion betrifft die Bereitstellung forensischer Daten für Sicherheitsuntersuchungen. Dazu gehören angereicherte Datensätze („Enriched Flow Records“), die über den Nutzungsverlauf des Verkehrs, der Anwendungen und der Geräte im Netzwerk informieren. Darin eingeschlossen sind Paketdaten mit granularen Angaben zu spezifischen Dateien und URL-Adressen, die sofort geladen werden können, um konkrete Instanzen oder Muster wiederherzustellen und zu analysieren.
Eine erfolgreiche Fehlerdiagnose ist davon abhängig, dass umfassende Einblicke in alle Ereignisse zur Verfügung stehen und dass alle Transaktionen und Konversationen im Netzwerk in Form von Paketdaten archiviert werden. Eine lückenhafte Aufzeichnung führt zu einer ebenso lückenhaften Analyse und ignoriert den Wert der Daten. Daher sind forensische Netzwerk-Tools mit einer hohen Speicher- und Abrufkapazität unverzichtbar, um Verlaufsmuster detailliert und kontinuierlich untersuchen zu können.
Die dritte wichtige Funktion einer robusten NPM-Lösung ist die Anwendung rationeller Workflows, die die Lücke zwischen der Identifikation des Problems (Symptom) und der tatsächlichen Fehlerursache schnell und präzise schließen. Zu diesem Zweck ist maschinelles Lernen (ML) erforderlich, da es erlaubt, die Ereignisse proaktiv zu lokalisieren und deren Auswirkungen auf die Endnutzer zu bewerten sowie den Umfang und die Ursache der Störung zu ermitteln. Nach der Meldung des Problems benötigen die Teams sofort nutzbare Workflows, die dabei helfen, das Ausmaß der Beeinträchtigung der Endnutzer zu beurteilen, die logische Ursache der Störung zu finden und forensische Belege zu deren Behebung bereitzustellen.
Wie kann eine NPM-Lösung bestehende IT-Sicherheitsinitiativen stärken?
Früher arbeiteten Netzwerk- und Sicherheitsteams (NetOps und SecOps) relativ isoliert voneinander. Heute führen immer mehr Unternehmen ihre IT-Sicherheitsfunktionen in einem umfassenden Netzwerk-Leistungsmanagement zusammen. Dieser Schritt versteht sich von selbst, da Sicherheitsverletzungen zu den häufigsten Ursachen für Dienststörungen im Netzwerk zählen. Sicherheitsbedrohungen lösen möglicherweise überraschende Ereignisse aus, die teure Ausfallzeiten und kompromittierte Daten zur Folge haben können. Dieses Risiko lässt sich durch eine hochgenaue Forensik und technisch führende Untersuchungsfunktionen mindern.
Umfassende NPM-Lösungen stärken die Sicherheit, da sie tiefgehende Einblicke in den übertragenen Verkehr und in die zugrunde liegende Infrastruktur, die die Konversationsflüsse steuert, vermitteln. Dieses Wissen versetzt die SecOps- und NetOps-Teams in die Lage, Aktivitätsprofile der Nutzer und Geräte zu erstellen. Diese Profile lassen sich dann nutzen, um unberechtigte Verhaltensweisen umgehend zu erkennen und zu unterbinden. Zudem sind diese Daten wertvoll, um nach einem Zwischenfall kompromittierte Ressourcen zu bereinigen und vor allem einzuschätzen, welches geistige Eigentum des Unternehmens möglicherweise beschädigt wurde.
Welche Vorteile bietet die Überwachung der Netzwerkleistung?
Unternehmen setzen unter anderem auf technische Innovationen und strategische Migrationen in die Cloud. Um weiter wettbewerbsfähig zu bleiben, erfordern diese Maßnahmen hochkonzentrierte und flexible IT-Teams. Hier fällt es vielen CIOs (Chief Information Officer) jedoch schwer, ein ausgewogenes Verhältnis zwischen Innovationen und einer ganzheitlich funktionierenden Geschäftsstrategie (Operational Excellence) zu finden. Daher bietet eine rationelle Überwachung der Netzwerkleistung den zusätzlichen Vorteil, dass sie ein Gesamtkonzept ermöglicht, das den IT-Teams hilft, die gewünschte Operational Excellence zu erreichen. Gleichzeitig werden damit Ressourcen für wertschöpfende Innovationen freigesetzt.
Dieses mehrschichtige Konzept umfasst unter anderem das Management der täglichen Betriebsabläufe, die Minderung von Risiken durch planmäßige und außerplanmäßige Ereignisse sowie die optimierte Untersuchung und Behebung von Leistungsproblemen.
Das Management der täglichen Betriebsabläufe wird durch flexibel konfigurierbare Dashboard-Anzeigen und Berichte, die im gesamten Unternehmen die situationsabhängige Aufmerksamkeit stärken und Echtzeit-Einblicke in den Status und in Trends des Netzwerks vermitteln, vereinfacht. Diese erweiterte Transparenz ist auch für die Minderung von Risiken bei Veränderungen und unerwarteten Ereignissen unverzichtbar.
Branchenuntersuchungen zufolge betragen die Kosten für eine Stunde Netzwerkausfall im Durchschnitt 336.000 US-Dollar. Diese Zahl unterstreicht, wie wichtig es ist, potentiellen Störungen, angefangen bei Bedienerfehlern über fehlerhafte Konfigurationen bis zu Sicherheitsbedrohungen, immer einen Schritt voraus zu blieben. Nur so lässt sich ein Unternehmen rentabel führen und die Zufriedenheit der Kunden gewährleisten. Eine NPM-Lösung, die erweiterte Forensik-Funktionen und systematische Workflows bietet, kann (selbst bei subjektiven Endnutzer-Reklamationen) Leistungsstörungen schneller beheben.
Warum ist die Überwachung der Netzwerkleistung wichtig?
Die allgemeine Ausrichtung auf Operational Excellence hat viele Aspekte, die jeder für sich zur unterbrechungsfreien Verfügbarkeit des Netzwerks, der Leistung und der Sicherheit beiträgt. Die Identifizierung von Trends ist ein wichtiger NPM-Faktor, der mehrere Schwerpunktbereiche berührt.
Mithilfe der kontinuierlichen Überwachung können Trends, die möglicherweise die Leistung beeinträchtigen oder zu Sicherheitsbedrohungen führen, erkannt werden. Weiterhin lassen sich diese Trends mit zuvor ermittelten Referenzwerten vergleichen, um potentiell schädliche Bedingungen, einschließlich sporadisch oder nur zu Spitzenzeiten auftretende Ereignisse, zu erkennen.
Auch kann die Leistungsüberwachung bei der Planung und beim Konfigurationsmanagement des Netzes eine wichtige Rolle spielen. Sofort zur Verfügung stehende Berichte zur Auslastung der Ressourcen und Bandbreiten erleichtern die Planung des weiteren Netzausbaus. Über diese wertvolle, täglich relevante Funktion hinaus kann gar nicht genug betont werden, wie wichtig es ist, die Sicherheit des Netzwerks jederzeit zu gewährleisten und die Daten zuverlässig zu schützen. Die kontinuierliche Überwachung des Netzwerkverkehrs erlaubt, potentiell schädliche Dateien und Aktivitäten in Echtzeit zu erkennen und entsprechend zu eskalieren.
Welches sind die wichtigsten Leistungsmerkmale einer NPM-Lösung?
Eine effektive Lösung zur Überwachung der Netzwerkleistung (NPM) muss verschiedene Ausstattungsmerkmale aufweisen, um die Leistung effektiv überwachen, Werte schöpfen, Innovationen ermöglichen und jederzeit die Sicherheit gewährleisten zu können. Dazu gehören sicherlich auch die kontinuierliche, echtzeitbasierte Überwachung, Analyse und Visualisierung. Angesichts der Komplexität der heutigen Netzwerke und der allgegenwärtigen Sicherheitsbedrohungen können ein mangelndes Bewusstsein und verspätete Reaktionen große Schäden verursachen.
Die besten NPM-Lösungen bieten Online-Überwachungsfunktionen, die es erlauben, Daten von mehreren Unternehmensstandorten, Mobilgeräten und Cloud-Installationen zu erfassen und zu analysieren. Weiterhin besitzen sie die erforderliche Intelligenz, um neue Geräte und Hardware automatisch zu erkennen und korrekt einzuplanen.
Als weiteres wichtiges Leistungsmerkmal sollte die Lösung die vom Endnutzer wahrgenommene Erlebnisqualität in die Überwachung miteinbeziehen. Der Endnutzer ist der wichtigste Indikator der Systemleistung. Daher gehören die Überwachung der Endpunktleistung und das Erlebnis-Scoring des Endnutzers zu den empfohlenen besten Vorgehensweisen. Auch die effektive Anpassung der Benutzerschnittstelle in Form von flexiblen Dashboard-Anzeigen, intuitiven Grafiken und Kennwerten sind wichtige Funktionen zur Steigerung der Leistung der IT-Systeme und Optimierung der Reichweite des Netzwerks. Eingaben, Ausgaben und Alarmschwellwerte sollten mühelos programmierbar und zugänglich sein.
Neben diesen in jeder Hinsicht verbesserten Einblicken und der höheren Reaktionsgeschwindigkeit spielen automatisierte Abläufe eine wichtige Rolle, um Störungen auch ohne direkte Beaufsichtigung zu erkennen und zu beheben. Angesichts der komplexen Cloud-Implementierungen mit ihrem exponentiellen Anstieg an Verbindungspfaden spielt die Automatisierung eine immer wichtigere Rolle. Wenn es gelingt, die Anzahl der Störungen, die ein direktes, manuelles Eingreifen des IT-Teams erfordern, weitestgehend zu verringern, ist es auch möglich die Effizienz und Operational Excellence weiter zu steigern.
Welche Komponenten sind im NPM-Prozess enthalten?
Mit der Installation der richtigen NPM-Lösung ist Ihr Unternehmen bereits den ersten, wichtigen Schritt gegangen. Um die besten Überwachungsprozesse einrichten und diese wertvolle Ressource effektiv nutzen zu können, sind allerdings gründliche Überprüfungen, Analysen und Priorisierungen erforderlich. In diesem Zusammenhang müssen Entscheidungen dazu getroffen werden, was, wie und wie oft überwacht werden muss, um die wichtigsten Referenzwerte für die Netzwerkleistung zu ermitteln. Zum Festlegen der Alarmschwellwerte für das System sind weitere Planungen und Analysen notwendig. Um aussagekräftige Alarme zu ermöglichen und gleichzeitig eine wenig hilfreiche Informationsflut zu vermeiden, müssen diese Schwellwerte möglichst nah an den tatsächlichen Grenzwerten für die Beeinträchtigung von Diensten durch Trends oder Ereignisse liegen. Diese vorbereitenden Arbeiten sollten von Überlegungen zu den Rollen und Verantwortungsbereichen der Mitarbeiter begleitet werden. Es gilt festzulegen, wer die Überwachung durchführen, wer die Alarmmeldungen empfangen und wie der Zugriff auf die Informationen und deren Verteilung erfolgen soll. Wenn die grundlegende Hierarchie und Struktur der Netzwerkleistung eingerichtet ist, sollte es mühelos möglich sein, die gewünschte Operational Excellence zu erreichen.