DE60116877T2

DE60116877T2 - System und verfahren zum erfassen von ereignissen

Info

Publication number: DE60116877T2
Application number: DE60116877T
Authority: DE
Inventors: Thomas Richard Felixstowe SCARFE; Andrew Edmund Ipswich KIRKHAM
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 2000-08-11
Filing date: 2001-08-02
Publication date: 2006-09-14
Anticipated expiration: 2021-08-03
Also published as: AU2001275737A1; CA2417817C; EP1307999B1; US20040103021A1; WO2002015479A1; DE60116877D1; EP1307999A1; US7143442B2; CA2417817A1

Description

Die vorliegende Erfindung betrifft ein System und ein Verfahren zum Erfassen von Ereignissen und ist besonders geeignet zum Erfassen von ungewöhnlichem Verhalten von Netzvorrichtungen durch Firewall-Systeme.
Ein Firewall-System kontrolliert den Zugriff auf ein oder von einem geschützten Netz (z. B. einem lokalen Netz (LAN)). Es implementiert eine Netzzugriffsrichtlinie, indem es erzwingt, dass Verbindungen durch die Firewall gehen, wo sie untersucht und bewertet werden können. Falls alle Zugriffe zu und von dem Internet durch eine Firewall gehen, kann die Firewall die Zugriffe protokollieren und wertvolle Statistiken über die Netzverwendung liefern. Eine Firewall mit geeigneten Alarmen, die ertönen, wenn eine verdächtige Aktivität stattfindet, kann außerdem Einzelheiten darüber liefern, ob die Firewall und das Netz sondiert oder angegriffen werden. Herkömmlich werden die Netzverwendungsstatistiken und ein Anzeichen für Sondierung aus einer Anzahl von Gründen protokolliert. Es ist wichtig zu wissen, ob die Firewall Sondierungen und Angriffen standhält und ob die Kontrollen an der Firewall ausreichend sind.
Herkömmliche Firewall-Systeme verwenden schnelle Filtermechanismen, die verwendet werden, um Datagramme gemäß vorgegebenen Vorschriften zu sperren. Diese Vorschriften spezifizieren Listen von Diensten, die gesperrt werden sollten, und sind gemäß einer Sicherheitsrichtlinie implementiert. Der Besitzer eines privaten Netzes hinter dem Firewall-System spezifiziert typisch Sicherheitsrichtlinien, die ein Gleichgewicht einerseits zwischen einer Unternehmensnotwendigkeit, auf bestimmte externe Dienste zuzugreifen, und andererseits einer Notwendigkeit, unberechtigte Angriffe auf seine internen Systeme zu minimieren, widerspiegeln. Wenn ein Paket mit einer der Firewall-Vorschriften in Konflikt gerät und fallen gelassen wird, erfüllt dies vorgeblich die Sicherheitsnotwendigkeiten des Unternehmens hinter der Firewall; allerdings können sich die Typen und Muster der Angriffe in der Weise ändern, dass sie es schaffen, die Kontrollen in der Sicherheitsrichtlinie zu umgehen.
Typisch wird der gesamte Verkehr, der an dem Firewall-System ankommt, in einem Firewall-Protokoll protokolliert. Aus der Überwachung und Analyse des gesamten ankommenden Verkehrs können äußerst nützliche Informationen über die Arten von Angriffen und die Quellen von Angriffen entnommen werden, wobei es üblich ist, eine Firewall-Sonde in Kommunikation mit dem Firewall-Protokoll zu installieren. Die Firewall-Sonde sucht nach vorgegebenen Sequenzen – z. B. mehreren Versuchen, auf einen bestimmten Port zuzugreifen, der eine Kennwortauthentisierung erfordert; Versuchen, auf bestimmte Ports zuzugreifen, von denen bekannt ist, dass sie für eine sensible Funktionalität reserviert sind, usw. Eines der Probleme mit der Firewall-Sonde ist, dass die Sequenzen, nach denen sie sucht, durch die Erfahrung, die Fertigkeit und das Urteil eines Firewall-Administrators bestimmt sind, da sich die Typen und Muster der auf eine Firewall ausgeübten Angriffe in schnellem Tempo ändern. Somit wird die Funktionalität einer Firewall-Sonde größtenteils durch eine Reaktion auf bekannte Angriffsverfahren vorangetrieben und kann derzeit nicht auf algorithmische Weise erfasst werden.
Falls das Verhalten des ankommenden Verkehrs in eine dieser vorgegebenen Sequenzen fällt, wird ein Warnsignal erzeugt, das zusammen mit bestimmten Einzelheiten, die das der Warnung zugeordnete Paket oder die ihr zugeordneten Pakete betreffen, an einen Firewall-Betreiber übergeben wird. Der Firewall-Betreiber entscheidet dann, welche Maßnahme ergriffen werden sollte. Für Firewall-Systeme, die viel Verkehr empfangen, kann ein Firewall-Betreiber vielen Warnungen gegenüberstehen – die Mehrzahl von diesen sind nicht Hacking-Versuche, sondern könnten Konfigurationsprobleme sein (z. B. ist eine neue Vorrichtung in dem privaten Netz installiert worden, wobei die Sicherheitsrichtlinie aber nicht aktualisiert worden ist, damit sie den Zugriff auf diese Vorrichtung enthält). Auf einer psychologischen Ebene kann die Konzentrationsspanne eines Menschen, wenn er mehreren Bildschirmen von Nachrichten (Daten) gegenübersteht, begrenzt sein. Darüber hinaus können die Aufmerksamkeit und Motivation des Betreibers noch weiter sinken, wenn eine beträchtliche Anzahl dieser Nachrichten eher infrastrukturbezogen als sicherheitsbezogen sind. Somit wären irgendwelche Mittel, dieses Verfahren zu automatisieren und die Notwendigkeit der Beteiligung von Menschen zu verringern, von großem Nutzen.
WO 00/05842 offenbart ein Verfahren zur Schaffung einer Veranschaulichung von Netzereignissen unter Verwendung von Sensoren in dem Netz, um gemäß der Steuerung eines Sensormanager-Hilfsmittels Daten zu erheben. Die gesammelten Daten werden in eine Wissensbasis geschrieben, die unter Verwendung eines Browser-Hilfsmittels und/oder einer bekannten analytischen Maschine durchsucht werden kann, um eine Ausgabe an eine visuelle Anzeige von Netzereignissen zu liefern.
Gemäß einem ersten Aspekt der Erfindung wird ein Verfahren zum Analysieren von Netzereignissen gemäß Anspruch 1 geschaffen. Gemäß einem zweiten Aspekt der Erfindung wird eine Vorrichtung zum Analysieren von Netzereignissen gemäß Anspruch 9 geschaffen.
Vorzugsweise enthält die Vorrichtung Mittel zum Bestimmen einer Häufigkeit des Auftretens jedes möglichen Paars von Gruppenzuordnungen, so dass Paare, die mit einer Häufigkeit unter einem vorgegebenen Häufigkeitsschwellenwert auftreten, als seltene Paare klassifiziert werden. Ferner enthält die Vorrichtung Mittel zum Vergleichen seltener Paare mit Paaren von Gruppen, die neu erfassten Netzverkehrsereignissen zugeordnet sind, und zum Erzeugen einer Warnung, falls Gruppen, die neu erfassten Netzverkehrsereignissen entsprechen, in die seltenen Paare fallen. Wenn die Vorrichtung in funktionaler Zuordnung mit einem Firewall-System ist, kann eine solche Warnung somit zweckmäßig an das Firewall-System ausgegeben werden.
Begriffserklärung:
In der folgenden Beschreibung werden die Begriffe Firewall-Daten, Feld, Hauptkomponente, Faktor, Faktorausdruck, Cluster-Paarung, IP-Adressen-Cluster verwendet. Diese sind wie folgt definiert:
"Firewall-Daten": Daten, z. B. Pakete, die an einer Firewall-Komponente wie etwa einem Router oder einer Server-Maschine empfangen und aufgezeichnet werden, indem sie z. B. in ein Firewall-Protokoll geschrieben werden;
"Feld": Strukturierte Daten wie etwa Pakete, die an der Firewall-Komponente ankommen, werden auf administrative Informationen analysiert und diese Informationen in dem Firewall-Protokoll gesichert. Diese Informationen (wie etwa das Ankunftsdatum des Pakets, die Ankunftszeit des Pakets, die durch die Firewall in Bezug auf das Paket ausgeführte Aktion, die Schnittstelle, an der das Paket empfangen wurde, das dem Paket entsprechende Transportschichtprotokoll, die Quell-IP-Adresse des Pakets, die Ziel-IP-Adresse des Pakets, die Paketlänge usw.) werden daraufhin in Felder übersetzt, von denen jedes eine einzelne Charakteristik einer IP-Adresse beschreibt: den Protokolltyp, der gesendet oder empfangen wird (FTP, Telnet, HTTP, ICMP, TCP usw.), die Anzahl der Pakete, die gesendet oder empfangen werden, usw. (siehe Tabelle 1 im Anhang 1 und die folgende Beschreibung);
"Hauptkomponente": Falls eine Entität durch mehrere Charakteristiken beschrieben wird, wobei z. B. der menschliche Körper durch die Armlänge, die Schuhgröße, die Oberschenkellänge, den Schädeldurchmesser usw. beschrieben werden kann, ist es wahrscheinlich, dass es eine Korrelation zwischen einigen dieser Charakteristiken gibt. Falls es eine Korrelation zwischen einigen Charakteristiken gibt, können diese korrelierten Charakteristiken auf wenige Hauptkomponenten verringert werden – z. B. kann die Länge des Arms direkt auf die Länge des Oberkörpers bezogen werden, d. h. eher, als das Oberteil eines menschlichen Körpers sowohl durch die Armlänge als auch durch die Oberkörperlänge zu beschreiben, kann eine Einzelkomponente verwendet wird (wobei die Einzelkomponente Komponenten sowohl von der Oberkörper- als auch von der Armlänge umfasst). Somit verringert das Extrahieren der Hauptkomponenten einer Entität die Anzahl der Komponenten, durch die die Entität beschrieben werden kann;
"Faktoren": die Hauptkomponenten für Firewall-Daten;
"Faktorausdruck": ein Ausdruck, der alle Faktoren beschreibt, die für eine IP-Adresse wichtig sind: z. B. hat die IP-Adresse 0.0.0.2 den Faktorausdruck αF₁ + βF₂ + γF₃ usw., wobei α, β, γ Koeffizienten sind, die relative Beiträge von jedem der Faktoren repräsentieren;
"IP-Adressen-Cluster": ein Cluster von IP-Adressen, die durch gemeinsame Faktoren korreliert sind;
"Cluster-Paarung": ein Paar von Clustern.
Die obigen Begriffe sind im Kontext von IP-Daten (z. B. Paketen, TELNET-Protokoll, FTP-Protokoll usw.) definiert; allerdings könnten Daten gemäß anderen Netzprotokollen übertragen werden, wobei die Daten in diesem Fall im Kontext des geeigneten Netzprotokolls beschrieben würden (z. B. ATM – wobei Daten in Zellen übertragen werden).
Weitere Aspekte, Merkmale und Vorteile des Verfahrens und der Vorrichtung zum Erfassen ungewöhnlicher Ereignisse werden nun lediglich beispielhaft als eine Ausführungsform der vorliegenden Erfindung und mit Bezug auf die beigefügte Zeichnung beschrieben, in der:
1 ein Prinzipschaltbild ist, das eine Firewall-Konfiguration zeigt, die eine Dual-Home-Gateway-Firewall umfasst;
2 ein Prinzipblockschaltbild einer Vorrichtung zum Erfassen ungewöhnlicher Ereignisse gemäß einer Ausführungsform der Erfindung ist;
3 ein Prinzipblockschaltbild ist, das Komponenten von Identifizierungsmitteln zeigt, die einen Teil der Vorrichtung zum Erfassen ungewöhnlicher Ereignisse aus 2 bilden;
4 ein Ablaufplan ist, der die durch Komponenten der Identifizierungsmittel aus 3 ausgeführten Verfahren zeigt;
5 eine zweidimensionale Darstellung von Clustern ist, die durch eine der Komponenten der Identifizierungsmittel aus 3 bestimmt worden sind;
6 ein schematischer Blockschaltplan ist, der Komponenten von Verarbeitungsmitteln zeigt, die einen Teil der Vorrichtung zum Erfassen ungewöhnlicher Ereignisse aus 2 bilden;
7 ein Ablaufplan ist, der die von Komponenten der Verarbeitungsmittel aus 6 ausgeführten Verfahren zeigt; und
8 ein Beispiel der von den Verarbeitungsmitteln aus 3 erzeugten Ausgabe ist.
Übersicht
1 zeigt ein Prinzipschaltbild einer als ein Dual-Home-Gateway-System bekannten typischen Firewall-Konfiguration 100, die auf einer Seite mit dem Internet 105 und auf der anderen Seite mit einem privaten Netz 107 verbunden ist. Die Firewall-Konfiguration 100 umfasst ein Host-System 101 mit zwei Netzschnittstellen 101a, 101b, wo die IP-Weiterleitungsfähigkeit des Hosts gesperrt ist (d. h., wo die Standardbedingung ist, dass der Host Pakete nicht zwischen den zwei verbundenen Netzen 105, 107 leiten kann). Das Host-System 101 ermöglicht gemäß einer ersten Menge vorgegebener Vorschriften Internet-Verkehr, wie er durch den Richtungspfeil 102a angegeben ist, über die erste Schnittstelle 101a auf ein Gateway 104. Der Verkehrsfluss in das private Netz 107 (über eine zweite Schnittstelle 101b) wird, wie durch den Richtungspfeil 102b angegeben ist, gemäß einer zweiten vorgegebenen Menge von Vorschriften gesteuert. Diese Vorschriften spezifizieren typisch vorgegebene Aktionen in Bezug auf Typen von Paketen und enthalten entweder das Zulassen, dass Pakete durch die jeweiligen Schnittstellen 101a, 101b gehen, oder das Fallenlassen der Pakete. Die Vorschriften sind in Übereinstimmung mit einer dem privaten Netz 107 zugeordneten Sicherheitsrichtlinie implementiert.
Die Proxy-Server 103 an dem Gateway 104 stellen Dienste wie etwa TELNET, FTP und E-Mail usw. bereit, wobei das Host-System 101 im Fall von E-Mail typisch die gesamte Mail des Standorts annimmt und daraufhin über eine zweite Schnittstelle 101b an das private Netz 107 weiterleitet. Außerdem kann das Firewall-System 100 über ein Firewall-Protokoll 109 den Zugriff auf das private Netz 107 und Versuche zum Sondieren des privaten Netzes 107 (und tatsächlich des Host-Systems 101 selbst) protokollieren. Das Firewall-Protokoll 109 steht in Kommunikation mit Überwachungsmitteln 111, die ständig auf Auftritte vorgegebener Sequenzen von Aktionen prüfen und eine Warnung 112 erzeugen, falls ankommender Verkehr in irgendeine dieser Sequenzen von Aktionen fällt. Diese Warnung wird durch Anzeigemittel 113 empfangen. Die Anzeigemittel 113 befinden sich vorzugsweise fern von dem Firewall-System 100, z. B. in einem anderen Teilnetz, so dass die Warnungen über das Netz gesendet werden. Auf diese Weise kann ein Unternehmen, das mehrere verschiedene Firewall-Systeme managt, die Aktivität in allen Firewall-Systemen an einem zentralen Ort überwachen. Alternativ könnten sich die Anzeigemittel 113 z. B. in demselben Teilnetz wie das Firewall-System 100 befinden, falls es nur ein zu überwachendes Firewall-System gibt.
Die Vorschriften, die den vorgegebenen Sequenzen zugeordnet sind, konfiguriert typisch ein Systemadministrator gemäß seiner Fertigkeit, seiner Kenntnis und seinem Sachverstand, wobei ein Firewall-Betreiber irgendwelche zugeordneten Warnungen überprüft, die auf den Anzeigemitteln 113 angezeigt werden. Diese Vorschriften irren sich häufig auf der Seite äußerster Wachsamkeit und können dazu führen, dass eine gewaltige Anzahl von Warnungsmeldungen erzeugt werden. Dies kann eine kognitive Überlastung des Firewall-Betreibers erzeugen, der nicht effizient folgen kann oder nicht einmal von allen ihm angezeigten Warnungsmeldungen wissen kann.
Übersicht über den Detektor 201 seltener Ereignisse
Wie in 2 gezeigt ist, umfasst der Detektor 201 seltener Ereignisse zwei Teile, Identifizierungsmittel 203 zum Identifizieren der Kriterien seltener Ereignisse und Verarbeitungsmittel 207 zum Verarbeiten von Daten in Übereinstimmung mit den Kriterien seltener Ereignisse. Die Identifizierungsmittel 203 bearbeiten offline Daten, die vorher in dem Firewall-Protokoll 109 erhoben worden sind, und identifizieren Kriterien, die seltene IP-Adressenereignisse charakterisieren. Die Verarbeitungsmittel 207 empfangen frische Daten 217 von dem Firewall-Protokoll und wenden die durch die Identifizierungsmittel 203 festgesetzten Kriterien seltener Ereignisse an, um ankommende IP-Pakete zu untersuchen und dadurch irgendwelche IP-Adressen zu identifizieren, die in die identifizierten Kriterien fallen.
Die Identifizierungsmittel 203 enthalten Kategorisiermittel zum Kategorisieren von Netzverkehrsereignissen zu IP-Adressen sowie Analysiermittel zum Analysieren wenigstens eines Aspekts der Netzverkehrsereignisse wie etwa des Typs und des Ziels des Verkehrsereignisses und zum Identifizieren von Clustern. Die Funktionalität der Kategorisier- und der Analysiermittel könnte z. B. durch einen (im Folgenden genauer beschriebenen) Hauptkomponentenanalysator 301 in Verbindung mit einem Cluster-Analysator 303 realisiert sein. Außerdem enthalten die Identifizierungsmittel 203 Gruppenbestim mungsmittel zum Bestimmen einer Gruppen- oder Cluster-Zuordnung für die IP-Adressen und Erzeugungsmittel zum Erzeugen einer oder mehrerer Bedingungen in Bezug auf die Cluster. Die Funktionalität der Gruppenbestimmungs- und Gruppenerzeugungsmittel könnte durch die Klassifizierungsmittel 305 in Verbindung mit den im Folgenden genauer beschriebenen Bewertungsmittel 307 realisiert sein. Die Verarbeitungsmittel 207 enthalten Klassifizierungsmittel, um ein neu erfasstes Netzverkehrsereignisses in Übereinstimmung mit der einen erzeugten Bedingung oder mit den mehreren erzeugten Bedingungen zu klassifizieren.
Im Betrieb empfangen die Identifizierungsmittel 203 aus dem Firewall-Protokoll 109 Daten 211, typisch mehrere Tage Daten. Diese Daten 211 umfassen Daten von IP-Paketen, die von der Firewall 100 gesehen worden sind, und enthalten Informationen wie etwa Quell- und Ziel-IP-Adressen, Ports, Protokolltypen, die den Paketen zugeordnet sind, die Zeit, zu der das Paket an der Firewall empfangen wurde, usw. Die Identifizierungsmittel 203 kategorisieren eine vorgegebene Menge von Firewall-Daten 211 zu IP-Adressen und verwenden diese kategorisierten Daten, um Cluster 213 zu identifizieren, die die Daten charakterisieren, und klassifizieren daraufhin jede IP-Adresse in dem Firewall-Protokoll 109 in Abhängigkeit von der Zeit zu einem der Cluster 213. Die Klassifizierung der IP-Adresse enthält das Zuweisen eines Clusters und einer Zeitperiode zu jedes IP-Adresse, wobei die Zeitperiode vorzugsweise ein ganzzahliger Wert ist, der durch die Zeit, zu der die IP-Adresse in dem Firewall-Protokoll 109 registriert wurde, dividiert durch eine vorgegebene Zeitskala, gegeben ist. Daraufhin analysieren die Identifizierungsmittel 203 für jede IP-Adresse Änderungen der Cluster-Klassifikation zwischen aufeinander folgenden Zeitperioden, wobei sie die Cluster-Klassifikationen in aufeinander folgende Cluster-Paare gruppieren und für jede mögliche Cluster-Paarung die Häufigkeit berechnen, mit der Paare von Clustern beobachtet werden. Cluster-Paarungen, die mit Häufigkeiten unter einem vorgegebenen Schwellenwert auftreten, werden als seltene Paarungen 215 identifiziert und in die Verarbeitungsmittel 207 eingegeben. Außerdem werden die identifizierten Cluster 213 in die Verarbeitungsmittel 207 eingegeben.
Wie in 2 gezeigt ist, empfangen die Verarbeitungsmittel 207 als Eingabe seltene Paarungen 215, identifizierte Cluster 213 und frische Daten 217 von dem Firewall-Protokoll 109. Von dem Firewall-Protokoll 109 werden in vorgegebenen Intervallen oder Zeitperioden frische Daten 217 gesendet. Die Verarbeitungsmittel 207 analysieren die frischen Daten 217 unter Verwendung der identifizierten Cluster 213, um eine Cluster-Klassifikation für die frischen Daten 217 zu bestimmen, und erzeugen für jede IP-Adresse unter Verwendung ähnlich abgeleiteter Cluster-Klassifikationen aus der früheren Zeitperiode Cluster-Paarungen für die frühere und für die vorliegende Zeitperiode. Diese Cluster-Paarungen werden mit den seltenen Paarungen 215 verglichen, wobei dann, wenn eine Cluster-Paarung eine der seltenen Paarungen 215 ist, eine Warnung 219 erzeugt wird. Diese Warnung 219 wird zusammen mit der IP-Adresse, die diesem Cluster-Paar entspricht, an die in 1 gezeigten Anzeigemittel 113 gesendet.
Somit identifiziert der Detektor 201 seltener Ereignisse IP-Adressen, die unerwartete Änderungen des Verhaltens zeigen, unabhängig von irgendwelchen statischen Vorschriften in Bezug auf Ports, Protokolle oder Arten von Angriffen.
Identifizierungsmittel 203 zum Identifizieren der Kriterien seltener Ereignisse
Wie in 3 gezeigt ist, umfassen die Identifizierungsmittel 203 einen Hauptkomponentenanalysator (PCA) 301, einen Cluster-Analysator 303, Klassifizierungsmittel 305 und Bewertungsmittel 307. Während ein Firewall-System 100 konfiguriert wird, arbeiten die Identifizierungsmittel 203 offline; wenn die Firewall in Betrieb ist, werden die Verarbeitungsmittel 207 verwendet, um ankommende Paketdaten zu analysieren. Danach werden die Identifizierungsmittel 203 verwendet, um periodisch auf Faktoren und Cluster zu prüfen.
Diese Komponenten arbeiten wie in 4 gezeigt zusammen:

– S 4.1 Firewall-Daten 211, die empfangene Pakete umfassen, die durch mehrere Felder charakterisiert sind, werden in den PCA 301 eingegeben;
– S 4.2 der PCA 301 identifiziert aus den Firewall-Daten 211 Hauptkomponenten, die als Faktoren bekannt sind. Das Identifizieren der Faktoren könnte durch den Durchschnittsfachmann auf dem Gebiet ausgeführt werden. Um alle Typen möglichen Verhaltens zu erfassen, gibt es eine Annahme, dass die Faktoren einen besonderen Verhaltenstyp richtig beschreiben und dass die Faktoren ausreichend aktuell sind, um alle möglichen Verhaltenstypen beschreiben zu können; somit müssen die Faktoren auf regelmäßiger Grundlage überprüft werden. Jeder Faktor umfasst einen Beitrag von einer Kombination von Feldern, so dass irgendein Faktor typisch veränderliche Beiträge von mehreren Feldern umfasst. Tabelle 1 (siehe Anhang 1) bildet die Beziehungen zwischen den Feldern und den Faktoren für eine besondere Menge von Firewall-Daten ab. Der PCA 301 ist vorzugsweise Teil eines als "SAS" be kannten Industrienorm-Statistikpakets, das vom SAS Institute Inc. lizenziert ist und eine Einrichtung zum Extrahieren von Hauptkomponenten aus einem Datensatz mit mehreren charakterisierenden Komponenten enthält. Weitere Informationen sind erhältlich vom SAS Institute unter Technical Support Division, SAS Institute Inc., SAS Campus Drive Cary, NC 7513-2414, oder es wird verwiesen auf http://www.sas.com/corporate/index.html;
– S 4.3 der PCA 301 bestimmt für alle IP-Adressen in den Firewall-Daten 211 Faktorausdrücke. Es wird angemerkt, dass dann, wenn er während einer Zeitperiode, in der eine IP-Adresse analysiert wird, sowohl Pakete sendet auch als empfängt und verschiedene Protokolle verwendet, der Faktorausdruck für diese IP-Adresse wahrscheinlich Beiträge von mehr als einem Faktor umfasst;
– S 4.4 der Cluster-Analysator 303 empfängt die Faktorausdrücke und bestimmt für eine statistisch repräsentative Stichprobe von IP-Adressen, die zufällig aus den Firewall-Daten 211 ausgewählt worden sind, Cluster, die die Faktorausdrücke charakterisieren. Es wird angemerkt, dass dann, wenn das Verhalten einer erheblichen Anzahl von IP-Adressen durch mehr als einen Faktor charakterisiert ist, erwartet werden könnte, dass die Cluster, wie in Tabelle 2 (Anhang 1) gezeigt ist, Beiträge von mehr als einem Faktor umfassen. Es gibt viele Typen von Clusterbildungstechniken (wobei Alternativen kurz in dem nachstehenden Abschnitt "Alternativen" beschrieben sind); in dieser Ausführungsform werden die analysierten IP-Adressen im Faktorraum graphisch dargestellt, wobei der Faktorraum in N nicht überlappende Cluster aufgeteilt wird (wobei die Aufteilung und N durch die Spanne der Werte bestimmt sind). Auf diese Weise fällt jede IP-Adresse nur in einen Cluster;
– S 4.5 jede IP-Klasse in der zufällig ausgewählten Stichprobe wird in die Klassifizierungsmittel 305 eingegeben und innerhalb eines der Cluster klassifiziert. Der Mechanismus, durch den die Cluster die IP-Adressen klassifizieren, wird am besten anhand von 5 erläutert. Jede zu klassifizierende IP-Adresse kann als ein Datenpunkt im Faktorraum (in diesem Fall in einem 8-dimensionalen Raum) repräsentiert werden, der, wie in 5 gezeigt ist, alternativ im 2-dimensionalen Raum repräsentiert werden kann. In der 2-dimensionalen Darstellung kann jeder Cluster A–H als eine in 5 im Querschnitt gezeigte Scheibe 500 veranschaulicht werden, die in der Mitte 501 ein Loch besitzt, wobei jede Scheibe im Vergleich zu irgendeiner der anderen Scheiben einen anders bemessenen Innendurchmesser 503 besitzt. Somit belegt jede IP-Adresse in dem 2-dimensionalen Raum einen Punkt 505, wobei diese Position entweder (wie durch die Strichlinie von den Punkten 505 angegeben ist) vertikal auf die Scheibe eines einzelnen Clusters ausgerichtet ist oder mit dem Loch der Scheibe mit dem kleinsten Innendurchmesser (Cluster H) in einer Reihe ist. IP-Adressen, die durch das Loch 501 des Clusters H fallen, werden im Cluster N (normal) klassifiziert. Die Scheibe und somit der Cluster, auf die/den eine IP-Adresse vertikal ausgerichtet ist, definiert die Klassifikation einer IP-Adresse. Eines der Felder, die die Firewall-Daten begleiten, ist die Empfangszeit der Pakete an der Firewall, was ermöglicht, dass jedes Paket, das zu einer IP-Adresse gehört, durch Cluster und Zeit definiert wird;
– S 4.6 die in S 4.4 bestimmten Cluster und die in S 4.5 klassifizierten IP-Adressen-Cluster werden in die Bewertungsmittel 307 eingegeben, die die folgenden Schritte ausführen:
– S 4.6.1 Bewerte alle möglichen Cluster-Paarungen und die Gesamtzahl möglicher Cluster-Paarungen, wobei z. B. dann, wenn S 4.4 10 Cluster – A, B, C, D, E, F, G, H, N, Z (wobei Z bedeutet, dass alle Faktoren null sind, d. h. für eine IP-Adresse keine Daten empfangen worden sind (siehe Tabelle 2, Anhang 1)) – identifiziert hat, die Anzahl möglicher Paarungen = 10² ist;
– S 4.6.2 Weise jeden IP-Adressen-Cluster einem Zeitfenster zu, TW_IPaddress – int(t_IPaddress/Δt), wobei TW das Zeitfenster ist, das t_ipaddress entspricht, wobei t_ipaddress die Zeit ist, zu der das Paket, das der IP-Adresse entspricht, in dem Firewall-Protokoll aufgezeichnet wurde, und t die Granularität des Zeitfensters ist. Für einen Datensatz, der 36 Stunden Daten umfasst, ist t vorzugsweise 2 Stunden;
– S 4.6.3 Ordne die IP-Adressen-Cluster für jede IP-Adresse in aufeinanderfolgend klassifizierten oder zeitlich überlappenden Paaren: d. h. paare Cluster, die zur IP-Adresse 0.0.0.2 gehören, im Zeitfenster 0,1 und 1,2 und 2,3 und 3,4 usw. ..., um Paarungen der folgenden Form zu erzeugen: TABELLE 3
usw.
– S 4.6.4 Bewerte, wie oft jede der möglichen Paarungen auftritt (unabhängig von der IP-Adresse oder vom Zeitfenster, in dem sie auftreten) und bestimme diesen Auftritt in Abhängigkeit von der Gesamtzahl möglicher Cluster-Paare, z. B. gibt es für 36 Stunden Daten 35 mögliche Paare; gibt es für 10 Cluster 100 mögliche Cluster-Paarungen. Somit ist für 100 000 IP-Adressen, die in den Firewall-Daten 211 aufgezeichnet sind, Gesamtzahl möglicher Cluster = 35·100·100 000 = 3,5 Millionen und Auftritte(C_iC_j) = ΣΣ i=0,10; j=0,10C_iC_j/3,5 Mill., wobei C_iC_j das Auftreten des Clusterpaars C_i, gefolgt von C_j, bezeichnet.
– S 4.6.5 Paare C_iC_j, die mit einer Häufigkeit unter einem vorgegebenen Schwellenwert auftreten, werden als seltene Paarungen 215 kategorisiert.

Verarbeitungsmittel 207 zum Verarbeiten von Daten in Übereinstimmung mit den Kriterien seltener Ereignisse
Die Verarbeitungsmittel 207 könnten in Bezug auf das in 1 repräsentierte Firewall-System die Überwachungsmittel 111 ersetzen oder parallel zu ihnen arbeiten. Wie in 6 gezeigt ist, umfassen die Verarbeitungsmittel 207 zweite Klassifizierungsmittel 601 und Vergleichsmittel 603. Die zweiten Klassifizierungsmittel 601 empfangen als Eingabe die durch die Identifizierungsmittel 203 identifizierten Cluster und frische Daten von dem Firewall-Protokoll 109, während die Vergleichsmittel 603 als Eingabe die seltenen Paarungen 215 empfangen. Wie oben angegeben wurde, führen die Verarbeitungsmittel 207 eine Echtzeitanalyse ankommender Pakete aus, wenn die Cluster und die seltenen Paarungen 215 identifiziert worden sind.
Diese Komponenten arbeiten auf die in 7 gezeigte Weise zusammen:

– S 7.1 Die in S 4.4 bestimmten Cluster und frische Firewall-Daten 217, die Daten sind, die durch die Firewall innerhalb einer vorgegebenen Zeitperiode empfangen und nach dem Schreiben in das Firewall-Protokoll 109 an die Verarbeitungsmittel 207 übergeben worden sind, werden in die zweiten Klassifizierungsmittel 601 eingegeben;
– S 7.2 Der Formatumsetzer 600a setzt frische Firewall-Daten in Oracle-Tabellen 600b um und speichert sie;
– S 7.3 Die zweiten Klassifizierungsmittel 601 klassifizieren jede der IP-Adressen in den Firewall-Daten 217 in einem der vorgegebenen Cluster für diese Zeitperiode (gemäß S 4.5). Dies geschieht durch Ausführen einer Faktoranalyse für jede IP-Adresse und daraufhin durch Vergleichen der Faktorwerte mit den ausführlich in Tabelle 2 angegebenen Cluster-Bedingungen. Somit ist für das folgende Beispiel:
Anmerkung: Für den Faktor 1 wird eine mittlere Paketlänge aus den Felddaten berechnet, die den Faktor 1 umfassen; die Einheiten sind Bytes).

Die Cluster-Klassifikation kann in Übereinstimmung mit der Cluster-Reihenfolge in 5 bestimmt werden, wobei bestimmt wird, auf welche "Scheibe" die IP-Adresse fällt:

– Der erste zu prüfende Cluster ist A. Ist der Faktor 8 > 0? NEIN
– Der nächste zu prüfende Cluster ist B. Ist der Faktor 5 > 0 und ist der Faktor 6 = 0? JA

Allerdings wird angemerkt, dass der Faktor 1 nicht null ist (und dass der Cluster B ruhig in Bezug auf Werte für den Faktor 1 ist). Da die wie oben beschrieben erzeugten Cluster durch spezifische Kombinationen von Faktoren charakterisiert sind (wobei der Cluster B in diesem Fall durch die Faktoren 5 und 6 charakterisiert ist) und unempfindlich für Beiträge von anderen Faktoren sind (es sei denn, dass diese Beiträge in die spezifische Faktordefinition eines Clusters fallen), kann dieser Faktor ignoriert werden. Somit wird die IP-Adresse 0.0.0.1 durch den Cluster B klassifiziert.
Weiter unten werden alternative Verfahren zum Klassifizieren von IP-Adressen in Clustern diskutiert.

– S 7.4 Erzeuge für jede IP-Adresse Cluster-Paarungen, wenn zwei oder mehr Zeitperioden verstrichen sind. Es wird angemerkt, dass eine IP-Adresse, falls sie z. B. in der Periode 1 aktiv ist und z. B. als Cluster A für diese Periode klassifiziert worden ist, in den Cluster Z für die Periode 2 getan würde, falls sie in den Firewall-Daten für Periode 2 nicht erwähnt wurde. Somit ändert sich der IP-Adressen-Cluster von A zu Z, wobei diese Cluster-Paarung AZ wäre;
– S 7.5 Vergleiche für jede IP-Adresse die in S 7.1 erzeugten Cluster-Paarungen mit den seltenen Paarungen 215.
– S 7.6 Sende, falls irgendeine der Cluster-Paarungen eine der seltenen Paarungen ist, eine Warnung zusammen mit der IP-Adresse, die dieser Cluster-Paarung entspricht, an die Anzeigemittel 113.

Tabelle 4 zeigt für an einer besonderen Firewall empfangene Daten Cluster-Informationen für eine Stichprobe von IP-Adressen, die durch die Verarbeitungsmittel 207 als eine solche identifiziert worden ist, die während der Zeitperioden 12–13 seltene Paarungen enthält (wobei jede Zeitperiode 2 Stunden Daten enthält):
TABELLE 4
Wie oben anhand von 4 beschrieben wurde, werden durch die Identifizierungsmittel 203 von Daten, die an einer Firewall empfangen werden, seltene Cluster-Paarungen abgeleitet. In diesem Beispiel ist identifiziert worden, dass die Cluster-Paarungen A–H, E–G und D–B seltene Paarungen sind.
Wahrscheinlich ist das Informationsvolumen, das an die Anzeigemittel 113 ausgegeben wird, kleiner als das Volumen, das unter Verwendung herkömmlicher Verfahren (oben beschrieben) ausgegeben wird. Da dieses Verfahren irgendwelche Änderungen des Verhaltens an sich identifiziert, beseitigt es darüber hinaus die Notwendigkeit, Vorschriften für verschiedene Verkehrstypen, verschiedene Angriffstypen usw. zu spezifizieren.
Alternative Ausführungsform
In der obigen Ausführungsform ist ein Cluster so beschrieben, dass es durch einen oder durch mehrere Faktoren charakterisiert ist. Wie in Tabelle 1 gezeigt ist, beschreibt jeder der Faktoren einen besonderen Verhaltenstyp, so dass dann, wenn ein Cluster durch mehr als einen Faktor charakterisiert ist, IP-Adressen, die in den Cluster fallen, mehr als einen Verhaltenstyp haben. Insbesondere ausgehend davon, dass die Mehrzahl der Maschinen multitasking-fähig ist (z. B. verschiedene Verkehrstypen, Dienste), ist dies von Computern, die mehrere Anwendungen ausführen und Pakete in einem Netz senden und empfangen, zu erwarten.
Als eine Alternative zu der oben beschriebenen Clusterbildung könnte jedem Faktor ein einzelner Cluster zugewiesen werden, so dass eine IP-Adresse in einer gegebenen Zeitperiode in mehr als einem Cluster erscheinen kann. Die Bewertung von Cluster-Änderungen zwischen Zeitperioden würde dann eher eine Analyse von Änderungen zwischen mehreren Clustern als eine Analyse zwischen einzelnen Clustern wie oben beschrieben umfassen.
Zum Beispiel:
Somit umfasst die Analyse der Cluster-Änderungen zum Isolieren selten auftretender (seltener) Änderungen in dieser Ausführungsform mehr Verarbeitung.
Die gemäß der ersten Ausführungsform gebildeten Cluster erleichtern nicht die Analyse des Verhaltens innerhalb einer gegebenen Zeitperiode, während diese Ausführungsform eine Zerlegung des Komponentenverhaltens präsentiert und die zusätzliche zeitunab hängige Analyse der Netzaktivität ermöglicht. Somit könnte diese Ausführungsform wichtig sein, falls eine besondere Kombination von Clustern innerhalb einer Zeitperiode oder eine Kombination von Clustern in einer besonderen Reihenfolge (z. B. eine "Signatur" eines Hackers) unverwechselbar für ein besonderes Verhalten ist.
Somit hat das Zuweisen eines Clusters zu jedem Faktor die Vorteile erhöhter Sichtbarkeit des IP-Adressen-Verhaltens, dies jedoch auf Kosten zusätzlicher Rechenzeit. Allerdings können in der Bereichsnetzsicherheit, die außerordentlich wichtig für eine Organisation ist, die Vorteile dieses Zugangs die erforderliche zusätzliche Verarbeitung rechtfertigen.
Die Erfindung könnte in den folgenden Situationen nützliche Informationen liefern:

– Es ist eine übliche von Hackern verwendete Technik, sich in verschiedene Maschinen einzuloggen und von jeder dieser Maschinen einen Standort zu hacken. Häufig werden Universitätsmaschinen verwendet, da die Erzeugung, Verwendung und Löschung von Anwenderkonten schlecht administriert wird. Falls von einer Anzahl verschiedener IP-Adressen ähnliche Verhaltensmuster identifiziert werden, könnte dies angeben, dass es tatsächlich einen einzelnen Hacker gibt, der den Zugang von einer Reihe verschiedener Maschinen versucht. Falls für einige wenige IP-Adressen Änderungen in Clustern in einer besonderen Sequenz aufzutreten scheinen, könnte dies eher das Verhalten eines einzelnen Hackers als das individueller Anwender angeben. Diese Analyseart könnte auch bei der Erfassung von "Dienstverweigerungs-Angriffen" nützlich sein, wo mehrere Quellen mehrere Pakete an eine kleine Anzahl von Maschinen senden;
– einige Unternehmen administrieren Firewall-Systeme für eine Anzahl von Kunden und für verschiedene Arten von Kunden. Nominell liefert die Firewall-Administrationsgesellschaft für jeden Kunden eine sehr ähnliche Firewall-Anordnung ("Lösung")(d. h. Komponenten, Anordnung der Komponenten), während jedes der Firewall-Systeme unabhängig von einem anderen Firewall-System gewartet und überwacht wird. Ein Hacker, der weiß, dass die Infrastruktur dieselbe ist, kann eine Reihe von Angriffen gegen mehr als ein Firewall-System starten. Falls ein Detektor 201 seltener Ereignisse mit jedem der Firewall-Systeme zusammenarbeiten würde, könnten die Clusterbildungs-Informationen zwischen den Systemen verglichen und auf ähnliches Verhalten analysiert werden (z. B., wenn eine IP-Adresse alle Firewall-Systeme anzugreifen versucht).
– Als kostengünstige Mittel für den Aufbau und für den Einsatz privater Kommunikationsnetze für die Kommunikation mehrerer Standorte werden zunehmend (d. h. im Vergleich zu dedizierten WANs und Einwahlnetzen) virtuelle private Netze (VPN) verwendet. Kunden, die VPNs verwenden, benötigen allgemein eine Form der Datensicherheit, da der VPN-Verkehr des Kunden auf einem IP-Backbone zusammen mit weiterem, nicht verwandtem Verkehr transportiert wird. Eine geeignete Sicherheit enthält typisch eine Firewall-Funktionalität und sichere Pakettransportdienste. Kunden mit privaten Netzen haben bereits mehrere Teilnehmergerätschaften (CPE) einschließlich Firewall-Systemen, Routern usw. Somit ist es für einen VPN-Manager (entweder Kunden oder ISP) zweckmäßig, diese vorhandene Infrastruktur zu verwenden und in Übereinstimmung mit der besonderen VPN-Sicherheitsrichtlinie Funktionalität zu den CPEs hinzuzufügen. Somit kann außer der oben in Bezug auf ein privates Netz diskutierten Überwachung von Netzereignissen eine zusätzliche Überwachung in Bezug auf den Verkehr ausgeführt werden, der für Vorrichtungen bestimmt ist, die ein VPN umfassen. Bei netzgestützten VPN wird der Betrieb des VPN an einen ISP ausgelagert und in der Netzausrüstung implementiert und verwendet somit keine CPE-Ausrüstung. Somit könnte die Erfindung eher mit irgendeiner Komponente der Netzausrüstung oder mit einer Kombination von Netzkomponenten, die zusammen VPN-Verkehr empfangen, zusammenarbeiten, als dass sie parallel zu einem vorhandenen Firewall-System ausgeführt wird.

Alternativen und zusätzliche Einzelheiten
Weitere Clusterbildungstechniken
Tatsächlich umfasst der Begriff Cluster-Analyse eine Anzahl verschiedener Klassifikationsalgorithmen, die die Organisation beobachteter Daten zu sinnvollen Strukturen betreffen. Cluster-Analyseverfahren werden hauptsächlich verwendet, wenn es keine a-priori-Hypothese gibt, so dass die Clusteranalyse in gewissem Sinn die "wichtigste Lösung" findet, die möglich ist. Gut bekannte Techniken enthalten die Baum-Clusterbildung, die bei der Bildung der Cluster die Unterschiedlichkeiten oder Entfernungen zwischen Objekten verwendet. Diese Entfernungen können auf einer einzigen Dimension oder auf mehreren Dimensionen beruhen. Eine Art, Entfernungen zwischen Objekten in einem mehrdimensionalen Raum wie etwa dem 8-dimensionalen Faktorraum der oben beschriebenen Ausführungsform zu berechnen, ist das Berechnen der euklidischen Entfernung, die die tatsächliche geometrische Entfernung zwischen Objekten in dem Raum (d. h. wie mit einem Lineal gemessen) ist.
Weitere Verfahren der Abbildung von IP Adressen auf Cluster
Wie oben beschrieben wurde, wird das Verhalten einer IP-Adresse in Faktoren analysiert und der Wert dieser Faktoren verwendet, um zu entscheiden, in welchen Cluster die IP-Adresse fällt. Das beschriebene Verfahren führt eine hierarchiegestützte Analyse aus. Das Folgende sind alternative Zugänge:

– Passe die Faktoren, die die IP-Adresse charakterisieren, gegenüber den Faktoren an, die jeden Cluster charakterisieren; diejenigen Cluster, deren Faktoren am besten an die der IP-Adresse angepasst sind, klassifizieren die IP-Adresse;

– bilde die Cluster unter der Annahme, dass jeder Faktor auf folgende Weise auf ein Cluster bezogen werden kann, neu: Für ein Einzelbedingungsabschneiden:

1 Faktor:	if factor 1 > x then cluster A else cluster B,
2 Faktoren:	if factor 1 > x then factor 2 > y then A
	if factor 1 > x then factor 2 < (y + 1) then B
	if factor 1 < (x + 1) and factor 2 > y then C
	if factor 1 < (x + 1) and factor 2 < (y + 1) then D,

usw., wobei x und y diskrete Werte für den Faktor sind. Bei 8 Faktoren gibt es potenziell 256 Cluster. Diese Cluster könnten daraufhin anhand der Korrelationsebenen zwischen den Clustern miteinander gemischt werden (d. h., falls die Charakteristiken eines Clusters mit Charakteristiken eines weiteren Clusters korreliert sind, ist nur ein Cluster erforderlich). Die Abschneidebedingungen sind im Wesentlichen Stufenfunktionen, was der Annahme entspricht, dass eine IP-Adresse nur in einem Cluster ist (so dass das Verhalten der IP-Adresse ideal an die durch die Identifizierungsmittel 203 identifizierten Cluster angepasst ist). Es kann der Fall sein, dass die Wechselwirkung zwischen Clustern weniger diskret wird, wobei die Abschneidebedingung in diesem Fall durch eine Funktionsbeziehung beschrieben werden kann. Darüber hinaus kann es auch mehrere Bedingungen für jeden Faktor geben, z. B. if factor 1 > x and factor 2 > y then A if factor 1 < p and factor 2 > y then E

Verwendung von Cluster-Tripeln sowie oder anstelle von Cluster-Paarungen
Die oben beschriebene Ausführungsform organisiert die Cluster-Daten zu Cluster-Paarungen und führt eine Analyse der Häufigkeit der Auftritte von Cluster-Paarungen aus. Allerdings könnten die Cluster-Daten alternativ zu Cluster-Tripeln – d. h. 3 aufeinander folgenden Clustern – organisiert werden, woraufhin die Häufigkeit des Auftretens von Kombinationen von Cluster-Tripeln analysiert werden könnte.
Darüber hinaus bildet die Ausführungsform Bedingungen, die auf angrenzenden Cluster-Paarungen beruhen. Es kann sein, dass ein Hacking-Angriff nicht in die Zeitperioden des Firewall-Protokolls fällt – das Verhalten kann Aktionen umfassen, die mehr als eine Zeitperiode voneinander entfernt auftreten. In diesem Fall sollten andere Cluster-Muster als aufeinander folgende Cluster-Paarungen oder -Tripel analysiert werden.
Minimaldatensatz zum Erzeugen von Kriterien seltener Ereignisse
Das oben beschriebene Verfahren verwendet 3 Tage, d. h. 72 Stun den, von Daten, die in 3·12·2-Stunden-Perioden angeordnet sind, um Kriterien seltener Ereignisse zu identifizieren: Eine Minimalmenge von Daten enthält wahrscheinlich Daten von wenigstens drei 12-Stunden-Perioden. Vorzugsweise wird das Verfahren auf mehr als einen Satz von drei 12-Stunden-Perioden angewendet, wobei die für jeden Satz identifizierten Faktoren und Cluster miteinander verglichen werden.
Überprüfung von Kriterien seltener Ereignisse
Wie oben festgestellt wurde, ist ein Firewall-System so konstruiert, dass es in der Internet-Umgebung arbeitet, die durch die Einführung neuer Anwendungen und Protokolle ständig neu geformt wird. Somit ist es wahrscheinlich, dass sich die an einer Firewall bestimmten Kriterien seltener Ereignisse, möglicherweise mit einer Zeitskala, die selbst dynamisch ist, ändern. Im Ergebnis wird das oben beschriebene Verfahren vorzugsweise regelmäßig ausgeführt.
Verarbeitungsverfahren
Das oben beschriebene Verfahren enthält die Verarbeitung frischer Daten, während die Daten in dem Firewall-Protokoll ankommen. Allerdings könnten die ankommenden Daten zur Stapelverarbeitung gespeichert werden.
Andere Firewall-Systeme
Der Detektor 201 seltener Ereignisse ist oben anhand von Daten beschrieben worden, die in einem einzelnen Firewall-System empfangen werden. Allerdings umfasst der Internet-Raum Millionen ver schiedener privater Netze, die jeweils verschiedene Dienste verwenden und verschiedene Datentypen empfangen/senden. Somit ist zu erwarten, dass sich die Kriterien seltener Ereignisse für ein privates Netz von den Kriterien seltener Ereignisse für irgendein anderes privates Netz wesentlich unterscheiden. Somit würde ein Detektor 201 seltener Ereignisse vorzugsweise mit jedem Firewall-System unabhängig zusammenarbeiten und dementsprechend kundenspezifische Kriterien seltener Ereignisse erzeugen.
Zuordnungsvorschriften
Zwischen besonderen Arten des Angriffsverhaltens kann es Verbindungen geben, wobei z. B. dann, wenn ein Hacker ein Netz auf besondere Weise unter Verwendung eines Protokolls X anzugreifen versucht, der Hacker nachfolgend wahrscheinlich das Protokoll Y versucht. Falls solche Zuordnungen vorhanden sind, kann das Identifizieren der Zuordnung zwischen den Hacking-Techniken eine proaktive Überwachung der Netzangriffe ermöglichen. Um eine solche proaktive Überwachung auszuführen, könnten die Vergleichsmittel 603 Mittel enthalten, die prüfen, ob die analysierten Cluster-Paarungen in Cluster-Paarungsbedingungen fallen, die Zuordnungsvorschriften definieren, und dann, wenn das der Fall ist, nachfolgende Cluster-Paarungen untersuchen, die dieser IP-Adresse entsprechen, um zu sehen, ob diese den erwarteten nachfolgenden Teilen der Zuordnung folgen.
Weitere Anwendungen des Detektors seltener Ereignisse
Die vorliegende Erfindung erfasst Änderungen des Verhaltens von IP-Adressen und hat neben der der Eindringerfassung viele Anwendun gen in einer (drahtlosen oder verdrahteten) Netzumgebung. Der Detektor seltener Ereignisse könnte in ein Netzmanagementsystem integriert sein und verwendet werden, um die Leistungsfähigkeit von Netzvorrichtungen zu überwachen; z. B. könnte dann, wenn eine Vorrichtung ausfällt, erwartet werden, dass sich ihr Verhalten ändert, wobei dies durch Änderungen der Cluster-Paarungen identifiziert wird ("Ausfallen" enthält in diesem Kontext den Ausfall einer Vorrichtung zum Liefern einer geforderten Dienstqualität z. B. wegen Speicherleck, Überlastung der CPU usw.).
Implementierungseinzelheiten (nicht gezeigt)
Die Analyse der Felder zu Faktor- und Cluster-Informationen durch die Identifizierungsmittel 203 und durch die Verarbeitungsmittel 207 wird vorzugsweise unter Verwendung einer Programmiersprache ausgeführt, die integraler Bestandteil des Statistikpakets SAS ist. Die in S 4.4 und in S 4.6.5 festgesetzten Cluster und seltenen Paarungen werden in Oracle-Tabellen gespeichert. Zur Koordination der oben in 7 beschriebenen Verfahren wird vorzugsweise ein Bedienoberflächenskript verwendet, wobei die frischen Firewall-Daten, nachdem sie in Oracle-Tabellen (S 7.2) umgesetzt worden sind, zusammen mit den seltenen Paarungen und Clustern auf einer Server-Maschine gespeichert und manipuliert werden. Aus einer PL/SQL-Abfrage werden unter Verwendung des Oracle Web Application Server Webseiten erzeugt, die die Veranschaulichung von Informationen in Bezug auf IP-Adressen (im Folgenden ausführlicher beschrieben) in einem Web-Browser, der sich in einer Client-Maschine befindet, ermöglichen.
Die Skripte, die Datenbank und der Oracle Web Application Server könnten sich auf einer einzigen fernen Maschine befinden, so dass die Skripte unter Verwendung von Telnet von Client-Terminals aufgerufen werden, oder die Datenbank könnte sich auf einem Datenbank-Server ("dritte Netzebene") befinden, während sich der Oracle Web Application Server und die Skripte auf einer mittleren Netzebene befinden, die Eingaben von einem Client-Endgerät empfängt.
Wie oben anhand von 1 festgestellt wurde, befinden sich die Anzeigemittel 113, die die Warndaten empfangen, da sie typisch Daten von mehreren Detektoren 201 seltener Ereignisse empfangen, in einem anderen Teilnetz als der Detektor 201 seltener Ereignisse, und liefern somit vorzugsweise zentralisierte Antworten auf Warnmeldungen.
Anzeige von Ereignissen:
Ebenso, wie die Verarbeitungsmittel 207 eine Warnung an die Anzeigemittel 113 liefern, enthalten sie vorzugsweise Mittel zum Tiefergehen für jede analysierte IP-Adresse; am meisten bevorzugt werden die Informationen wie in 8 gezeigt unter Verwendung eines Oracle Web Application Server, der es ermöglicht, eine Beziehung zwischen IP-Adressen und Clustern herzustellen, auf einer .html-Seite 800 dargestellt. Nominell werden die Informationen als Cluster-Historie 803 angezeigt, wobei der momentane Cluster 804 in Abhängigkeit von der IP-Adresse 801 angezeigt wird. Um mehr Informationen über eine IP-Adresse zu sehen, kann der Anwender eine IP-Adresse in der Liste 801 auswählen. Diese Aktion veranlasst, dass eine weitere Web-Seite angezeigt wird (nicht gezeigt), die alle IP-Adressen genau beschreibt, an die die ausgewählte IP-Adresse Informationen gesendet hat oder von der sie Informationen empfangen hat (wobei die Informationen, so IP-Adressen in dem privaten Netz, in dem Firewall-Pro tokoll aufgezeichnet wurden). Darüber hinaus können die zu jeder der IP-Adressen gehörenden Faktoren angezeigt werden (ebenfalls nicht gezeigt).
Für den Fachmann auf dem Gebiet ist verständlich, dass die oben beschriebene Erfindung in einem oder in mehreren Computerprogrammen verkörpert werden kann. Diese Programme können in verschiedenen Übertragungs- und/oder Speichermedien wie etwa Diskette, CD-ROM oder Magnetband enthalten sein, so dass die Programme in einen oder in mehrere Universalcomputer geladen werden können oder unter Verwendung eines geeigneten Übertragungsmediums über ein Computernetz heruntergeladen werden könnten.
So weit der Kontext nicht eindeutig etwas anderes erfordert, sollen die Wörter "umfassen", "umfassend" und dergleichen überall in der Beschreibung und in den Ansprüchen im Gegensatz zu einem ausschließlichen oder ausschöpfenden Sinn in einem einschließenden Sinn, d. h. im Sinn von "einschließend, aber nicht beschränkt auf", verstanden werden.
ANHANG 1 TABELLE 1
ANMERKUNG: F1 bis F8 sind Faktoren; jeder Faktor ist durch eine Auswahl von Feldern charakterisiert, wobei z. B. F7 durch die Anzahl der durch eine IP-Adresse gesendeten FTP-Pakete und durch die Anzahl der durch eine IP-Adresse gesendeten Telnet-Pakete charakterisiert ist. Die Auswahl der Felder zur Charakterisierung der Faktoren wird durch die Ausgabe von dem SAS-Programm angesteuert: SAS gibt für jeden Faktor Werte für alle Felder zurück, wobei die Felder mit den höchstwertigen (größten) Werten zur Charakterisierung eines Faktors ausgewählt werden. Wenn einige der Feldwerte für einen Faktor von ähnlicher Ordnung sind, werden vorzugsweise unter Verwendung statistischer Techniken wie etwa Wahrscheinlichkeitsfunktionen, um ein statistisches Vertrauen in ihre Auswahl zu liefern, "die höchstwertigen Werte" ausgewählt.
TABELLE 2
ANMERKUNG 1: Jeder Cluster fügt im Wesentlichen eine Bedingung hinzu (Bedingungen sind fett gedruckt); wie in 5 gezeigt ist, sind die fett gedruckten Bedingungen durch einen Unterschied des Innendurchmessers zwischen den Scheiben repräsentiert. Da der Cluster A den größten Innendurchmesser (Loch) besitzt, ist er durch die größte Anzahl von Faktorbedingungen charakterisiert; während der Scheibeninnendurchmesser abnimmt, nimmt die Anzahl der Faktorbedingungen, die die Scheibe charakterisieren, zu. Da der Außendurchmesser aller Scheiben der gleiche ist, würden die IP-Adressen, die auf Scheiben weiter oben in der Scheibenhierarchie fallen, falls diese höheren Scheiben entfernt würden, aber ebenfalls wenigstens auf eine der Scheiben unter der entfernten Scheibe fallen. Dies ist durch die nicht fett gedruckten Bedingungen repräsentiert.

Claims

Verfahren zum Analysieren von Netzereignissen anhand von Daten bezüglich verarbeiteter Netzverkehrsereignisse, wobei jedes Element der Daten Attribute hiervon identifiziert, wobei die Attribute wenigstens die Zeit, zu der ein entsprechendes Netzverkehrsereignis verarbeitet wurde, und eine Netzadresse, die eine Netzvorrichtung identifiziert, von der und/oder zu der Pakete gesendet wurden, umfassen, wobei das Verfahren die folgenden Schritte umfasst: (i) Bewerten der Korrelation zwischen Attributen der empfangenen Daten, um so Gruppen von Attributen zu identifizieren, die ein Korrelationskriterium erfüllen; (ii) für diese Gruppen, die das Korrelationskriterium erfüllen, Ersetzen der Attribute in der Gruppe durch einen sie repräsentierenden Faktor; (iii) Identifizieren von Clustern von Faktoren aus wenigstens einigen der verarbeiteten Netzverkehrsereignis-Daten; (iv) Identifizieren von Zeitintervallen und Zuweisen jedes der Datenelemente zu einem Zeitintervall in Übereinstimmung mit seinem zugeordneten Zeitwert; (v) für jedes Zeitintervall und für jeden Wert des Netzadressen-Attributs in den Daten Kategorisieren der Datenelemente entsprechend hierzu in einen der Cluster; (vi) für jeden Wert des Netzadressen-Attributs in den Daten Identifizieren von Zeitintervall-Paaren, um so mehrere Paare von Clustern zu erzeugen; (vii) für jede mögliche Cluster-Paarung Zählen der Anzahl ihrer Auftritte und Identifizieren jeglicher Cluster-Paarungen, für die die Anzahl der Auftritte kleiner als eine vorgegebene Anzahl ist.
Verfahren nach Anspruch 1, bei dem eine Reihe von drei Zeitintervallen identifiziert wird, um mehrere Reihen aus drei Clustern zu erzeugen, und bei dem die Anzahl von Auftritten der Reihen aus drei Clustern gezählt wird.
Verfahren nach Anspruch 1 oder Anspruch 2, bei dem jedes Paar Zeitintervalle oder jede Reihe aus drei Zeitintervallen mit dem letzten Paar Zeitintervalle oder mit der letzten Reihe aus drei Zeitintervallen überlappt.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem die wenigstens einigen verarbeiteten Netzverkehrsereignis-Daten, die für die Identifizierung von Faktoren-Clustern verwendet werden, aus den Daten zufällig ausgewählt werden.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem einem Zeitintervall in einem Paar Zeitintervalle oder in einer Reihe aus drei Zeitintervallen das nächste Zeitintervall in dem Paar oder in der Reihe aus drei Zeitintervallen direkt folgt.
Verfahren nach einem der Ansprüche 1 bis 4, bei dem ein Zeitintervall in einem Paar Zeitintervalle oder in einer Reihe aus drei Zeitintervallen von dem nächsten Zeitintervall in dem Paar oder in der Reihe aus drei Zeitintervallen getrennt ist, so dass dieses und das nächste Zeitintervall in dem Paar oder in der Reihe aus drei Zeitintervallen nicht direkt aufeinander folgen.
Verfahren nach Anspruch 1, das ferner das Klassifizieren von eingegebenen Netzereignissen anhand erzeugter Faktoren umfasst, wobei die Klassifikation die folgenden Schritte umfasst: Identifizieren der Werte des Netzadressen-Attributs, die den eingegebenen Netzereignissen entsprechen; Zuweisen der eingegebenen Netzereignisse zu einem Zeitintervall in Übereinstimmung mit ihrem zugeordneten Zeitwert; und für das oder jedes Zeitintervall und für jedes Netzadressen-Attribut Kategorisieren der eingegebenen Netzereignisse in einen der Cluster; Paaren jedes Clusters mit einem früher kategorisierten Cluster entsprechend dem identifizierten Netzadressen-Wert, der in ein früheres Zeitintervall fällt; Vergleichen der Paarung mit den identifizierten Cluster-Paarungen und, falls diese Paarung eine der identifizierten (Cluster-Paarungen ist, Klassifizieren des eingegebenen Netzereignisses als ein seltenes Netzereignis.
Verfahren nach Anspruch 6, das das Erzeugen einer Warnung in Reaktion auf das als ein seltenes Ereignis klassifizierte eingegebene Netzereignis umfasst.
Firewall-Vorrichtung für die Verwendung bei der Identifizierung unberechtigter Versuche, auf ein privates Netz zuzugreifen, die umfasst: einen Speicher (109), der so beschaffen ist, dass er Daten bezüglich verarbeiteter Netzverkehrsereignisse speichert, wobei jedes Element der Daten Attribute hiervon identifiziert, wobei die Attribute wenigstens eine Zeit, zu der ein entsprechendes Netzverkehrsereignis verarbeitet wurde, und eine Netzadresse, die eine Netzvorrichtung identifiziert, von der und/oder zu der Pakete gesendet wurden, umfassen, einen Korrelator (301), der so beschaffen ist, dass er die Korrelation zwischen Attributen der empfangenen Daten bewertet, um so Gruppen von Attributen, die ein Korrelationskriterium erfüllen, zu identifizieren; Mittel, die so beschaffen sind, dass sie Attribute in einer Gruppe durch einen sie repräsentierenden Faktor ersetzen; Mittel (303), die so beschaffen sind, dass sie Cluster von Faktoren wenigstens aus einigen der verarbeiteten Netzverkehrsereignis-Daten identifizieren; Zuweisungsmittel (307), die so beschaffen sind, dass sie jedes der kategorisierten Datenelemente einem Zeitintervall entsprechend ihrem zugeordneten Zeitwert zuweisen; Clusterbildungsmittel (305), die so beschaffen sind, dass sie die Datenelemente für jedes Zeitintervall und für jeden Wert des Netzadressen-Attributs in einen der Cluster kategorisieren; Verarbeitungsmittel (207), die so beschaffen sind, dass sie jeden Wert von Netzadressen-Attributen in den Datenpaaren von Zeitintervallen identifizieren, um so mehrere Paare von Clustern zu erzeugen; und Mittel (307), die so beschaffen sind, dass sie die Anzahl von Auftritten von Cluster-Paarungen zählen und irgendwelche Cluster-Paarungen identifizieren, für die die Anzahl von Auftritten kleiner als eine vorgegebene Anzahl ist.
Firewall-Vorrichtung nach Anspruch 9, bei der die Verarbeitungsmittel so beschaffen sind, dass sie Reihen aus drei Zeitintervallen identifizieren, um mehrere Cluster-Tripel zu erzeugen, und bei der die Zählmittel so beschaffen sind, dass sie Auftritte von Cluster- Tripeln zählen.
Firewall-Vorrichtung nach Anspruch 9 oder Anspruch 10, bei der jedes Paar Zeitintervalle oder jede Reihe aus drei Zeitintervallen mit dem letzten Paar Zeitintervalle oder der letzten Reihe aus drei Zeitintervallen überlappt.
Firewall-Vorrichtung nach einem der Ansprüche 9 bis 11, bei der die Clusterbildungsmittel so beschaffen sind, dass sie wenigstens einige verarbeitete Netzverkehrsereignis-Daten, die für die Identifizierung von Faktoren-Clustern verwendet werden, aus den Daten zufällig auswählen.
Firewall-Vorrichtung nach einem der Ansprüche 9 bis 12, bei der einem Zeitintervall in einem Paar Zeitintervalle oder in einer Reihe aus drei Zeitintervallen das nächste Zeitintervall in dem Paar bzw. in der Reihe aus drei Zeitintervallen direkt folgt.
Firewall-Vorrichtung nach einem der Ansprüche 9 bis 12, bei der ein Zeitintervall in einem Paar Zeitintervalle oder in einer Reihe aus drei Zeitintervallen von dem nächsten Zeitintervall in dem Paar bzw. in der Reihe aus drei Zeitintervallen getrennt ist, so dass dieses und das nächste Zeitintervall in dem Paar oder in der Reihe aus drei Zeitintervallen nicht direkt aufeinander folgen.
Firewall-Vorrichtung nach Anspruch 9, die ferner Klassifizierungsmittel (601) umfasst, um eingegebene Netzereignisse anhand von erzeugten Faktoren zu klassifizieren, wobei die Klassifizierungsmittel (601) so beschaffen sind, dass sie die Werte des Netzadressen-Attributs, die den eingegebenen Netzereignissen entsprechen, identifizieren; die eingegebenen Netzereignisse entsprechend ihrem zugeordneten Zeitwert einem Zeitintervall zuweisen; und für das oder jedes Zeitintervall und für jedes Netzadressen-Attribut die eingegebenen Netzereignisse in einen der Cluster kategorisieren; Paarungsmittel umfassen, um jeden Cluster mit einem früher kategorisierten Cluster entsprechend dem identifizierten Netzadressenwert, der in ein früheres Zeitintervall fällt, zu paaren; Vergleichsmittel (603) umfassen, um die Paarung mit den identifizierten Cluster-Paarungen zu vergleichen und, falls diese Paarung eine der identifizierten Cluster-Paarungen ist, das eingegebene Netzereignis als ein seltenes Netzereignis zu klassifizieren.
Firewall-Vorrichtung nach Anspruch 15, die Mittel umfasst, die in Reaktion auf das als ein seltenes Ereignis klassifizierte eingegebene Netzereignis eine Warnung erzeugen.
Computerprogramm oder Folge von Computerprogrammen, die eine Menge von Befehlen umfassen, die einen Computer oder eine Folge von Computern veranlassen, die Verfahrensschritte nach einem der Ansprüche 1–8 auszuführen.