EP1384199A2

EP1384199A2 - Verfahren zur ermittlung konkurrierender risiken

Info

Publication number: EP1384199A2
Application number: EP01999919A
Authority: EP
Inventors: Ronald E. Kates; Nadia Harbeck
Original assignee: Individual
Current assignee: Individual
Priority date: 2000-12-07
Filing date: 2001-12-07
Publication date: 2004-01-28
Also published as: WO2002047026A3; WO2002047026A2; US20040073096A1; US7395248B2; AU2002216080A1

Abstract

Die Erfindung betrifft ein Verfahren zur Ermittlung konkurrierender Risiken für Objekte nach einem Anfangsereignis auf Grundlage bereits gemessener oder sonst objektivierbarer Trainingsdatensätze, in welchem mehrere aus einem lernfähigen System gewonnene Signale in einer objektiven Funktion so kombiniert werden, dass das lernfähige System die zugrunde liegenden Wahrscheinlichkeiten der jeweiligen konkurrierenden Risiken erkennen oder vorhersagen kann.

Description

Verfahren zur Ermittlung konkurrierender Risiken

Gebiet der Erfindung

Die Erfindung betrifft ein Verfahren zur Ermittlung konkurrierender Risiken nach einem Anfangsereignis mit Hilfe lernfähiger Systeme auf Grundlage bereits gemessener oder sonst objektivierbarer Daten (Trainingsdaten).

Stand der Technik

Lernfähige Systeme wie neuronale Netze werden zunehmend zur Risikoabschätzung eingesetzt, weil sie in der Lage sind, komplexe, nicht von vornherein bekannte Zusammenhänge zwischen erhobenen Faktoren und Ausgängen zu erkennen und darzustellen. Durch diese Fähigkeit können sie zuverlässigere bzw. genauere Abschätzungen von Risikowahrscheinlichkeiten liefern als herkömmliche Verfahren, welche von einer speziellen Gestalt des Zusammenhangs wie etwa einer linearen Abhängigkeit, ausgehen müssen.

Im Bereich medizinischer Anwendungen, beispielsweise bei der Behandlung einer Krebserkrankung, ist es bekannt, lernfähige Systeme wie neuronale Netze oder rekursive Partitionierung (wie die bekannte Methode CART, „Classification and Regression Trees", siehe dazu z. B: L. Breiman et al., „Classification and Regression Trees", Chapman and Hall, New York (1984)) zur Bestimmung der Risikowahrscheinlichkeit eines Ereignisses auch bei zensierten Daten einzusetzen. (Von einem zensierten Datensatz spricht man, wenn bis zum letzten Beobachtungszeitpunkt das Ereignis noch nicht unbedingt eingetroffen ist.) Als Beispiel für die Anwendung lernfähiger Systeme bei einer Krebserkrankung dient die Bestimmung der Risikowahrscheinlichkeit (etwa für eine erneute Erkrankung (Rezidiv)) im Anschluß an der Primärbehandlung zur Unterstützung der Therapieentscheidung.

Die Faktoren der Datensätze umfassen eine Reihe von objektivierbaren Kenngrößen, auf deren Werte eine das lernfähige System bedienende Person keinen Einfluß hat. Im Falle eines primären Mammakarzinoms beinhalten diese Kenngrößen zum Beispiel Alter zum Zeitpunkt der Operation, Anzahl der befallenen Lymphknoten, Laborwert des Faktors uPA, Laborwert des Faktors PAI-1, Kennwert für die Tumorgröße, Laborwert des Estrogenrezeptors, Laborwert des Progesteronrezeptors.

Die Art der tatsächlich verwendeten Therapie kann als Angabe erfaßt werden, so dass auch der Zusammenhang zwischen Therapie und Ausgang erkannt wird.

Die Werte werden auf einem geeigneten Speichermedium zwischengespeichert und dem lernfähigen System zugeführt. Die einzelnen Angaben sind in der Regel allerdings zum einen mit einer Unscharfe, analog einem Signalrauschen, behaftet. Aus diesen verrauschten Einzelsignalen ist es Aufgabe des lernfähigen Systems, veredelte Signale zu bilden, die im Rahmen einer geeigneten Wahrscheinlichkeitsdarstellung zu einer Risikoabschätzung führen können.

Die Lernfähigkeit eines neuronalen Netzes auch für nichtlineare Zusammenhänge ist eine Konsequenz der Architektur und der Funktionsweise. Ein sog. „Multilayer Perzeptron" (in der Fachliteratur immer als „MLP" abgekürzt) enthält etwa eine Eingangsschicht, eine versteckte Schicht, und eine Ausgangsschicht. Die im neuronalen Netz vorhandenen „versteckten Knoten" erfüllen die Aufgabe, ein Signal für die Wahrscheinlichkeit komplexer interner Prozesse zu erzeugen. Sie können somit über die zugrunde liegenden, aber nicht von vornherein direkt abtastbaren, biologischen Prozesse, welche für den Verlauf einer Erkrankung letztendlich ausschlaggebend sein werden, Aufschluß geben.

Interne biologische Prozesse können parallel zu einander mit unterschiedlichen Raten stattfinden und auch miteinander in Wechselwirkung treten. Lernfähige Systeme können auch solche internen, nicht direkt beobachtbaren Prozesse erkennen und darstellen, wobei sich die Güte dieser Erkennung nachträglich und indirekt durch die Güte der Vorhersage der tatsächlich beobachteten Ereignisse bemerkbar macht. Durch rekursive Partitionierung (etwa CART) entstehen Zuordnungen, die in ihrer Fähigkeit zur Darstellung komplexer interner Zusammenhänge analog zu den Fähigkeiten der neuronalen Netze sind.

Der Verlauf einer Erkrankung kann zu unterschiedlichen kritischen Ereignissen führen, deren Vorbeugung eventuell unterschiedliche Therapieansätze erfordert. Im Falle des ersten Rezidivs bei Brustkrebs ist eine eindeutige Klassifikation der Befunde etwa in die gegenseitig exklusiven Ausprägungen

1. „Fernmetastasen in Knochengewebe",

2. „Fernmetastasen, jedoch kein Befund im Knochengewebe"

3. „Loko-regionales" Rezidiv

möglich.

Da aber der weitere Verlauf der Erkrankung nach einem dieser Befunde auch im Hinblick auf die Wahrscheinlichkeiten der übrigen Ausprägungen der Rezidivs beeinflußt werden kann, ist es im Rahmen der statistischen Behandlung solcher Daten oft sinnvoll, nur das Erstrezidiv zu untersuchen. Beispielsweise für eine Brustkrebspatientin, die 24 Monate nach der Primäroperation ein Lokalrezidiv erleidet und nach 48 Monaten den Befund „Knochenmetastase" hat, ist im Hinblick auf „Erstrezidiv" nur Kategorie 3 relevant. Die Nachbeobachtung Knochenmetastase wird im diesem Rahmen nicht verwendet, d.h., die Patientin ist im Hinblick auf den Befund 1 als „zensiert" zu betrachten, sobald ein anderer Befund (hier Lokalrezidiv) festgestellt worden ist.

Konkurrierende Risiken können auch dadurch entstehen, dass ein Patient etwa an einer völlig anderen Erkrankung oder an einer Nebenwirkung der Behandlung verstirbt, so dass das Risiko der den Arzt interessierenden Ausprägung verborgen bleibt.

Es ist für Experten zwar relativ offensichtlich, dass eine ausschließliche Klassifikation mit Zensierungsvorschrift die Trainingsdaten in eine Gestalt so abbilden kann, dass für jeden möglichen Ausgang je ein neuronales Netz oder je ein Klassifkationsbaum durch rekursive Partitionierung nach Stand der Technik trainiert werden kann. Im Beispiel mit den Ausgängen 1 bis 3 müßte man hierfür drei vollkommen unabhängige neuronale Netze bzw. drei verschiedene Entscheidungsbäume trainieren.

Ein Problem bei dieser Nutzung des Standes der Technik besteht darin, dass die Erkennung einer möglichen Aussagekraft interner Knoten hinsichtlich eines der Erkrankungsausgänge für die Erkennung dessen Aussagekraft hinsichtlich der übrigen Erkrankungsausgänge verlorengeht. In Wirklichkeit aber könnte ein interner biologischer Prozess, der durch interne Knoten in einem neuronalen Netz erkannt worden ist, Beiträge zu mehreren beobachtbaren Ausgängen liefern, wenn auch mit unterschiedlicher Gewichtung. Beispielsweise ist die biologische „Invasionsfähigkeit" eines Tumors von unterschiedlicher, jedoch signifikanter Bedeutung für Fernmetastasen bzw. für lokale Rezidive. Die unabhängig trainierten Netze müssen die Aussagekraft eines durch den Knoten dargestellten internen Zusammenhang eigenständig „entdecken".

Es versteht sich, dass die Anzahl der tatsächlichen Ereignisse, die einem lernfähigen System zur Verfügung stehen, analog zur Mächtigkeit eines statistischen Systems, die Erkennungsgüte mitbestimmen. In medizinischen Anwendungen ist diese Anzahl meist begrenzt. Infolgedessen ist die Wahrscheinlichkeit, dass sich interne Prozesse knapp hinsichtlich eines der Ausgänge bemerkbar machen, jedoch nicht hinsichtlich der übrigen Faktoren, relativ groß. In diesem Fall geht die potentielle Aussagekraft zur Unterscheidung der Faktoren, sowie das biologische Erklärungspotential der internen Knoten auch im Hinblick auf die weiteren Ausgänge, verloren.

Da Therapien auch Nebenwirkungen haben, ist etwa eine Verringerung des Risikos einer Ausprägung einer Erkrankung auf Kosten einer Erhöhung eines anderen Risikos typisch für den medizinischen Entscheidungskontext. Hierfür ist die Notwendigkeit beim gegenwärtigen Stand der Technik, hinsichtlich jedes einzelnen Risikos ein völlig neues neuronale Netz trainieren zu müssen, unbefriedigend.

Faktoren, deren Wirkung auf die Wahrscheinlichkeit der Ausgänge zeitlich variabel sind, können nach Stand der Technik durch verschiedene Knoten in der Ausgangsschicht dargestellt werden, denen verschiedene Zeitabhängigkeiten (etwa durch die bekannte Technik der „fraktionalen Polynomen") zugeordnet werden. Eine zeitlich variable Aussage zur Ereignisdichte ist beim Stand der Technik zwar möglich, jedoch ist das Problem der konkurrierenden Risiken nicht so formulierbar, dass die Bestimmung einer zeitlich variablen Aussage nicht beeinträchtigt wird.

Angesichts der Nachteile des Standes der Technik liegt der Erfindung die Aufgabe zugrunde, ein Verfahren bereitzustellen, mit dem konkurrierenden Risiken in ihrem logischen bzw. ursächlichen Zusammenhang erfaßt, identifiziert und dargestellt werden können, insbesondere so, dass die Bestimmung einer zeitlich variablen Aussage nicht beeinträchtigt wird.

Beschreibung der Erfindung

Diese Aufgabe wird durch das Verfahren gemäß Patentanspruch 1 gelöst.

Durch das erfindungsgemäße Verfahren können den konkurrierenden Risiken durch das lernfähige System geeignete Kennwerte zugeordnet werden. Diese Kennwerte sollen die Berechnung der bedingten Wahrscheinlichkeit pro Zeiteinheit für das Eintreten des jeweiligen Ereignisses (unter der Voraussetzung, dass bisher keines der möglichen Endereignisse eingetreten ist) ermöglichen. „Geeignete" Kennwerte im Sinne der Erfindung können die Eigenschaft haben, dass ein Maximum der statistischen „Likelihood" betreffend aller Ausgänge angestrebt wird.

Es versteht sich, dass dieses Verfahren in verschiedensten Bereichen, wie z. B. den Ingenieurs- und Wirtschaftswissenschaften, der Biologie oder Medizin, verwendet werden kann. Im Bereich der Medizin kann es sich dann bei den Objekten um Patienten handeln, die nach einer ersten Erkrankung, dem Ausgangsereignis, konkurrierenden Risiken unterliegen, eine erneute Erkrankung zu erleiden.

Vorteilhafterweise werden für das Verfahren für die Trainingsdatensätze gemessene oder in sonstiger Weise objektiv erfaßte Daten des Anfangsereignisses und einer Nachbeobachtung bis zu einem vorgegebenen Zeitpunkt verwendet.

Dabei ist es von Vorteil, wenn der letzte Zeitpunkt der Nachbeobachtung explizit in den Trainingsdatensätzen verwendet wird. Somit kann durch das erfindungsgemäße Verfahren auch die Nutzung anderer Kennwerte im Rahmen eines trainierten lernfähigen Systems ermöglicht werden, solange sich diese Kennwerte analog zur statistischen Likelihood aus den Nachbeobachtungen bilden lassen.

In einer vorteilhaften Ausführung werden bei der Beobachtung einer Versagensausprägungen zu einem Zeitpunkt die anderen Ausprägungen ausgeschlossen. Auf diese Weise kann eine Ausprägung eines Versagens bevorzugt berücksichtigt werden.

Vorteilhafterweise ist die objektive Funktion L in Abhängigkeit einer Funktion P gegeben:

Hier sind mit μ die Parameter des lernfähigen Systems gemeint. („LS" steht für „lernfähiges System".) f_{LS ktX )}( .) bezeichnet die Versagensrate der Ausprägung k und S_{LS{k x )}(t.) den

Erwartungswert des Anteils an Objekten j mit beobachteten Merkmalen x,-, welche kein Versagen der Ausprägung k zum Zeitpunkt tj erleiden. P wird aufgrund des logischen Zusammenhangs aus δ_jk bestimmt, wobei δ_jk =1, wenn ein Objekt j ein Versagen der Ausprägung /. zum Zeitpunkt _> erlitten hat und sonst δ_jk = 0.

Vorteilhafterweise wird

L(μ-{x _tj,δ_ß}) = l[ fl[f _k,_Xj)( _ _,>('y)h

7=1 k=\ als objektive Funktion verwendet, wobei ε_jk und ψ_j aufgrund des logischen Zusammenhangs aus δ_Jk bestimmt werden.

Es ist von Vorteil, wenn

als objektive Funktion verwendet wird.

In einer bevorzugten Alternative wird ein neuronales Netz als lernfähiges System verwendet. In diesem Fall kann obige objektive Funktion L in Abhängigkeit von P die Form haben

Von besonderem Vorteil ist es, wenn ein neuronale Netz der Architektur MLP (multilayer Perzeptron) verwendet wird.

In einer anderen bevorzugten Alternative führt das lernfähige System eine rekursive Partitionierung durch, wobei

jedem Objekt einem Knoten zugeordnet wird,

jedem Knoten die Häufigkeiten oder Wahrscheinlichkeiten aller Ausprägungen zugeordnet wird, und

die Partionierung so durchgeführt wird, dass die objektive Funktion optimiert wird, die diese Häufigkeiten oder Wahrscheinlichkeiten statistisch berücksichtigt.

Vorzugsweise wird das lernfähige System im Rahmen einer Entscheidungshilfe verwendet.

Es ist von Vorteil, wenn den verschiedenen Wahrscheinlichkeitsfunktionen der konkurrierenden Risiken Werte zur Ermittelung einer Strategie zugeordnet werden. Damit kann beispielsweise bei einer medizinischen Anwendung der vorliegenden Erfindung eine Therapiestrategie ermittelt werden.

Im folgenden wird das erfindungsgemäße Verfahren zur Ermittlung konkurrierender Risiken unter Bezugnahme auf die Zeichnung weiter beschrieben. In der Zeichnung zeigen:

Figur 1 eine Darstellung eines neuronalen Netzes in einer Implementierung als MLP,

Figur 2 ein Venn-Diagramm konkurrierender Risiken, und

Figur 3 eine Illustration eines trainierten neuronalen Netzes mit drei konkurrierenden Risiken.

Die nachfolgend beschriebenen Ausführungsformen beziehen sich auf medizinische Answendungen, was aber nicht als Einschränkung zu verstehen ist. Die folgende Beschreibung bedient sich der Terminologie der neuronalen Netze der Architektur MLP. Die Anwendung auf andere Architekturen der neuronalen Netze sowie für Regressionsbäume ist aber analog und für Experten unmittelbar ohne weitere Beschreibung nachzuvollziehen.

Insbesondere wird erfindungsgemäß eine zusätzliche Dimension der Ausgangsschicht des lernfähigen Systems eingeführt, wobei

• die zusätzliche Dimension der Ausgangsschicht mindestens zwei Knoten umfaßt

• die Knoten dieser zusätzlichen Dimension den verschiedenen Ausgangsereignissen entsprechen

• jeder Ausgangsknoten einem Signal zugeordnet wird,

• die einzelnen Signale jeweils einer Risikofunktion bezüglich der möglichen Ereignisse zugeordnet werden.

• die Signale der Ausgangsfunktionen zu einem Gesamtsignal kombiniert werden

• das lernfähige System trainiert wird, indem die Werte der Gesamtsignale für alle Datensätze als Objektivfunktion für das System herangezogen werden

Ein auf diese Weise trainiertes System unterstützt den behandelnden Arzt und den Patienten beispielsweise bei der Entscheidung für einen aus mehreren unterschiedlichen Therapieansätzen, indem es feststellt, gegen welche der möglichen Ausprägungen der Rezidivgefahr die Therapie gerichtet werden soll.

Problemdarstellung und Überblick

Das Ziel der individualisierten Patientenprognose mit konkurrierenden Risiken läßt sich mathematisch so auffassen, dass mehrere Funktionen fι(x) f₂(x) f₃(x), ... mit dem lernfähigen System, hier mit einem neuronalen Netz NNι(x), NN₂(x), .... zu approximieren sind. Genauer gesagt, das neuronale Netz schätzt den Erwartungswert E(y_k|x) der stochastischen Variablen y_k bei beobachteten Merkmalen x:

NN_k(x) f_k(x) = E(y_k \ x) . Schematisch läßt sich das neuronale Netz zunächst bei der aktuellen Implementierung als MLP im Ausführungsbeispiel wie in Figur 1 darstellen.

Alle Quadrate stellen hier Neuronen dar. Die oben im Bild dargestellten Neuronen liefern entweder

• rohe Patientenmerkmale (Beim primären Brustkrebs beispielsweise uPA, PAI-1, Zahl der befallene Lymphknoten, usw.) oder

• aus diesen Merkmalen bereits aufbereitete Größen (z.B. Werte bereinigt um Mittelwert oder Mediän und normiert durch Standardabweichung der Werteverteilung) oder

• durch Vorkenntnisse oder andere statistische Methoden abgeleitete Größen. Diese Neuronen bilden zusammen die Eingangsschicht.

Die mittleren Neuronen bilden die interne Schicht. Es können auch mehrere interne Schichten vorgesehen sein. Jedes interne Neuron verarbeitet die Signale von den Eingangsneuronen und gibt ein Signal weiter. Die mathematische Beziehung zwischen den "Inputs" zu den internen Neuronen und ihren "Outputs" wird durch das Einpendeln von synaptischen Gewichten gesteuert.

Die unteren Neuronen liefern Schätzungen für die erwünschten Kenngrößen (z.B. Erwartungswert des Überlebens) und bilden die Ausgangsschicht.

Um dem Netz den unterstellten Zusammenhang fι(x) f₂(x) f₃(x), ... beizubringen, stehen m Patientinnen zur Verfügung. Jedem Patienten ist ein Datenmuster (x,y) zugeordnet, wobei für konkurrierende Risiken die Ausgangsvariablen y als „Vektoren" (y=[yι,y₂,y3, ...]) zu verstehen sind. Das Netz muß also anhand der Menge der Datenmuster {(x¹,y¹),...,(x^m,y^m)} die zugrundeliegende Dynamik lernen. Der Index als Superskript bezieht sich auf den Patienten. Beim Lernen findet nun eine Anpassung der synaptischen Gewichte statt.

Die in der Ausführungsform verwendete Architektur besteht in einem klassischen mehrschichtigen Feedforward-Netz. Neuronen sind wie oben beschrieben in Schichten organisiert. Konnektoren bestehen in der Ausführungsform wie folgt

• Eingangsschicht -> versteckte Schicht

• Eingangsschicht - Ausgangsschicht

• Versteckte Schicht -- Ausgangsschicht Die Verwendung von Konnektoren Eingangsschicht -> Ausgangsschicht ist zweckmäßig aber nicht zwingend zur Funktion der Erfindung, weil sie nicht unbedingt zur Darstellung einer Abbildung NN(x) notwendig sind.

Funktion neuronaler Netze

Neuronen als Funktionen

Jedes Neuron empfängt ein Stimulationssignal S, verarbeitet dieses gemäß einer vorbestimmten Aktivierungsfunktion F(S) und gibt ein entsprechendes Antwortsignal A = F(S) aus, das allen nachfolgenden Neuronen zugeführt wird, welche noch mit ihm verbunden sind. In der Ausführungsform ist die Aktivierungsfunktion der versteckten Schicht der Tangens Hyperbolicus. Die Erfindung kann ebenso bei Verwendung anderer Aktivierungsfunktionen wie etwa der logistischen Funktion eingesetzt werden.

Transformationen und Eingangsneuronen

Die Faktoren werden anfänglich univariat so transformiert, dass sie in einem Intervall der Größenordnung 1 liegen.

D.h., zuerst wird der Mediän XMedian subtrahiert und eine Skalierung der Werte mit einem Faktor x_Q vorgenommen: Werte über dem Mediän werden mit dem 75 %-Quantil skaliert, Werte unter dem Mediän mit dem 25 %-Quantil. Darauf wird noch die Funktion tanh angewandt.

Die Eingangsneuronen haben eine statische Funktion und werden deshalb als Felder implementiert, welche die so transformierten Werte weiterreichen. Konzeptuell kann man die tanh-Funktion der Gleichung (1a) als Aktivierungsfunktion der Eingabeschicht ansehen.

Versteckte Neuronen

Gesucht ist der Ausgang des versteckten Knotens h für Patientin j. Zuerst wird überprüft, ob der versteckte Knoten h noch aktiv ist. Falls aktiv, werden die Eingangssignale mit den zugehörigen Gewichten multipliziert um die Summe w_h -x, zu bilden. Genauer gesagt ist das Signal zum versteckten Knoten h bei Muster j eine gewichtete Summe der Eingänge der Gestalt ^zh(J) = ∑_i ^wih^χiU) ,

wobei w_ih das Gewicht des Konnektors vom Eingangneuron i zum versteckten Neuron h, und Xi (j) die (skalierte) Antwort des i-ten Eingangsneurons darstellt. Die Antwort des versteckten Neurons h ist

r_h(j) = F_h(z_h(j)-b_h) . (2.a)

Hierbei ist b_h das Bias des versteckten Neurons h, das rechentechnisch wie jedes andere Gewicht des Netzwerks optimiert wird. Im Ausführungsbeispiel ist die nichtlineare Aktivierungsfunktion F_h der Tangens hyperbolicus.

Ausgangsknoten

Gesucht ist der Ausgang des Ausgangsknotens o für Patientin j. Zuerst wird überprüft, ob der Ausgangsknoten o noch aktiv ist. Konnektoren sowohl von der versteckten Schicht wie auch von der Eingangsschicht sind möglich. Für jeden noch aktiven Konnektor werden die zugehörigen Eingangssignale mit den entsprechenden Gewichten multipliziert.

Das Signal z_Q wird zunächst gebildet: Das Bias des Neurons b₀ wird abgezogen, und auf dieses Resultat wird die Aktivierungsfunktion des Ausgangsneurones o angewandt. Der Ausgang O₀0) wird somit zu

0₀(j) = F₀(z₀(j)-b₀)

Die Aktivierungsfunktion der Ausgangsschicht wird im Ausführungsbeispiel als die Identitätsfunktion gewählt.

Im Ausführungsbeispiel wird das Gesamtbias im Gegensatz zur versteckten Schicht nicht frei optimiert, sondern wird so gewählt, dass das Mediansignal aller Ausgangsneuronen gleich null ist. Dies ist möglich ohne Einschränkung der Allgemeinheit des Modells. Somit verringert sich die Anzahl der zu optimierenden Parameter um die Anzahl der Biasparameter.

Überlebensanalyse bei konkurrierenden, zeitvariablen Risiken im Rahmen lernfähiger Modelle

Bezug zum Lernfähigen System

Vorgegeben sei ein Patientenkollektiv mit vorhandenen Kovariaten (prognostischen Faktoren) X_j, die zu einem Anfangszeitpunkt t=0 (etwa zum Zeitpunkt der Primäroperation) gemessen wurden, sowie Endpunkten t_j. Bei bekanntem Versagen der Ausprägung k des j-ten Patienten zum Zeitpunkt t_j wird δ_jk = 1 (k=1,2,3,...) definiert, falls zensiert (weiterer Verlauf nach t=t_j unbekannt) wird δ_jk=0 definiert.

Sei S_k(f) der Erwartungswert des Anteils der Patienten zu einem Zeitpunkt t, welche kein Versagen der Ausprägung k erleiden, wobei S_k(∞) = 0 und S_k(0) = 1. Es ist zweckmäßig, jeweils eine Versagensrate f_k(f) und eine „Hazardfunktion" λ_k(f) gemäß

4(0 Λ⁽ (3.a)

3.⁽0 zu definieren, so dass λ_k(t) = --[\ogS_k(t)] (3.b)

gilt.

Die Interpretation dieser einzelnen Versagensraten ist wie folgt: Wäre es möglich, die übrigen Ausprägungen ohne Einfluß auf die Ausprägung k zu vermeiden, so würde f_k(ή die beobachtete Versagensrate approximieren. In Wirklichkeit wird f_k(f) zwar nicht direkt beobachtet. Für die Nutzung der Erfindung im Rahmen einer Entscheidungshilfe ist jedoch die Erfassung aller Ausprägungen f_k(f) notwendig, damit die Wirksamkeit einer Verringerung einer Ausprägung im Hinblick auf das Gesamtwohl des Patienten berücksichtigt werden kann.

Bei bekanntem Verlauf der Hazardfunktionen λ_k (t) erhält man die S_k(ή durch Integration der Gl. (3.b) mit der Anfangsbedingung S_k(0) =1.

Vom neuronalen Netz erhalten wir zu einem Zeitpunkt r nach der Primäroperation für eine Patientin mit Kovariaten x eine "Hazardfunktion" λ_k (t\x), die nun von Kovariaten x abhängt. Als Modell für die Hazardfunktion bei vorgegebenen Kovariaten x setzen wir λ_k(t \ x) = λ_kQ(t)h_k(t \ x) (4.)

mit

Die Funktionen B_t(t) werden dem Problem angepaßt gewählt. Möglich sind hier beipielsweise Spline-Funktionen. In dem Ausführungsbeispiel werden für B_t(t) fraktionelle Polynome bevorzugt, d.h. B, (t) = t^{(W) 2}.

Somit erhält man

λ_ok exp ∑NN_u x)B_t(t) = - logfe(t)) . (6.)

Hierbei wird in der zweiten Gleichung λ₀ als eine Konstante betrachtet. Die Zeitabhängigkeit steckt in den Koeffizienten B . Dieses Modell ist ein Proportional-hazards-Modell, falls Bi = 1 und alle anderen B| verschwinden. Abweichungen von „Proportional-hazards" können durch Berücksichtigung von Termen Bι mit l>1 modelliert werden.

In einer breiten Klasse von Anwendungen wird eine Objektivfunktion der Gestalt

L(μΛx_J,t_J,δ_jk}) _(7-) optimiert, wobei die Schreibweise zum Ausdruck bringt, dass P (zunächst auf eine noch nicht näher spezifizierte Art und Weise) von den jeweiligen Überlebens- bzw. Versagenswahrscheinlichkeiten abhängen darf. Diese Abhängigkeit ist problembedingt und geht aus einem logischen Modell für das Auftreten der verschiedenen Ausprägungen hervor. Eine bevorzugte Klasse von Objektivfunktionen der Gestalt (7.) lassen sich als statistische Likelihoodfunktionen verstehen, wobei für die Ausführungsform

[ _*_)('_/ l ^jt (8.) gewählt wird. Die beiden Argumente fNN(k,x) und SNNΓJ_CX) ^sind eindeutig bestimmt unter der Voraussetzung, dass das neuronalen Netz oder das sonstige lernfähige Modell die entsprechenden Werte für die Ausgangsknoten liefert. Dies ist in der Ausführungsform stets der Fall.

Hierbei sind ε_jk und ψ_jk aufgrund des logischen Zusammenhangs aus δ_j zu bestimmen, wobei δ_jk =1, wenn der Patient j ein Versagen der Ausprägung k zum Zeitpunkt t_j erlitten hat und sonst δ_jk = 0. Zensierte Datensätze entsprechen Patienten, die gar kein Versagen erlitten haben, so dass δ_jk = 0 für alle k=1,2,3,.... Die funktionale Abhängigkeit vom Modell wird symbolisch durch veränderliche Parameter μ gekennzeichnet. Ein Beispiel zur Bestimmung von ε_jk und ψ_jk wird in der Folge angegeben.

Die mit μ bezeichneten Parameter sind in der Ausführungsform die Überlebenszeitskalen λ_ok und die Gewichte des neuronalen Netzwerkes. Der Index j bezeichnet den Patientendatensatz.

In der Ausführungsform wird das Zeitintegral zur Lösung der Gleichung 6 durch die Standardmethode „Romberg-Integration" gelöst. Somit können beliebige Zeitabhängigkeiten der Funktionen Bι (t) berücksichtigt werden.

Zu einem Zeitpunkt t sei S(t) der Erwartungswert des Anteils der Patienten, welche kein Versagen irgendeiner der Ausprägungen k=1,...,K erlitten hat. In der Ausführungsform ist diese Größe durch das Produkt der einzelnen Wahrscheinlichkeiten geben:

Spezifikation der Ausführungsform für ein Beispiel

Für eine vollständige Spezifikation der Ausführungsform müssen nun die Größen ψ _jk und ε _jk angegeben werden. Im folgenden werden zur Veranschaulichung zwei Fälle der Ausführungsform hinsichtlich dieser Funktionen vollständig spezifiziert, die typisch für die Anwendung der Erfindung im Kontext der konkurrierenden Risiken sind.

Man betrachte eine Erkrankung, bei der das Versagen drei Ausprägungen hat. Der Patient wird im Monat t (.=1,2, ...) beobachtet. Hierbei kann im Monat t irgendeine Kombination der drei Ausprägungen oder gar kein Versagen beobachtet werden, so dass der Patient „zensiert" ist. Die Situation wird als Venn-Diagramm in der Abbildung 1 veranschaulicht. Im Falle der Krankheit Mammakarzinom könnten die drei Ausprägungen etwa Knochenmetastasen (B für "bone", k=1), sonstige Fernmetastasen (D für „distant", k=2), bzw. Lokal/regional (L für „local", k=3) sein. Ein gleichzeitiges Auftreten aller drei Ausprägungen im Beobachtungsmonat t ist möglich. Es kann aber sein, dass aus klinischen, pharmakologischen, oder datentechnischen Gründen die Nachbeobachtung im Monat t nach folgender Logik angegeben wird:

• Knochenmetastasen Qa/nein) ? o Falls ja, dann εji o Falls nein: sonstige Fernmetastasen Q^'a/nein) ?

^■ Falls ja, dann ε_ji =0 ε_j2=1 ε_j3 =0 ψ_ji =1 ψ _j2 =0 ψ_j3=0

^■ Falls nein: lokal/regional O^'a/nein)

• Falls ja, dann ε_j =0 ε_j2=0 εj₃=1 ψ ji =1 ψ _j2 =1 ψ_j3=0

• Falls nein, dann ε_j1 =0 ε_j2=0 j3=0 ψ _ji =1 ψ _j2 =1 ψ _j3=1

In anderen Worten:

Bei dieser Zuordnung wird etwa der Beobachtung „Knochenmetastasen" eine Priorität eingeräumt, so dass nicht gefragt wird, ob die anderen Ausprägungen zum Zeitpunkt t vorkommen oder nicht. Deshalb ist bei Befund „Knochenmetastasen ja" der Beitrag zur Likelihoodfunktion (8) der j-ten Patientin gemäß dieser Logik offenbar allein durch den Term fuNfl_j) gegeben (kein Term mit S _NNftD.)

Für den Fall „keine Knochenmetastasen, aber sonstige Fernmetastasen", geht aus der Zuordnung ein Beitrag f_NN(2,j) x S _NN(I,J) hervor.

Für den Fall „weder Knochen- noch sonstige Fernmetastasen, aber lokal/regionale Erkrankung" geht aus der Zuordnung ein Beitrag f_{m( i)} x S NNO j> x S NN(_J) hervor.

Für den Fall „zensiert" geht aus der Zuordnung ein Beitrag S_NN(i,j) X SNN<?J) X S_NN(3(j) hervor.

Eine Anwendung der Erfindung für Messungen, bei denen stets das Vorhandensein bzw. die Abwesenheit mehrerer Ausprägungen zum Zeitpunkt t beobachtet und berücksichtigt wird, ist möglich, wenn die obigen Gleichungen mit entsprechenden Gleichungen für die Wahrscheinlichkeit der gleichzeitigen Beobachtung mehrerer Ausprägungen bei geschätzten Werten der Versagenswahrscheinlichkeiten ersetzt werden.

Aufbau eines neuronalen Netzes zur Ermittlung konkurrierender Risiken

Fig. 1 zeigt den Aufbau eines neuronalen Netzes mit der Architektur MLP. In diesem Fall umfaßt das neuronale Netz

• eine Eingangsschicht mit einer Mehrzahl von Eingangsneuronen j (i für „input neuron")

• wenigstens eine Zwischenschicht mit Zwischenneuronen N_h (h für „hidden neuron")

• eine Ausgangsschicht mit einer Mehrzahl von Ausgangsneuronen N₀ (o für „Output neuron")

• einer Vielzahl von Konnektoren, die jeweils zwei Neuronen unterschiedlicher Schichten miteinander verbinden.

In der Ausführungsform gemäß Fig. 1 wird eine zweidimensionale Ausgangsschicht dargestellt, um die durch die Erfindung vorhandene Möglichkeit zur gleichzeitigen Darstellung zeitlich variabler und auch konkurrierender Risiken zu veranschaulichen. Die vereinfachte Darstellung von nicht zeitlich variablen Risiken bildet hierbei den Sonderfall, bei dem nur die Ausprägungsdimension notwendig ist.

Die Anzahl der anfänglich eingesetzten Eingangs-Neuronen Ni wird üblicherweise entsprechend der Anzahl der für das Patientenkollektiv zur Verfügung stehenden objektivierbaren Angaben gewählt. Nach stand der Technik stehen Verfahren zur Verfügung, welche entweder vorab die Anzahl der Eingangs-Neuronen auf ein für die jeweilige Rechenanlage akzeptierendes Maß automatisch reduzieren oder aber im Laufe der Optimierung überflüssige Eingangs-Neuronen automatisch entfernen, so dass in beiden Fällen die Bestimmung der letztendlich verwendeten Eingangs-Neuronen ohne Eingriff der jeweiligen Bedienungsperson erfolgt.

In der Ausführungsform gemäß Fig. 1 wird die ursprüngliche Anzahl der versteckten Neuronen durch die ursprüngliche Anzahl der Eingangs-Neuronen bestimmt, d.h.,

N_h = Ni (10.a) Für diesen Fall stehen nach Stand der Technik Verfahren zur Verfügung, welche eine günstige Vorbelegung der Konnektoren ermöglichen.

Die Neuronen der Ausgangsschicht werden in der Ausführungsform gemäß Fig. 1 sinngemäß in einer zweidimensionalen Matrix mit Indizes

Jtime = 1 N,_ime (10.b)

angeordnet, wobei die Anzahl der ursprünglich aktiven Neuronen der Ausgangsschicht gegeben ist durch

N₀ = N,i_me x N _ey (10.d)

Hierbei bezeichnet der Index J_key Signale der jeweiligen Ausprägung, während der Index J,_ilτ,_e das Signale zur jeweiligen Zeitfunktion (etwa „fraktionelle Polynome" oder Splinefunktionen) bezeichnet. Ein mit zwei Indizes J_ti_me , J_key bezeichnetes Ausgangsneuron trägt demgemäß zur Bestimmung des Koeffizients der Zeitfunktion J_time beim Risiko für die Ausprägung J_key . Die Indizes J_key bzw. J_ti_me entsprechen in der Ausführungsform sinngemäß den Indizes k bzw. I der Gleichungen 4 bis 7. Hierbei entsprechen N _ey bzw. N_time in der Ausführungsform sinngemäß den Größen K bzw. L dieser Gleichungen.

Für die Anwendung im Rahmen der rekursiven Partitionierung stehen ebenfalls Endknoten zur Verfügung, die üblicherweise in einer eindimensionalen Reihe angeordnet werden. Nach Stand der Technik wird jeder Patient einem solchen Knoten zugeordnet. Ebenfalls nach Stand der Technik wird dem Knoten ein Risiko zugeordnet, das als ein (skalares) Signal betrachtet werden kann. Die Erfindung ordnet nun jedem Endknoten statt eines Skalars ein Vektor mit N_key Indizes zu.

Lernen

Für das Ausführungsbeispiel ist es Ziel des Lernens (Trainings), einen möglichst hohen Wert dieser Likelihoodfunktion im Parameterraum zu orten, gleichzeitig aber überflüssige Parameter nach Möglichkeit zu vermeiden. In der Ausführungsform erfolgt das Lernen durch Initialisierung, Optimierungsschritte und Komplexitätsreduktion wie folgt:

Initialisierung Univariate Analyse

Bevor das gesamte Netz mit allen Gewichten trainiert wird, ist es vorteilhaft, eine univariate Analyse für jeden Faktor durchzuführen. Diese Analyse hat mehrere Anwendungen:

• Die univariate Stärke der Faktoren bzw. deren einzelne prognostische Güte steht für den Vergleich mit dem vollständigen Netz zur Verfügung.

• Univariate Analyse dient zur Bestimmung einer Rangfolge der Faktoren für den Fall, dass weniger Eingangsknoten als Faktoren vorhanden sind.

• Eine Vorbesetzung der Gewichte, die nichtlineare Konfigurationen begünstigt, oder wenigstens nicht benachteiligt, läßt sich aus den univariaten Analysen bilden (siehe unten).

Zunächst wird ein exponentielles Überlebensmodell mit dem einzigen Parameter λ₀ bestimmt. Dieses Modell dient zur Initialisierung und in der nachfolgenden Analyse außerdem zur Kontrolle.

Lineare univariate Modelle

Der nach Gl. (1a) transformierte Wert des j-ten Faktors Xj wird als einzelner Eingang in ein „Netzwerk" betrachtet, das aus genau einem linearen Konnektor von diesem Eingangsneuron zu einem Ausgangsknoten besteht (d.h., ohne versteckte Knoten). Die Zeitabhängigkeit dieses Ausgangsknotens entspricht dem „Proportional-Hazards-Modell" (K=1) für zensierte Daten. Das daraus resultierende Modell hat nur noch zwei freie Parameter: der Zeitparameter (λ₀) und das Gewicht des Konnektors. Diese werden optimiert und zusammen mit der Güte (Likelihood) und der Signifikanz für nachfolgende Zwecke in einer Tabelle gespeichert.

Nichtlineare univariate Modelle

Als nächstes wird jeweils für jeden Faktor eine Anpassung mit vier Parametern an ein nichtlineares univariates Modell vorgenommen. Hier wird die Transformation des j-ten Faktors mit dem Ergebnis Xj als „Eingangsneuron" betrachtet. Das univariate „Netzwerk" besteht nun aus diesem einen Eingangsneuron, einem einzigen versteckten Neuron, und einem einzigen Ausgangsneuron (ohne linearen Konnektor zwischen Eingangs- und Ausgangsneuron). Die Zeitabhängigkeit dieses Ausgangsknotens entspricht wie oben dem „Proportional-Hazards- Modell" (K=1) für zensierte Daten.

Die vier Parameter entsprechen jeweils der Zeitkonstante (λ₀), dem Gewicht und dem Bias zur versteckten Schicht, sowie dem Gewicht zur Ausgangsschicht. Diese werden optimiert und zusammen mit der Güte (Likelihood) und der Signifikanz für nachfolgende Zwecke in einer Tabelle gespeichert.

Rangfolge der Eingangsvariablen

Nachdem für jeden Faktor die univariaten Modelle bestimmt worden sind, wird die Rangfolge der univariat signifikanten Faktoren gemäß der Beträge der linearen Gewichte bestimmt. Die Numerierung der Eingangsknoten für die nachfolgende Analyse entspricht dieser Rangfolge. Für den Fall, dass weniger Eingangsknoten als Faktoren zur Verfügung stehen, erlaubt diese Prozedur eine objektive Vorselektion der "wichtigsten" Faktoren.

Vorbesetzung der Gewichte

Für die Optimierung des Netzes (Trainieren) müssen zunächst Anfangswerte für die Gewichte gesetzt werden. Hierbei wird eine Vorbesetzung mit dem genauen Wert Null nicht angestrebt. In der Ausführungsform werden zunächst die Gewichte der linearen Konnektoren wie üblich mit kleinen Werten vorbesetzt. Der Zeitparameter wird mit dem aus dem 1-parametrigen Modell bestimmten Wert λ₀ vorbesetzt. Die Anzahl der versteckten Knoten H wird gleich der Anzahl der Eingangsknoten J gewählt. Nun wird der Konnektor von Eingangsneuron j zum versteckten Neuron mit dem gleichen Index h=j zunächst mit dem unter "nichtlineare univariate Modelle" bestimmten Gewicht vorbesetzt. Der entsprechende Bias wird analog mit dem so bestimmten Bias vorbesetzt. Diese beiden Größen werden dann um einen kleinen zufälligen Betrag versetzt. Daher entspricht jeder Ausgang eines versteckten Knotens etwa dem univariat optimalen nichtlinearen Wert.

Für jeden versteckten Knoten h steht der Wert des aus der univariaten Optimierung gewonnenen Gewichts, die wir hier als w_hι bezeichnen, zum ersten Neuron der Ausgangsschicht ebenso zur Verfügung. Um nun die Gewichte zur Ausgangsschicht zu Initialisieren, werden die Größen w_M , h=1,...,H mit H Zufallszahlen gewichtet. Man wählt in der Ausführungsform dazu H Zahlen aus einer Gleichverteilung auf [0,1] und dividiert jede Zahl durch die Summe. Anschließend werden diese und alle übrigen Konnektoren (d.h., Gewichte von der versteckten Schicht zu Neuronen der Ausgangsschicht mit k=2, usw.) um einen kleinen zufälligen Betrag versetzt.

Eine zweite, für neuronale Netze üblichere Möglichkeit der Initialisierung besteht darin, allen Konnektoren kleine, zufällige Gewichte zuzuordnen. Damit befinden sich am Anfang der Optimierung alle Verknüpfungen, auch die über die versteckte Schicht, im linearen Bereich. Für kleine Argumente ist die "Aktivierungsfunktion" fast linear, z.B., tanh(x) « x für kleines x.

Lineare Statistik der Eingangsfaktoren

In der Ausführungsform wird die Kovarianzmatrix aller Eingangsfaktoren berechnet und gespeichert. Bestimmt wird auch eine lineare Regression jedes Faktors auf alle andere Faktoren: X₂ » A Xi + B. Eigenvektoren und Eigenwerte der Kovarianzmatrix werden berechnet und protokolliert. Die linearen Beziehungen werden in der Ausführungsform für die verschiedenen Ausdünnungsverfahren verwendet.

Zuordnung der Patientendaten in Trainings- und Validierungsmengen

Für ein lernfähiges System ist es üblich, die vorhandenen Muster zufällig in Trainings- Validierungs- und Generalisierungsmengen zu unterteilen. Beispielsweise kann der Benutzer Prozentsätze (auch null) aller Muster vorgeben, die für die Validierung bzw. Generalisierung reserviert sind. Die Generalisierungsmenge wird zum Training überhaupt nicht berücksichtigt, um nachträglich eine vollständig unvoreingenommene Überprüfung der Güte zu ermöglichen. Die Güte auf der Validierungsmenge, falls vorhanden, wird im Laufe der Optimierung mehrfach zur Überprüfung verwendet: Die Güte auf der Validierungsmenge liefert ein unabhängiges Maß für den Fortschritt der Optimierung auf der Basis der Trainingsmenge und dient außerdem zur Vermeidung von Überanpassung.

Wahl der Faktoren

In der Ausführungsform besteht die Möglichkeit, Untermengen der Faktoren heranzuziehen, um beispielsweise Modelle für solche zukünftigen Muster zu gewinnen, für die nur diese Untermenge der Faktoren zur Verfügung steht. Netzoptimierung

Simplex-Optimierung

Bei der Optimierung geht es um die Suche nach einem Maximum der Likelihoodfunktion, bezogen auf die Daten der Trainingsmenge. Der Parameterraum der Suche besteht aus den n-K noch aktiven Netzgewichten zusammen mit den globalen Zeitkonstanten λ_fc_, k=1,...,K. Daraus ergibt sich ein n-dimensionaler Raum, in dem die Suche erfolgt.

Die in der Ausführungsform implementierte Methode der Suche bedient sich der Konstruktion von einem n-fachen Simplex in diesem Raum nach der bekannten Methode von Neider und Mead (1965). Die Suche erfordert die Bildung einer n-dimensionalen Simplex im Parameterraum. Eine Simplex läßt sich durch Vorgabe von n+1 nicht entarteten Ecken bestimmen, d.h., die entsprechenden Kanten sind alle linear unabhängig voneinander. Sie umfaßt somit eine n-dimensionale Punktwolke im Parameterraum. Die Optimierungssuche erfolgt in Epochen. Während jeder Epoche wird die Gütefunktion auf der Trainingsmenge an verschiedenen Stellen im Parameterraum ausgewertet, nämlich am aktuellen Ort sowie an n weiteren Ecken, die durch Zusammensetzung von Operationen wie Reflexion, Expansion/Kontraktion in einer Richtung, usw., definiert sind. Die Richtungen dieser Operationen werden auf der Basis der Werte der Gütefunktion an den zur vorigen Epoche definierten Ecken automatisch gewählt. Die Abnahme der Gütefunktion in der Ausführungsform ist monoton, und die Suche endet immer bei einem (wenigstens lokalen) Minimum.

Berücksichtigung der Validierungsmenge

Die oben beschriebene Validierungsmenge dient, falls vorhanden, zur Kontrolle des Optimierungsfortschritts und zur Vermeidung von Überanpassung.

Als Kennzahlen der augenblicklichen Güte der Optimierung bezüglich der Trainings- und Validierungsmengen werden in der Ausführungsform laufend die Größen Minus Log-likeiihood pro Muster der beiden Mengen berechnet und ausgegeben. Während diese Kennzahl auf der Trainingsmenge monoton abnehmen muß, sind vorübergehende Schwankungen der entsprechenden Kennzahl auf der Validierungsmenge möglich, ohne dass eine Überanpassung bereits stattgefunden hat. Ein monotoner Anstieg der Kennzahl auf der Validierungsmenge sollte jedoch zum Abbruch der weiteren Optimierung und zu einer Komplexitätsreduktion führen. Dieser Art der Abbruch stellt eine Art Notbremse für die Vermeidung von Überanpassung vor.

Ein mögliches Abbruchkriterium, das automatisch durchgeführt werden kann, wird durch die Führung der exponentieli geglätteten Güte der Validierungsmenge erreicht. Falls diese geglättete Kenngröße das bisherige Minimum des aktuellen Optimierungsschritts um einen festen Prozentsatz überschreitet (Verschlechterung der Güte), wird die Optimierung abgebrochen. Eine prozentuale Zunahme von etwa 1 % Toleranz wurde als Erfahrungswert für typische Größen der Trainingsmenge um die 300 oder mehr Datensätze festgestellt. Bei dieser Toleranz und bei etwa gleicher Größe von Trainings und Validierungsmengen wird das Training öfter durch die Erreichung eines Minimums auf der Trainingsmenge gestoppt als durch die Verschlechterung der Güte auf der Validierungsmenge. Dieser "normale" Abbruch ist bevorzugt, weil eine (fast) monotone Verbesserung der Güte auf der Validierungsmenge ein Zeichen darstellt, dass das neuronale Netz echte zugrunde liegenden Strukturen, und nicht einfach das Rauschen, erkannt hat.

Im Beispiel für die Ausführungsform wurde keine Validierungsmenge verwendet. Somit erfolgt der Abbruch allein aufgrund des Minimums auf der Trainingsmenge.

Strukturoptimierung und Komplexitätsreduktion

Aus der für die Ausführungsform beschriebenen Simplexoptimierung resultiert ein Satz von Gewichten {wpj, ... w_[n]} und anderen Parametern, welche ein lokales Minimum der negativen Log-Likelihood bestimmen. (Die Numerierung [1] ... [n] der Gewichte in diesem Zusammenhang beinhaltet nicht die topologische Ordnung der Gewichte.) Dieses Minimum bezieht sich auf die feste Zahl n der Gewichte und eine feste Topologie. Um Überanpassung zu vermeiden, ist es wünschenswert, durch eine Ausdünnung der Gewichte die Komplexität zu verringern, soweit dies ohne einen signifikanten Verlust der Güte möglich ist.

Ausdünnung (Pruning) bezeichnet die Deaktivierung von Konnektoren. Dazu werden deren Gewichte auf einen festen Wert "eingefroren" (in der Ausführungsform null, wobei man auch vom "Entfernen" sprechen kann). Es ist im Prinzip möglich, einzelne Gewichte oder auch ganze Knoten zu entfernen. Im letzteren Fall werden alle Gewichte deaktiviert, die entweder in den zu entfernenden Knoten einführen oder aus dem Knoten weiterführen.

In der Ausführungsform wird eine Phase der Komplexitätsreduktion im Netz im Anschluß an einer Optimierungsphase (Simplex-Verfahren) durchgeführt. Der erste Schritt dazu ist die „Ausdünnung" einzelner Konnektoren. Im Anschluß werden Kombinationen aus verschiedenen Konnektoren im Hinblick auf Redundanz getestet. Schließlich wird die Konsistenz der Topologie überprüft und gegebenenfalls Konnektoren bzw. Knoten entfernt, die aufgrund der bisherigen Entfernung anderer Konnektoren und Knoten nicht mehr zur Aussage beitragen können. Diese Prozedur ist zwar nicht Gegenstand der Erfindung, gehört jedoch zur guten Praxis gemäß dem Stand der Technik.

Zur Komplexitätsreduktion werden in der Ausführungsform automatisch verschiedene statistische Hypothesen gebildet, die mittels eines Likelihood-ratio-tests bezüglich eines vorgegebenen Signifikanzniveaus überprüft werden. Bestimmte Gewichte bzw. Parameter werden hierbei als obligatorisch betrachtet werden, d.h., sie werden auf keinen Fall entfernt. Dazu gehören die globalen Zeitparameter λ_0k.

Rangfolge der Konnektoren

Um die Reihenfolge der zu überprüfenden Konnektoren festzustellen, wird in der Ausführungsform zunächst die Testgröße log(Likelihood-Ratio) gebildet. Dabei stellt man sich für jedes Gewicht w_IA] zwei Netzwerke vor:

• Das Netz mit allen aktuellen Gewichten (n Freiheitsgrade), einschließlich w_[A].

• Das Netz mit allen aktuellen Gewichten außer w_[A], das deaktiviert wird (n-1 Freiheitsgrade).

Beim Netz mit w_[A] deaktiviert werden die übrigen Gewichte bei den aktuell optimierten Werten eingefroren.

Testing

Nachdem eine Rangfolge {w_m, ... w_Iπι} der Gewichte gemäß dem "Likelihood-ratio" bekannt ist, werden in der Ausführungsform die in dieser Reihenfolge zwecks der Ausdünnung getestet, bis maximal G_max Gewichte zu entfernen sind. Angenommen, A-1 Gewichte sind bereits entfernt worden, kann man für das A-te zusätzliche Gewicht der Reihenfolge w_[A] zwei Hypothesen testen.

• Teststatistik für die Hypothese H_A-ι : Likelihood-Ratio für das Netz mit Gewichten {w_m ... Wr_A-i_] } deaktiviert (n-A+1 Freiheitsgrade)

• Teststatistik für die Hypothesis H_A : Likelihood-Ratio für das Netz mit Gewichten {w_m ... w_[A] } deaktiviert (n-A Freiheitsgrade)

Die Hypothese H_A wird nun zweimal getestet: • H_A versus H_A-ι und

• H_A versus H.

Die Signifikanz wird mit dem Chi-Quadrat-Test bezüglich des Likelihood-Ratios angewandt. Falls bei einer der beiden Vergleiche H_A angenommen wird (Ausdünnung von A ergibt eine signifikante Verschlechterung), wird der Konnektor A nicht entfernt, und der Ausdünnungsschritt wird beendet.

Beim Deaktivieren wird der Konnektor aus der Liste der aktiven Konnektoren entfernt und das zugehörige Gewicht eingefroren (meinstens gleich null).

Während einer Ausdünnungsphase wird in der Ausführungsform die Zahl G der entfernten Konnektoren auf eine maximale Zahl begrenzt, wobei n die Anzahl der verbleibenden Konnektoren ist.

Weitere Komplexitätsreduktion

In der Ausführungsform werden durch paarweise Analyse der Gewichte im Hinblick auf die Likelihood der Daten und unter Berücksichtigung verschiedener Korrelationseigenschaften weitere Konnektoren entfernt. Dieser Schritt ist jedoch nicht zwingend erforderlich für die Funktion des lernfähigen Modells und kann daher weggelassen werden. Ebenso ist es möglich, die Erfindung mit anderen Techniken zur Komplexitätsreduktion, die in verschiedenen lernfähigen Systemen eventuell bereits implementiert sind, zu verbinden.

Überprüfung der Topologie

Ausdünnung oder Entfernung einzelner Konnektoren kann zur Isolierung eines Knotens von Eingangssignalen, Ausgangssignalen, oder (im Falle eines versteckten Neurons) von beiden führen. In diesem Fall wird in der Ausführungsform ein Deaktivierungsflag für den Knoten gesetzt. Für Neuronen der Ausgangsschicht bedeutet z.B. "Isolierung", dass weder von der Eingangsschicht, noch von der versteckten Schicht aktive Konnektoren vorhanden sind. Falls alle Konnektoren von einem Eingangsneuron zur versteckten und zur Ausgangsschicht entfernt worden sind, ist der Bias der linearen Konnektoren auch zu deaktivieren.

Ein verstecktes Neuron, das von allen Eingängen isoliert worden ist, kann noch mit Ausgängen verbunden ist. Die "eingefrorenen" Beiträge solcher versteckter Neuronen zum Ausgang sind dann redundant, weil sie im Prinzip nur die Biaswerte der übrigen, aktiven Konnektoren verändern. Daher werden solche Neuronen deaktiviert, und verbleibende Konnektoren zur Ausgangsschicht werden entfernt.

Die verschiedenen Überprüfungen können zur weiteren Isolierung von Knoten führen. Deshalb wird die Prozedur solange iteriert, bis die Topologie konstant bleibt.

Beenden des Trainings und Ausgabe

Wenn nach der letzten Simplex-Optimierung keine weiterere Komplexitätsreduktion möglich ist, wird in der Ausführungsform das Training beendet. Alle Gewichte und sonstige Parameter erhalten ihre endgültigen Werte, die in hierfür angelegten Dateien gespeichert werden.

Somit ist das trainierte neuronale Netz eindeutig bestimmt. Durch Einlesen dieser gespeicherten Werte kann entweder gleich anschließend oder zu einem zukünftigen Zeitpunkt das trainierte neuronale Netz gemäß der obigen Beschreibung verwendet werden, um für beliebige Daten, welche die unabhängigen Faktoren („Kovariaten") x enthalten, die Ausgabewerte und somit die oben definierten Funktionen f_k(t), λ_k (_), und S_k(f), zu den Kovariaten x zu gewinnen. Mit diesen Funktionen ist das Wahrscheinlichkeitsmodell nun bestimmt.

Insbesondere ist es selbstverständlich möglich, den Verlauf dieser Funktionen in Abhängigkeit von gewählten Faktoren, auszurechnen. Eine solche abhängige Bestimmung ist zur Evaluierung der erwarteten Wirkung eines Therapiekonzeptes sinnvoll, wenn die zu bewertenden Therapien als „Faktoren" zum Training verwendet worden sind.

Beispiel

Daten

Zur Veranschaulichung der Funktionsweise der Erfindung in der Ausführungsform wurden zunächst 1000 fiktive Patientendatensätze mit 9 Faktoren (Kovariaten) mittels eines Zufallsgenerators erzeugt. Die ersten 7 Faktoren wurden als Realisierungen einer multivariaten Gaußverteilung erzeugt. Hierfür wurden im Ausführungsbeispiel Mittelwerte und Varianzen der Faktoren und eine Kovarianzmatrix vorgegeben: Faktor x'yj?^{0 χer X}PJ ^xa _.Q^{e χ}tum xujpa xpai

Mittelwert ÖΪ50 Ö45 Ö.45 5.5Ö Ö.5Ϊ Ö.5Ö Ö.5Ö

Varianz 0.071 0.087 0.097 0.083 0.083 0.084 0.083

Die angenommene Kovarianzmatrix war

xlypo : xer ; xpr : xage : xtum ; xupa : xpai xlypo 1.00 -0.06 -0.09 0.03 0.42 0.02 0.05 xer -0.06 1.00 0.54 0.29 -0.07 -0.18 -0.19 xpr -0.09 0.54 1.00 0.03 -0.06 -0.07 -0.14 xage 0.03 0.29 0.03 1.00 0.04 0.02 0.00 xtum 0.42 -0.07 -0.06 0.04 1.00 0.03 0.06 xupa 0.02 -0.18 -0.07 0.02 0.03 1.00 0.54 xpai 0.05 -0.19 -0.14 0.00 0.06 0.54 1.00

Um eine möglichst realistische Situation darzustellen wurden diese Werte in der Größenordnung so gewählt, wie sie in der wissenschaftlichen Literatur im Falle des Mammakarzinoms für bestimmte Faktoren bekannt sind. Für die Funktion der Erfindung sind die genauen Annahmen sowie die Interpretation der Faktoren jedoch völlig unerheblich.

Neben den sieben benannten Faktoren wurden zwei weitere binäre Faktoren („Therapien") „et" und „ht" zufällig erzeugt. Für ht wurden zufällig 50 % der Wert 1 , 50 % der Wert 0 zugeordnet. Im Ausführungsbeispiel für et wurden nur 1 % der Wert 1 , 99 % der Wert 0 zugeordnet. Somit ist zu erwarten, daß et nicht im neuronalen Netz als Einflußfaktor erkannt wird.

Die ersten zehn der hieraus resultierenden Datensätze sind wie folgt:

Patienten- xlypo xer xpr xage xtum xupa xpai et ht Nummer

1 0.07 0.89 1.41 0.36 0.49 0.31 0.22 0 1

2 0.25 0.23 0.98 0.15 0.10 0.31 0.05 0 0

3 0.56 0.52 0.79 0.09 0.22 -0.22 -0.07 0 1

4 0.61 0.83 1.10 0.73 0.56 0.21 0.44 0 1

5 0.97 0.38 0.70 0.61 0.51 0.97 0.72 0 0

6 0.44 0.22 0.07 0.90 0.80 0.60 0.55 0 1

7 0.46 0.24 0.47 0.14 0.60 0.57 0.31 0 0

8 0.42 0.60 0.41 0.36 0.54 0.23 0.47 0 0

9 -0.01 0.22 0.80 0.52 0.38 -0.13 0.41 0 0

10 0.80 0.41 0.19 0.11 0.45 0.40 0.51 0 0

Für den Einfluß der Faktoren auf einen Krankheitsverlauf wurden zunächst drei unabhängige Risikowahrscheinlichkeiten risk(i), i=1,3 erzeugt. Folgendes Modell wurde unterstellt: risk(1)=exp(r₁+r₂+r₃+r₄-r_h) risk(2)=exp(rι+r₃+r₄) risk(3)=exp(r-ι) mit r-ι-2 (xlypo-median(xlypo)) r₂=0,5 (xtum-median(xtum)) r₃=0, 75 (xupa-median(xupa)) r₄=1,5 (xpai-median(paimed)) und r = 1 falls ht=1.

Aus diesen Risikowerten wurden tatsächliche Versagenszeiten der drei Ausprägungen als zufällige Realisierungen einer Exponentialverteilung bzw. einer modifizierten Exponentialverteilung mit Zeitkonstante 200 Monate erzeugt. Für die 3. Ausprägung wurde zusätzlich angenommen, daß ein Versagen nach spätestens 24 Monaten möglich ist, um eine Situation mit konkurrierenden Risiken ähnlich dem Lokalrezidiv beim Mammakarzinom zu erzeugen. Diese Daten wurden gemäß einer simulierten „Studie" zensiert, und eine „Beobachtung" wurde nach dem Schema der unter Abbildung 1 dargestellten Priorität simuliert.

Aus dem im Ausführungsbeispiel unterstellten Modell geht hervor, daß für das Versagen der 3. Ausprägung nur der Faktor „xlypo" kausal ausschlaggebend ist. Dennoch besteht ein indirekter Zusammenhang zwischen den übrigen Faktoren und den Beobachtungen der 3. Ausprägung, weil erhöhte Risiken der übrigen Faktoren die Wahrscheinlichkeit für eine Beobachtung des Versagens der 3. Ausprägung senken können. Diese Eigenschaft des unterstellten Modells ist zwar unerheblich für die Funktion der Erfindung, veranschaulicht aber einen typischen Nutzen.

Trainiertes neuronales Netz

Die Neuronen der Ausgangsschicht werden gemäß den Gleichungen 4 bis 7 und 10 mit Nti_me = 1 und N_key = 3 zugeordnet, so daß 3 Neuronen der Ausgangsschicht ursprünglich aktiv sind. Für die Ausführungsform werden jeweils 9 Neuronen der Eingangs- bzw. der versteckten Schicht ursprünglich aktiviert. Das nach der beschriebenen Methode trainierte neuronale Netz wird in der Figur 3 veranschaulicht („xpai" und „xpail" sind identisch). Man beachte, dass zum Ausgang „O3" nur ein Konnektor vorhanden ist, und zwar vom Knoten (Neuron) „xlypo". Die Ausgänge 01 bis 03 sind den Risiken ,,risk(1)" bis ,,risk(3)" zugeordnet.

Eine vollständige eindeutige Darstellung des trainierten neuronalen Netzes erfolgt durch Angabe der verbleibenden Konnektoren mit ihren zugehörigen Gewichten und Bias-Werten sowie durch die Überlebenszeitskalen. Hierfür werden in der Tabelle 2a für jedes Neuron, zu dem ein aktiver Konnektor führt („tgt"), alle Quellen („src") mit den entsprechenden Gewichten („wt") angegeben. Man beachte, daß viele Konnektoren nicht mehr aktiv sind.

tgt src wt src wt src wt src wt src wt src wt src wt src wt src wt h1 ht 13.5 h6 xlypo 0.53 xupa -1.78 xtum 1.02 h7 xer 1.98 xpr -1.37 h8 xage 1.70 h9 xpr 2.31 o1 h1 -1.70 h6 0.30 ht -1.10 xlypo 0.19 xpai 0.72 xupa 0.63 xtum 0.22 o2 h1 2.03 h6 -0.68 h7 -0.86 h8 0.33 h9 -0.64 xlypo 0.64 xpail 0.91 xer 0.56 xage -0.42 o3 xlypo 2.39

Tabelle 2a

Die Bias-Werte sind wie in der Tabelle 2b angegeben:

ht xlypo xpai xupa xtum et xer xage xpr h1 h2 h3 h4 h5 h6 h7 h8 h9 o1 o2 o3 0.17 0.16 Ö Ö (5 Ö Ö Ö 0 -0.94 Ö Ö Ö 0 0.86 1.31 0 2.07 1.03 0.66 -0.11

Tabelle 2b: Bias Werte (automatisch 0 für inaktive Neuronen)

Die Werte der für die Spezifikation des Modells der Gleichung 6 notwendigen Überlebenszeitskalen λ₀k sind schließlich der Tabelle 2c zu entnehmen (die Einheiten dieser Angaben entsprechen sinnvollerweise der obigen Zeitkonstante von 200 Monaten):

λ_1 ^02 Λ03

0.53/200 0.13/200 0.27/200

Tabelle 2c

Zeitliche Variation

Um zeitlich variierende Ausgangsneuronen zu verwenden, könnte statt N_ti_me = 1 wie hier verwendet ein höherer Wert eingesetzt werden. Die Anzahl der Ausgangsneuronen bestimmt sich dann aus der Gleichung 10.d. Im Falle N_key = 3 und _time = 2 wäre dann z.B. N₀ = 6. Das Training würde auf die bisher beschriebene Weise erfolgen. Die eventuellen zeitlichen Variationen der verschiedenen Ausprägungen könnten im Rahmen des Modells der Gleichungen 4 bis 7 unabhängig von einander bestimmt werden, die Aufgabe der Erfassung konkurrierender Risiken würde hierdurch insbesondere keinesfalls beeinträchtigt werden.

Claims

Patentansprüche

1. Verfahren zur Ermittlung konkurrierender Risiken für Objekte nach einem Anfangsereignis auf Grundlage bereits gemessener oder sonst objektivierbarer Trainingsdatensätze, in welchem mehrere aus einem lernfähigen System gewonnene Signale in einer objektiven Funktion so kombiniert werden, dass das lernfähige System die zugrunde liegenden Wahrscheinlichkeiten der jeweiligen konkurrierenden Risiken erkennen oder vorhersagen kann.

2. Verfahren nach Anspruch 1 , in welchem für die Trainingsdatensätze gemessene oder in sonstiger Weise objektiv erfaßte Daten des Anfangsereignisses und einer Nachbeobachtung bis zu einem vorgegebenen Zeitpunkt verwendet werden.

3. Verfahren nach Anspruch 2, in welchem der letzte Zeitpunkt der Nachbeobachtung explizit in den Trainingsdatensätzen verwendet wird.

4. Verfahren nach einem der vorangegangenen Ansprüche, in welchem bei der Beobachtung einer Versagensausprägung zu einem Zeitpunkt die anderen Ausprägungen ausgeschlossen werden.

5. Verfahren nach einem der vorangegangenen Ansprüche, in welchem die objektive Funktion L in Abhängigkeit einer Funktion P gegeben ist:

wobei μ die Parameter des lernfähigen Systems, f_{LS(k x} (t_y ) die Versagensrate der Ausprägung k und S_{ω(fc x }} (t. ) den Erwartungswert des Anteils an Objekten j mit beobachteten Merkmalen x_;-, welche kein Versagen der Ausprägung k zum Zeitpunkt t_j erleiden, bezeichnen und P aufgrund des logischen Zusammenhangs aus δ_jk bestimmt wird, mit δ_jk =1, wenn ein Objekt; ein Versagen der Ausprägung k zum Zeitpunkt ty erlitten hat und sonst δ_jk = 0.

6. Verfahren nach Anspruch 5, in welchem als objektive Funktion verwendet wird, wobei ε_Jk und ψ_jk aufgrund des logischen Zusammenhangs aus δ_jk bestimmt werden.

7. Verfahren nach Anspruch 6, in welchem

Uμ;{τ_J,t_J,δ_Jt}) it_j)} ^}Jk als objektive Funktion verwendet wird.

8. Verfahren nach einem der vorangegangenen Ansprüche, in welchem ein neuronales Netz als lernfähiges System verwendet wird.

9. Verfahren nach Anspruch 8, in welchem ein neuronales Netz der Architektur MLP (multilayer Perzeptron) verwendet wird.

10. Verfahren nach einem der Ansprüche 1 - 7, in welchem das lernfähige System eine rekursive Partitionierung durchführt, wobei

jedem Objekt einem Knoten zugeordnet wird,

11. Verfahren nach einem der vorangegangenen Ansprüche, in welchem das lernfähige System im Rahmen einer Entscheidungshilfe verwendet wird.

12. Verfahren nach einem der vorangegangenen Ansprüche, in welchem den verschiedenen Wahrscheinlichkeitsfunktionen der konkurrierenden Risiken Werte zur Ermittlung einer Strategie zugeordnet werden.