EP1384199A2 - Verfahren zur ermittlung konkurrierender risiken - Google Patents

Verfahren zur ermittlung konkurrierender risiken

Info

Publication number
EP1384199A2
EP1384199A2 EP01999919A EP01999919A EP1384199A2 EP 1384199 A2 EP1384199 A2 EP 1384199A2 EP 01999919 A EP01999919 A EP 01999919A EP 01999919 A EP01999919 A EP 01999919A EP 1384199 A2 EP1384199 A2 EP 1384199A2
Authority
EP
European Patent Office
Prior art keywords
time
learning
function
objective function
neurons
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP01999919A
Other languages
English (en)
French (fr)
Inventor
Ronald E. Kates
Nadia Harbeck
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of EP1384199A2 publication Critical patent/EP1384199A2/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Abstract

Die Erfindung betrifft ein Verfahren zur Ermittlung konkurrierender Risiken für Objekte nach einem Anfangsereignis auf Grundlage bereits gemessener oder sonst objektivierbarer Trainingsdatensätze, in welchem mehrere aus einem lernfähigen System gewonnene Signale in einer objektiven Funktion so kombiniert werden, dass das lernfähige System die zugrunde liegenden Wahrscheinlichkeiten der jeweiligen konkurrierenden Risiken erkennen oder vorhersagen kann.

Description

Verfahren zur Ermittlung konkurrierender Risiken
Gebiet der Erfindung
Die Erfindung betrifft ein Verfahren zur Ermittlung konkurrierender Risiken nach einem Anfangsereignis mit Hilfe lernfähiger Systeme auf Grundlage bereits gemessener oder sonst objektivierbarer Daten (Trainingsdaten).
Stand der Technik
Lernfähige Systeme wie neuronale Netze werden zunehmend zur Risikoabschätzung eingesetzt, weil sie in der Lage sind, komplexe, nicht von vornherein bekannte Zusammenhänge zwischen erhobenen Faktoren und Ausgängen zu erkennen und darzustellen. Durch diese Fähigkeit können sie zuverlässigere bzw. genauere Abschätzungen von Risikowahrscheinlichkeiten liefern als herkömmliche Verfahren, welche von einer speziellen Gestalt des Zusammenhangs wie etwa einer linearen Abhängigkeit, ausgehen müssen.
Im Bereich medizinischer Anwendungen, beispielsweise bei der Behandlung einer Krebserkrankung, ist es bekannt, lernfähige Systeme wie neuronale Netze oder rekursive Partitionierung (wie die bekannte Methode CART, „Classification and Regression Trees", siehe dazu z. B: L. Breiman et al., „Classification and Regression Trees", Chapman and Hall, New York (1984)) zur Bestimmung der Risikowahrscheinlichkeit eines Ereignisses auch bei zensierten Daten einzusetzen. (Von einem zensierten Datensatz spricht man, wenn bis zum letzten Beobachtungszeitpunkt das Ereignis noch nicht unbedingt eingetroffen ist.) Als Beispiel für die Anwendung lernfähiger Systeme bei einer Krebserkrankung dient die Bestimmung der Risikowahrscheinlichkeit (etwa für eine erneute Erkrankung (Rezidiv)) im Anschluß an der Primärbehandlung zur Unterstützung der Therapieentscheidung.
Die Faktoren der Datensätze umfassen eine Reihe von objektivierbaren Kenngrößen, auf deren Werte eine das lernfähige System bedienende Person keinen Einfluß hat. Im Falle eines primären Mammakarzinoms beinhalten diese Kenngrößen zum Beispiel Alter zum Zeitpunkt der Operation, Anzahl der befallenen Lymphknoten, Laborwert des Faktors uPA, Laborwert des Faktors PAI-1, Kennwert für die Tumorgröße, Laborwert des Estrogenrezeptors, Laborwert des Progesteronrezeptors.
Die Art der tatsächlich verwendeten Therapie kann als Angabe erfaßt werden, so dass auch der Zusammenhang zwischen Therapie und Ausgang erkannt wird.
Die Werte werden auf einem geeigneten Speichermedium zwischengespeichert und dem lernfähigen System zugeführt. Die einzelnen Angaben sind in der Regel allerdings zum einen mit einer Unscharfe, analog einem Signalrauschen, behaftet. Aus diesen verrauschten Einzelsignalen ist es Aufgabe des lernfähigen Systems, veredelte Signale zu bilden, die im Rahmen einer geeigneten Wahrscheinlichkeitsdarstellung zu einer Risikoabschätzung führen können.
Die Lernfähigkeit eines neuronalen Netzes auch für nichtlineare Zusammenhänge ist eine Konsequenz der Architektur und der Funktionsweise. Ein sog. „Multilayer Perzeptron" (in der Fachliteratur immer als „MLP" abgekürzt) enthält etwa eine Eingangsschicht, eine versteckte Schicht, und eine Ausgangsschicht. Die im neuronalen Netz vorhandenen „versteckten Knoten" erfüllen die Aufgabe, ein Signal für die Wahrscheinlichkeit komplexer interner Prozesse zu erzeugen. Sie können somit über die zugrunde liegenden, aber nicht von vornherein direkt abtastbaren, biologischen Prozesse, welche für den Verlauf einer Erkrankung letztendlich ausschlaggebend sein werden, Aufschluß geben.
Interne biologische Prozesse können parallel zu einander mit unterschiedlichen Raten stattfinden und auch miteinander in Wechselwirkung treten. Lernfähige Systeme können auch solche internen, nicht direkt beobachtbaren Prozesse erkennen und darstellen, wobei sich die Güte dieser Erkennung nachträglich und indirekt durch die Güte der Vorhersage der tatsächlich beobachteten Ereignisse bemerkbar macht. Durch rekursive Partitionierung (etwa CART) entstehen Zuordnungen, die in ihrer Fähigkeit zur Darstellung komplexer interner Zusammenhänge analog zu den Fähigkeiten der neuronalen Netze sind.
Der Verlauf einer Erkrankung kann zu unterschiedlichen kritischen Ereignissen führen, deren Vorbeugung eventuell unterschiedliche Therapieansätze erfordert. Im Falle des ersten Rezidivs bei Brustkrebs ist eine eindeutige Klassifikation der Befunde etwa in die gegenseitig exklusiven Ausprägungen
1. „Fernmetastasen in Knochengewebe",
2. „Fernmetastasen, jedoch kein Befund im Knochengewebe"
3. „Loko-regionales" Rezidiv
möglich.
Da aber der weitere Verlauf der Erkrankung nach einem dieser Befunde auch im Hinblick auf die Wahrscheinlichkeiten der übrigen Ausprägungen der Rezidivs beeinflußt werden kann, ist es im Rahmen der statistischen Behandlung solcher Daten oft sinnvoll, nur das Erstrezidiv zu untersuchen. Beispielsweise für eine Brustkrebspatientin, die 24 Monate nach der Primäroperation ein Lokalrezidiv erleidet und nach 48 Monaten den Befund „Knochenmetastase" hat, ist im Hinblick auf „Erstrezidiv" nur Kategorie 3 relevant. Die Nachbeobachtung Knochenmetastase wird im diesem Rahmen nicht verwendet, d.h., die Patientin ist im Hinblick auf den Befund 1 als „zensiert" zu betrachten, sobald ein anderer Befund (hier Lokalrezidiv) festgestellt worden ist.
Konkurrierende Risiken können auch dadurch entstehen, dass ein Patient etwa an einer völlig anderen Erkrankung oder an einer Nebenwirkung der Behandlung verstirbt, so dass das Risiko der den Arzt interessierenden Ausprägung verborgen bleibt.
Es ist für Experten zwar relativ offensichtlich, dass eine ausschließliche Klassifikation mit Zensierungsvorschrift die Trainingsdaten in eine Gestalt so abbilden kann, dass für jeden möglichen Ausgang je ein neuronales Netz oder je ein Klassifkationsbaum durch rekursive Partitionierung nach Stand der Technik trainiert werden kann. Im Beispiel mit den Ausgängen 1 bis 3 müßte man hierfür drei vollkommen unabhängige neuronale Netze bzw. drei verschiedene Entscheidungsbäume trainieren.
Ein Problem bei dieser Nutzung des Standes der Technik besteht darin, dass die Erkennung einer möglichen Aussagekraft interner Knoten hinsichtlich eines der Erkrankungsausgänge für die Erkennung dessen Aussagekraft hinsichtlich der übrigen Erkrankungsausgänge verlorengeht. In Wirklichkeit aber könnte ein interner biologischer Prozess, der durch interne Knoten in einem neuronalen Netz erkannt worden ist, Beiträge zu mehreren beobachtbaren Ausgängen liefern, wenn auch mit unterschiedlicher Gewichtung. Beispielsweise ist die biologische „Invasionsfähigkeit" eines Tumors von unterschiedlicher, jedoch signifikanter Bedeutung für Fernmetastasen bzw. für lokale Rezidive. Die unabhängig trainierten Netze müssen die Aussagekraft eines durch den Knoten dargestellten internen Zusammenhang eigenständig „entdecken".
Es versteht sich, dass die Anzahl der tatsächlichen Ereignisse, die einem lernfähigen System zur Verfügung stehen, analog zur Mächtigkeit eines statistischen Systems, die Erkennungsgüte mitbestimmen. In medizinischen Anwendungen ist diese Anzahl meist begrenzt. Infolgedessen ist die Wahrscheinlichkeit, dass sich interne Prozesse knapp hinsichtlich eines der Ausgänge bemerkbar machen, jedoch nicht hinsichtlich der übrigen Faktoren, relativ groß. In diesem Fall geht die potentielle Aussagekraft zur Unterscheidung der Faktoren, sowie das biologische Erklärungspotential der internen Knoten auch im Hinblick auf die weiteren Ausgänge, verloren.
Da Therapien auch Nebenwirkungen haben, ist etwa eine Verringerung des Risikos einer Ausprägung einer Erkrankung auf Kosten einer Erhöhung eines anderen Risikos typisch für den medizinischen Entscheidungskontext. Hierfür ist die Notwendigkeit beim gegenwärtigen Stand der Technik, hinsichtlich jedes einzelnen Risikos ein völlig neues neuronale Netz trainieren zu müssen, unbefriedigend.
Faktoren, deren Wirkung auf die Wahrscheinlichkeit der Ausgänge zeitlich variabel sind, können nach Stand der Technik durch verschiedene Knoten in der Ausgangsschicht dargestellt werden, denen verschiedene Zeitabhängigkeiten (etwa durch die bekannte Technik der „fraktionalen Polynomen") zugeordnet werden. Eine zeitlich variable Aussage zur Ereignisdichte ist beim Stand der Technik zwar möglich, jedoch ist das Problem der konkurrierenden Risiken nicht so formulierbar, dass die Bestimmung einer zeitlich variablen Aussage nicht beeinträchtigt wird.
Angesichts der Nachteile des Standes der Technik liegt der Erfindung die Aufgabe zugrunde, ein Verfahren bereitzustellen, mit dem konkurrierenden Risiken in ihrem logischen bzw. ursächlichen Zusammenhang erfaßt, identifiziert und dargestellt werden können, insbesondere so, dass die Bestimmung einer zeitlich variablen Aussage nicht beeinträchtigt wird.
Beschreibung der Erfindung
Diese Aufgabe wird durch das Verfahren gemäß Patentanspruch 1 gelöst.
Durch das erfindungsgemäße Verfahren können den konkurrierenden Risiken durch das lernfähige System geeignete Kennwerte zugeordnet werden. Diese Kennwerte sollen die Berechnung der bedingten Wahrscheinlichkeit pro Zeiteinheit für das Eintreten des jeweiligen Ereignisses (unter der Voraussetzung, dass bisher keines der möglichen Endereignisse eingetreten ist) ermöglichen. „Geeignete" Kennwerte im Sinne der Erfindung können die Eigenschaft haben, dass ein Maximum der statistischen „Likelihood" betreffend aller Ausgänge angestrebt wird.
Es versteht sich, dass dieses Verfahren in verschiedensten Bereichen, wie z. B. den Ingenieurs- und Wirtschaftswissenschaften, der Biologie oder Medizin, verwendet werden kann. Im Bereich der Medizin kann es sich dann bei den Objekten um Patienten handeln, die nach einer ersten Erkrankung, dem Ausgangsereignis, konkurrierenden Risiken unterliegen, eine erneute Erkrankung zu erleiden.
Vorteilhafterweise werden für das Verfahren für die Trainingsdatensätze gemessene oder in sonstiger Weise objektiv erfaßte Daten des Anfangsereignisses und einer Nachbeobachtung bis zu einem vorgegebenen Zeitpunkt verwendet.
Dabei ist es von Vorteil, wenn der letzte Zeitpunkt der Nachbeobachtung explizit in den Trainingsdatensätzen verwendet wird. Somit kann durch das erfindungsgemäße Verfahren auch die Nutzung anderer Kennwerte im Rahmen eines trainierten lernfähigen Systems ermöglicht werden, solange sich diese Kennwerte analog zur statistischen Likelihood aus den Nachbeobachtungen bilden lassen.
In einer vorteilhaften Ausführung werden bei der Beobachtung einer Versagensausprägungen zu einem Zeitpunkt die anderen Ausprägungen ausgeschlossen. Auf diese Weise kann eine Ausprägung eines Versagens bevorzugt berücksichtigt werden.
Vorteilhafterweise ist die objektive Funktion L in Abhängigkeit einer Funktion P gegeben:
Hier sind mit μ die Parameter des lernfähigen Systems gemeint. („LS" steht für „lernfähiges System".) fLS ktX )( .) bezeichnet die Versagensrate der Ausprägung k und SLS{k x )(t.) den
Erwartungswert des Anteils an Objekten j mit beobachteten Merkmalen x,-, welche kein Versagen der Ausprägung k zum Zeitpunkt tj erleiden. P wird aufgrund des logischen Zusammenhangs aus δjk bestimmt, wobei δjk =1, wenn ein Objekt j ein Versagen der Ausprägung /. zum Zeitpunkt _> erlitten hat und sonst δjk = 0.
Vorteilhafterweise wird
L(μ-{x tjß}) = l[ fl[f k,Xj)( _ _,>('y)h
7=1 k=\ als objektive Funktion verwendet, wobei εjk und ψj aufgrund des logischen Zusammenhangs aus δJk bestimmt werden.
Es ist von Vorteil, wenn
als objektive Funktion verwendet wird.
In einer bevorzugten Alternative wird ein neuronales Netz als lernfähiges System verwendet. In diesem Fall kann obige objektive Funktion L in Abhängigkeit von P die Form haben
Von besonderem Vorteil ist es, wenn ein neuronale Netz der Architektur MLP (multilayer Perzeptron) verwendet wird.
In einer anderen bevorzugten Alternative führt das lernfähige System eine rekursive Partitionierung durch, wobei
jedem Objekt einem Knoten zugeordnet wird,
jedem Knoten die Häufigkeiten oder Wahrscheinlichkeiten aller Ausprägungen zugeordnet wird, und
die Partionierung so durchgeführt wird, dass die objektive Funktion optimiert wird, die diese Häufigkeiten oder Wahrscheinlichkeiten statistisch berücksichtigt.
Vorzugsweise wird das lernfähige System im Rahmen einer Entscheidungshilfe verwendet.
Es ist von Vorteil, wenn den verschiedenen Wahrscheinlichkeitsfunktionen der konkurrierenden Risiken Werte zur Ermittelung einer Strategie zugeordnet werden. Damit kann beispielsweise bei einer medizinischen Anwendung der vorliegenden Erfindung eine Therapiestrategie ermittelt werden.
Im folgenden wird das erfindungsgemäße Verfahren zur Ermittlung konkurrierender Risiken unter Bezugnahme auf die Zeichnung weiter beschrieben. In der Zeichnung zeigen:
Figur 1 eine Darstellung eines neuronalen Netzes in einer Implementierung als MLP,
Figur 2 ein Venn-Diagramm konkurrierender Risiken, und
Figur 3 eine Illustration eines trainierten neuronalen Netzes mit drei konkurrierenden Risiken.
Die nachfolgend beschriebenen Ausführungsformen beziehen sich auf medizinische Answendungen, was aber nicht als Einschränkung zu verstehen ist. Die folgende Beschreibung bedient sich der Terminologie der neuronalen Netze der Architektur MLP. Die Anwendung auf andere Architekturen der neuronalen Netze sowie für Regressionsbäume ist aber analog und für Experten unmittelbar ohne weitere Beschreibung nachzuvollziehen.
Insbesondere wird erfindungsgemäß eine zusätzliche Dimension der Ausgangsschicht des lernfähigen Systems eingeführt, wobei
• die zusätzliche Dimension der Ausgangsschicht mindestens zwei Knoten umfaßt
• die Knoten dieser zusätzlichen Dimension den verschiedenen Ausgangsereignissen entsprechen
• jeder Ausgangsknoten einem Signal zugeordnet wird,
• die einzelnen Signale jeweils einer Risikofunktion bezüglich der möglichen Ereignisse zugeordnet werden.
• die Signale der Ausgangsfunktionen zu einem Gesamtsignal kombiniert werden
• das lernfähige System trainiert wird, indem die Werte der Gesamtsignale für alle Datensätze als Objektivfunktion für das System herangezogen werden
Ein auf diese Weise trainiertes System unterstützt den behandelnden Arzt und den Patienten beispielsweise bei der Entscheidung für einen aus mehreren unterschiedlichen Therapieansätzen, indem es feststellt, gegen welche der möglichen Ausprägungen der Rezidivgefahr die Therapie gerichtet werden soll.
Problemdarstellung und Überblick
Das Ziel der individualisierten Patientenprognose mit konkurrierenden Risiken läßt sich mathematisch so auffassen, dass mehrere Funktionen fι(x) f2(x) f3(x), ... mit dem lernfähigen System, hier mit einem neuronalen Netz NNι(x), NN2(x), .... zu approximieren sind. Genauer gesagt, das neuronale Netz schätzt den Erwartungswert E(yk|x) der stochastischen Variablen yk bei beobachteten Merkmalen x:
NNk(x) fk(x) = E(yk \ x) . Schematisch läßt sich das neuronale Netz zunächst bei der aktuellen Implementierung als MLP im Ausführungsbeispiel wie in Figur 1 darstellen.
Alle Quadrate stellen hier Neuronen dar. Die oben im Bild dargestellten Neuronen liefern entweder
• rohe Patientenmerkmale (Beim primären Brustkrebs beispielsweise uPA, PAI-1, Zahl der befallene Lymphknoten, usw.) oder
• aus diesen Merkmalen bereits aufbereitete Größen (z.B. Werte bereinigt um Mittelwert oder Mediän und normiert durch Standardabweichung der Werteverteilung) oder
• durch Vorkenntnisse oder andere statistische Methoden abgeleitete Größen. Diese Neuronen bilden zusammen die Eingangsschicht.
Die mittleren Neuronen bilden die interne Schicht. Es können auch mehrere interne Schichten vorgesehen sein. Jedes interne Neuron verarbeitet die Signale von den Eingangsneuronen und gibt ein Signal weiter. Die mathematische Beziehung zwischen den "Inputs" zu den internen Neuronen und ihren "Outputs" wird durch das Einpendeln von synaptischen Gewichten gesteuert.
Die unteren Neuronen liefern Schätzungen für die erwünschten Kenngrößen (z.B. Erwartungswert des Überlebens) und bilden die Ausgangsschicht.
Um dem Netz den unterstellten Zusammenhang fι(x) f2(x) f3(x), ... beizubringen, stehen m Patientinnen zur Verfügung. Jedem Patienten ist ein Datenmuster (x,y) zugeordnet, wobei für konkurrierende Risiken die Ausgangsvariablen y als „Vektoren" (y=[yι,y2,y3, ...]) zu verstehen sind. Das Netz muß also anhand der Menge der Datenmuster {(x1,y1),...,(xm,ym)} die zugrundeliegende Dynamik lernen. Der Index als Superskript bezieht sich auf den Patienten. Beim Lernen findet nun eine Anpassung der synaptischen Gewichte statt.
Die in der Ausführungsform verwendete Architektur besteht in einem klassischen mehrschichtigen Feedforward-Netz. Neuronen sind wie oben beschrieben in Schichten organisiert. Konnektoren bestehen in der Ausführungsform wie folgt
• Eingangsschicht -> versteckte Schicht
• Eingangsschicht - Ausgangsschicht
• Versteckte Schicht -- Ausgangsschicht Die Verwendung von Konnektoren Eingangsschicht -> Ausgangsschicht ist zweckmäßig aber nicht zwingend zur Funktion der Erfindung, weil sie nicht unbedingt zur Darstellung einer Abbildung NN(x) notwendig sind.
Funktion neuronaler Netze
Neuronen als Funktionen
Jedes Neuron empfängt ein Stimulationssignal S, verarbeitet dieses gemäß einer vorbestimmten Aktivierungsfunktion F(S) und gibt ein entsprechendes Antwortsignal A = F(S) aus, das allen nachfolgenden Neuronen zugeführt wird, welche noch mit ihm verbunden sind. In der Ausführungsform ist die Aktivierungsfunktion der versteckten Schicht der Tangens Hyperbolicus. Die Erfindung kann ebenso bei Verwendung anderer Aktivierungsfunktionen wie etwa der logistischen Funktion eingesetzt werden.
Transformationen und Eingangsneuronen
Die Faktoren werden anfänglich univariat so transformiert, dass sie in einem Intervall der Größenordnung 1 liegen.
D.h., zuerst wird der Mediän XMedian subtrahiert und eine Skalierung der Werte mit einem Faktor xQ vorgenommen: Werte über dem Mediän werden mit dem 75 %-Quantil skaliert, Werte unter dem Mediän mit dem 25 %-Quantil. Darauf wird noch die Funktion tanh angewandt.
Die Eingangsneuronen haben eine statische Funktion und werden deshalb als Felder implementiert, welche die so transformierten Werte weiterreichen. Konzeptuell kann man die tanh-Funktion der Gleichung (1a) als Aktivierungsfunktion der Eingabeschicht ansehen.
Versteckte Neuronen
Gesucht ist der Ausgang des versteckten Knotens h für Patientin j. Zuerst wird überprüft, ob der versteckte Knoten h noch aktiv ist. Falls aktiv, werden die Eingangssignale mit den zugehörigen Gewichten multipliziert um die Summe wh -x, zu bilden. Genauer gesagt ist das Signal zum versteckten Knoten h bei Muster j eine gewichtete Summe der Eingänge der Gestalt zh(J) = ∑i wihχiU) ,
wobei wih das Gewicht des Konnektors vom Eingangneuron i zum versteckten Neuron h, und Xi (j) die (skalierte) Antwort des i-ten Eingangsneurons darstellt. Die Antwort des versteckten Neurons h ist
rh(j) = Fh(zh(j)-bh) . (2.a)
Hierbei ist bh das Bias des versteckten Neurons h, das rechentechnisch wie jedes andere Gewicht des Netzwerks optimiert wird. Im Ausführungsbeispiel ist die nichtlineare Aktivierungsfunktion Fh der Tangens hyperbolicus.
Ausgangsknoten
Gesucht ist der Ausgang des Ausgangsknotens o für Patientin j. Zuerst wird überprüft, ob der Ausgangsknoten o noch aktiv ist. Konnektoren sowohl von der versteckten Schicht wie auch von der Eingangsschicht sind möglich. Für jeden noch aktiven Konnektor werden die zugehörigen Eingangssignale mit den entsprechenden Gewichten multipliziert.
Das Signal zQ wird zunächst gebildet: Das Bias des Neurons b0 wird abgezogen, und auf dieses Resultat wird die Aktivierungsfunktion des Ausgangsneurones o angewandt. Der Ausgang O00) wird somit zu
00(j) = F0(z0(j)-b0)
Die Aktivierungsfunktion der Ausgangsschicht wird im Ausführungsbeispiel als die Identitätsfunktion gewählt.
Im Ausführungsbeispiel wird das Gesamtbias im Gegensatz zur versteckten Schicht nicht frei optimiert, sondern wird so gewählt, dass das Mediansignal aller Ausgangsneuronen gleich null ist. Dies ist möglich ohne Einschränkung der Allgemeinheit des Modells. Somit verringert sich die Anzahl der zu optimierenden Parameter um die Anzahl der Biasparameter.
Überlebensanalyse bei konkurrierenden, zeitvariablen Risiken im Rahmen lernfähiger Modelle
Bezug zum Lernfähigen System
Vorgegeben sei ein Patientenkollektiv mit vorhandenen Kovariaten (prognostischen Faktoren) Xj, die zu einem Anfangszeitpunkt t=0 (etwa zum Zeitpunkt der Primäroperation) gemessen wurden, sowie Endpunkten tj. Bei bekanntem Versagen der Ausprägung k des j-ten Patienten zum Zeitpunkt tj wird δjk = 1 (k=1,2,3,...) definiert, falls zensiert (weiterer Verlauf nach t=tj unbekannt) wird δjk=0 definiert.
Sei Sk(f) der Erwartungswert des Anteils der Patienten zu einem Zeitpunkt t, welche kein Versagen der Ausprägung k erleiden, wobei Sk(∞) = 0 und Sk(0) = 1. Es ist zweckmäßig, jeweils eine Versagensrate fk(f) und eine „Hazardfunktion" λk(f) gemäß
4(0 Λ( (3.a)
3.(0 zu definieren, so dass λk(t) = --[\ogSk(t)] (3.b)
gilt.
Die Interpretation dieser einzelnen Versagensraten ist wie folgt: Wäre es möglich, die übrigen Ausprägungen ohne Einfluß auf die Ausprägung k zu vermeiden, so würde fk(ή die beobachtete Versagensrate approximieren. In Wirklichkeit wird fk(f) zwar nicht direkt beobachtet. Für die Nutzung der Erfindung im Rahmen einer Entscheidungshilfe ist jedoch die Erfassung aller Ausprägungen fk(f) notwendig, damit die Wirksamkeit einer Verringerung einer Ausprägung im Hinblick auf das Gesamtwohl des Patienten berücksichtigt werden kann.
Bei bekanntem Verlauf der Hazardfunktionen λk (t) erhält man die Sk(ή durch Integration der Gl. (3.b) mit der Anfangsbedingung Sk(0) =1.
Vom neuronalen Netz erhalten wir zu einem Zeitpunkt r nach der Primäroperation für eine Patientin mit Kovariaten x eine "Hazardfunktion" λk (t\x), die nun von Kovariaten x abhängt. Als Modell für die Hazardfunktion bei vorgegebenen Kovariaten x setzen wir λk(t \ x) = λkQ(t)hk(t \ x) (4.)
mit
Die Funktionen Bt(t) werden dem Problem angepaßt gewählt. Möglich sind hier beipielsweise Spline-Funktionen. In dem Ausführungsbeispiel werden für Bt(t) fraktionelle Polynome bevorzugt, d.h. B, (t) = t(W) 2.
Somit erhält man
λok exp ∑NNu x)Bt(t) = - logfe(t)) . (6.)
Hierbei wird in der zweiten Gleichung λ0 als eine Konstante betrachtet. Die Zeitabhängigkeit steckt in den Koeffizienten B . Dieses Modell ist ein Proportional-hazards-Modell, falls Bi = 1 und alle anderen B| verschwinden. Abweichungen von „Proportional-hazards" können durch Berücksichtigung von Termen Bι mit l>1 modelliert werden.
In einer breiten Klasse von Anwendungen wird eine Objektivfunktion der Gestalt
L(μΛxJ,tJjk}) (7-) optimiert, wobei die Schreibweise zum Ausdruck bringt, dass P (zunächst auf eine noch nicht näher spezifizierte Art und Weise) von den jeweiligen Überlebens- bzw. Versagenswahrscheinlichkeiten abhängen darf. Diese Abhängigkeit ist problembedingt und geht aus einem logischen Modell für das Auftreten der verschiedenen Ausprägungen hervor. Eine bevorzugte Klasse von Objektivfunktionen der Gestalt (7.) lassen sich als statistische Likelihoodfunktionen verstehen, wobei für die Ausführungsform
[ *_)('/ l jt (8.) gewählt wird. Die beiden Argumente fNN(k,x) und SNNΓJCX) sind eindeutig bestimmt unter der Voraussetzung, dass das neuronalen Netz oder das sonstige lernfähige Modell die entsprechenden Werte für die Ausgangsknoten liefert. Dies ist in der Ausführungsform stets der Fall.
Hierbei sind εjk und ψjk aufgrund des logischen Zusammenhangs aus δj zu bestimmen, wobei δjk =1, wenn der Patient j ein Versagen der Ausprägung k zum Zeitpunkt tj erlitten hat und sonst δjk = 0. Zensierte Datensätze entsprechen Patienten, die gar kein Versagen erlitten haben, so dass δjk = 0 für alle k=1,2,3,.... Die funktionale Abhängigkeit vom Modell wird symbolisch durch veränderliche Parameter μ gekennzeichnet. Ein Beispiel zur Bestimmung von εjk und ψjk wird in der Folge angegeben.
Die mit μ bezeichneten Parameter sind in der Ausführungsform die Überlebenszeitskalen λok und die Gewichte des neuronalen Netzwerkes. Der Index j bezeichnet den Patientendatensatz.
In der Ausführungsform wird das Zeitintegral zur Lösung der Gleichung 6 durch die Standardmethode „Romberg-Integration" gelöst. Somit können beliebige Zeitabhängigkeiten der Funktionen Bι (t) berücksichtigt werden.
Zu einem Zeitpunkt t sei S(t) der Erwartungswert des Anteils der Patienten, welche kein Versagen irgendeiner der Ausprägungen k=1,...,K erlitten hat. In der Ausführungsform ist diese Größe durch das Produkt der einzelnen Wahrscheinlichkeiten geben:
Spezifikation der Ausführungsform für ein Beispiel
Für eine vollständige Spezifikation der Ausführungsform müssen nun die Größen ψ jk und ε jk angegeben werden. Im folgenden werden zur Veranschaulichung zwei Fälle der Ausführungsform hinsichtlich dieser Funktionen vollständig spezifiziert, die typisch für die Anwendung der Erfindung im Kontext der konkurrierenden Risiken sind.
Man betrachte eine Erkrankung, bei der das Versagen drei Ausprägungen hat. Der Patient wird im Monat t (.=1,2, ...) beobachtet. Hierbei kann im Monat t irgendeine Kombination der drei Ausprägungen oder gar kein Versagen beobachtet werden, so dass der Patient „zensiert" ist. Die Situation wird als Venn-Diagramm in der Abbildung 1 veranschaulicht. Im Falle der Krankheit Mammakarzinom könnten die drei Ausprägungen etwa Knochenmetastasen (B für "bone", k=1), sonstige Fernmetastasen (D für „distant", k=2), bzw. Lokal/regional (L für „local", k=3) sein. Ein gleichzeitiges Auftreten aller drei Ausprägungen im Beobachtungsmonat t ist möglich. Es kann aber sein, dass aus klinischen, pharmakologischen, oder datentechnischen Gründen die Nachbeobachtung im Monat t nach folgender Logik angegeben wird:
• Knochenmetastasen Qa/nein) ? o Falls ja, dann εji o Falls nein: sonstige Fernmetastasen Q'a/nein) ?
Falls ja, dann εji =0 εj2=1 εj3 =0 ψji =1 ψ j2 =0 ψj3=0
Falls nein: lokal/regional O'a/nein)
• Falls ja, dann εj =0 εj2=0 εj3=1 ψ ji =1 ψ j2 =1 ψj3=0
• Falls nein, dann εj1 =0 εj2=0 j3=0 ψ ji =1 ψ j2 =1 ψ j3=1
In anderen Worten:
Bei dieser Zuordnung wird etwa der Beobachtung „Knochenmetastasen" eine Priorität eingeräumt, so dass nicht gefragt wird, ob die anderen Ausprägungen zum Zeitpunkt t vorkommen oder nicht. Deshalb ist bei Befund „Knochenmetastasen ja" der Beitrag zur Likelihoodfunktion (8) der j-ten Patientin gemäß dieser Logik offenbar allein durch den Term fuNflj) gegeben (kein Term mit S NNftD.)
Für den Fall „keine Knochenmetastasen, aber sonstige Fernmetastasen", geht aus der Zuordnung ein Beitrag fNN(2,j) x S NN(I,J) hervor.
Für den Fall „weder Knochen- noch sonstige Fernmetastasen, aber lokal/regionale Erkrankung" geht aus der Zuordnung ein Beitrag fm( i) x S NNO j> x S NN(_J) hervor.
Für den Fall „zensiert" geht aus der Zuordnung ein Beitrag SNN(i,j) X SNN<?J) X SNN(3(j) hervor.
Eine Anwendung der Erfindung für Messungen, bei denen stets das Vorhandensein bzw. die Abwesenheit mehrerer Ausprägungen zum Zeitpunkt t beobachtet und berücksichtigt wird, ist möglich, wenn die obigen Gleichungen mit entsprechenden Gleichungen für die Wahrscheinlichkeit der gleichzeitigen Beobachtung mehrerer Ausprägungen bei geschätzten Werten der Versagenswahrscheinlichkeiten ersetzt werden.
Aufbau eines neuronalen Netzes zur Ermittlung konkurrierender Risiken
Fig. 1 zeigt den Aufbau eines neuronalen Netzes mit der Architektur MLP. In diesem Fall umfaßt das neuronale Netz
• eine Eingangsschicht mit einer Mehrzahl von Eingangsneuronen j (i für „input neuron")
• wenigstens eine Zwischenschicht mit Zwischenneuronen Nh (h für „hidden neuron")
• eine Ausgangsschicht mit einer Mehrzahl von Ausgangsneuronen N0 (o für „Output neuron")
• einer Vielzahl von Konnektoren, die jeweils zwei Neuronen unterschiedlicher Schichten miteinander verbinden.
In der Ausführungsform gemäß Fig. 1 wird eine zweidimensionale Ausgangsschicht dargestellt, um die durch die Erfindung vorhandene Möglichkeit zur gleichzeitigen Darstellung zeitlich variabler und auch konkurrierender Risiken zu veranschaulichen. Die vereinfachte Darstellung von nicht zeitlich variablen Risiken bildet hierbei den Sonderfall, bei dem nur die Ausprägungsdimension notwendig ist.
Die Anzahl der anfänglich eingesetzten Eingangs-Neuronen Ni wird üblicherweise entsprechend der Anzahl der für das Patientenkollektiv zur Verfügung stehenden objektivierbaren Angaben gewählt. Nach stand der Technik stehen Verfahren zur Verfügung, welche entweder vorab die Anzahl der Eingangs-Neuronen auf ein für die jeweilige Rechenanlage akzeptierendes Maß automatisch reduzieren oder aber im Laufe der Optimierung überflüssige Eingangs-Neuronen automatisch entfernen, so dass in beiden Fällen die Bestimmung der letztendlich verwendeten Eingangs-Neuronen ohne Eingriff der jeweiligen Bedienungsperson erfolgt.
In der Ausführungsform gemäß Fig. 1 wird die ursprüngliche Anzahl der versteckten Neuronen durch die ursprüngliche Anzahl der Eingangs-Neuronen bestimmt, d.h.,
Nh = Ni (10.a) Für diesen Fall stehen nach Stand der Technik Verfahren zur Verfügung, welche eine günstige Vorbelegung der Konnektoren ermöglichen.
Die Neuronen der Ausgangsschicht werden in der Ausführungsform gemäß Fig. 1 sinngemäß in einer zweidimensionalen Matrix mit Indizes
Jtime = 1 N,ime (10.b)
angeordnet, wobei die Anzahl der ursprünglich aktiven Neuronen der Ausgangsschicht gegeben ist durch
N0 = N,ime x N ey (10.d)
Hierbei bezeichnet der Index Jkey Signale der jeweiligen Ausprägung, während der Index J,ilτ,e das Signale zur jeweiligen Zeitfunktion (etwa „fraktionelle Polynome" oder Splinefunktionen) bezeichnet. Ein mit zwei Indizes Jtime , Jkey bezeichnetes Ausgangsneuron trägt demgemäß zur Bestimmung des Koeffizients der Zeitfunktion Jtime beim Risiko für die Ausprägung Jkey . Die Indizes Jkey bzw. Jtime entsprechen in der Ausführungsform sinngemäß den Indizes k bzw. I der Gleichungen 4 bis 7. Hierbei entsprechen N ey bzw. Ntime in der Ausführungsform sinngemäß den Größen K bzw. L dieser Gleichungen.
Für die Anwendung im Rahmen der rekursiven Partitionierung stehen ebenfalls Endknoten zur Verfügung, die üblicherweise in einer eindimensionalen Reihe angeordnet werden. Nach Stand der Technik wird jeder Patient einem solchen Knoten zugeordnet. Ebenfalls nach Stand der Technik wird dem Knoten ein Risiko zugeordnet, das als ein (skalares) Signal betrachtet werden kann. Die Erfindung ordnet nun jedem Endknoten statt eines Skalars ein Vektor mit Nkey Indizes zu.
Lernen
Für das Ausführungsbeispiel ist es Ziel des Lernens (Trainings), einen möglichst hohen Wert dieser Likelihoodfunktion im Parameterraum zu orten, gleichzeitig aber überflüssige Parameter nach Möglichkeit zu vermeiden. In der Ausführungsform erfolgt das Lernen durch Initialisierung, Optimierungsschritte und Komplexitätsreduktion wie folgt:
Initialisierung Univariate Analyse
Bevor das gesamte Netz mit allen Gewichten trainiert wird, ist es vorteilhaft, eine univariate Analyse für jeden Faktor durchzuführen. Diese Analyse hat mehrere Anwendungen:
• Die univariate Stärke der Faktoren bzw. deren einzelne prognostische Güte steht für den Vergleich mit dem vollständigen Netz zur Verfügung.
• Univariate Analyse dient zur Bestimmung einer Rangfolge der Faktoren für den Fall, dass weniger Eingangsknoten als Faktoren vorhanden sind.
• Eine Vorbesetzung der Gewichte, die nichtlineare Konfigurationen begünstigt, oder wenigstens nicht benachteiligt, läßt sich aus den univariaten Analysen bilden (siehe unten).
Zunächst wird ein exponentielles Überlebensmodell mit dem einzigen Parameter λ0 bestimmt. Dieses Modell dient zur Initialisierung und in der nachfolgenden Analyse außerdem zur Kontrolle.
Lineare univariate Modelle
Der nach Gl. (1a) transformierte Wert des j-ten Faktors Xj wird als einzelner Eingang in ein „Netzwerk" betrachtet, das aus genau einem linearen Konnektor von diesem Eingangsneuron zu einem Ausgangsknoten besteht (d.h., ohne versteckte Knoten). Die Zeitabhängigkeit dieses Ausgangsknotens entspricht dem „Proportional-Hazards-Modell" (K=1) für zensierte Daten. Das daraus resultierende Modell hat nur noch zwei freie Parameter: der Zeitparameter (λ0) und das Gewicht des Konnektors. Diese werden optimiert und zusammen mit der Güte (Likelihood) und der Signifikanz für nachfolgende Zwecke in einer Tabelle gespeichert.
Nichtlineare univariate Modelle
Als nächstes wird jeweils für jeden Faktor eine Anpassung mit vier Parametern an ein nichtlineares univariates Modell vorgenommen. Hier wird die Transformation des j-ten Faktors mit dem Ergebnis Xj als „Eingangsneuron" betrachtet. Das univariate „Netzwerk" besteht nun aus diesem einen Eingangsneuron, einem einzigen versteckten Neuron, und einem einzigen Ausgangsneuron (ohne linearen Konnektor zwischen Eingangs- und Ausgangsneuron). Die Zeitabhängigkeit dieses Ausgangsknotens entspricht wie oben dem „Proportional-Hazards- Modell" (K=1) für zensierte Daten.
Die vier Parameter entsprechen jeweils der Zeitkonstante (λ0), dem Gewicht und dem Bias zur versteckten Schicht, sowie dem Gewicht zur Ausgangsschicht. Diese werden optimiert und zusammen mit der Güte (Likelihood) und der Signifikanz für nachfolgende Zwecke in einer Tabelle gespeichert.
Rangfolge der Eingangsvariablen
Nachdem für jeden Faktor die univariaten Modelle bestimmt worden sind, wird die Rangfolge der univariat signifikanten Faktoren gemäß der Beträge der linearen Gewichte bestimmt. Die Numerierung der Eingangsknoten für die nachfolgende Analyse entspricht dieser Rangfolge. Für den Fall, dass weniger Eingangsknoten als Faktoren zur Verfügung stehen, erlaubt diese Prozedur eine objektive Vorselektion der "wichtigsten" Faktoren.
Vorbesetzung der Gewichte
Für die Optimierung des Netzes (Trainieren) müssen zunächst Anfangswerte für die Gewichte gesetzt werden. Hierbei wird eine Vorbesetzung mit dem genauen Wert Null nicht angestrebt. In der Ausführungsform werden zunächst die Gewichte der linearen Konnektoren wie üblich mit kleinen Werten vorbesetzt. Der Zeitparameter wird mit dem aus dem 1-parametrigen Modell bestimmten Wert λ0 vorbesetzt. Die Anzahl der versteckten Knoten H wird gleich der Anzahl der Eingangsknoten J gewählt. Nun wird der Konnektor von Eingangsneuron j zum versteckten Neuron mit dem gleichen Index h=j zunächst mit dem unter "nichtlineare univariate Modelle" bestimmten Gewicht vorbesetzt. Der entsprechende Bias wird analog mit dem so bestimmten Bias vorbesetzt. Diese beiden Größen werden dann um einen kleinen zufälligen Betrag versetzt. Daher entspricht jeder Ausgang eines versteckten Knotens etwa dem univariat optimalen nichtlinearen Wert.
Für jeden versteckten Knoten h steht der Wert des aus der univariaten Optimierung gewonnenen Gewichts, die wir hier als whι bezeichnen, zum ersten Neuron der Ausgangsschicht ebenso zur Verfügung. Um nun die Gewichte zur Ausgangsschicht zu Initialisieren, werden die Größen wM , h=1,...,H mit H Zufallszahlen gewichtet. Man wählt in der Ausführungsform dazu H Zahlen aus einer Gleichverteilung auf [0,1] und dividiert jede Zahl durch die Summe. Anschließend werden diese und alle übrigen Konnektoren (d.h., Gewichte von der versteckten Schicht zu Neuronen der Ausgangsschicht mit k=2, usw.) um einen kleinen zufälligen Betrag versetzt.
Eine zweite, für neuronale Netze üblichere Möglichkeit der Initialisierung besteht darin, allen Konnektoren kleine, zufällige Gewichte zuzuordnen. Damit befinden sich am Anfang der Optimierung alle Verknüpfungen, auch die über die versteckte Schicht, im linearen Bereich. Für kleine Argumente ist die "Aktivierungsfunktion" fast linear, z.B., tanh(x) « x für kleines x.
Lineare Statistik der Eingangsfaktoren
In der Ausführungsform wird die Kovarianzmatrix aller Eingangsfaktoren berechnet und gespeichert. Bestimmt wird auch eine lineare Regression jedes Faktors auf alle andere Faktoren: X2 » A Xi + B. Eigenvektoren und Eigenwerte der Kovarianzmatrix werden berechnet und protokolliert. Die linearen Beziehungen werden in der Ausführungsform für die verschiedenen Ausdünnungsverfahren verwendet.
Zuordnung der Patientendaten in Trainings- und Validierungsmengen
Für ein lernfähiges System ist es üblich, die vorhandenen Muster zufällig in Trainings- Validierungs- und Generalisierungsmengen zu unterteilen. Beispielsweise kann der Benutzer Prozentsätze (auch null) aller Muster vorgeben, die für die Validierung bzw. Generalisierung reserviert sind. Die Generalisierungsmenge wird zum Training überhaupt nicht berücksichtigt, um nachträglich eine vollständig unvoreingenommene Überprüfung der Güte zu ermöglichen. Die Güte auf der Validierungsmenge, falls vorhanden, wird im Laufe der Optimierung mehrfach zur Überprüfung verwendet: Die Güte auf der Validierungsmenge liefert ein unabhängiges Maß für den Fortschritt der Optimierung auf der Basis der Trainingsmenge und dient außerdem zur Vermeidung von Überanpassung.
Wahl der Faktoren
In der Ausführungsform besteht die Möglichkeit, Untermengen der Faktoren heranzuziehen, um beispielsweise Modelle für solche zukünftigen Muster zu gewinnen, für die nur diese Untermenge der Faktoren zur Verfügung steht. Netzoptimierung
Simplex-Optimierung
Bei der Optimierung geht es um die Suche nach einem Maximum der Likelihoodfunktion, bezogen auf die Daten der Trainingsmenge. Der Parameterraum der Suche besteht aus den n-K noch aktiven Netzgewichten zusammen mit den globalen Zeitkonstanten λfc_, k=1,...,K. Daraus ergibt sich ein n-dimensionaler Raum, in dem die Suche erfolgt.
Die in der Ausführungsform implementierte Methode der Suche bedient sich der Konstruktion von einem n-fachen Simplex in diesem Raum nach der bekannten Methode von Neider und Mead (1965). Die Suche erfordert die Bildung einer n-dimensionalen Simplex im Parameterraum. Eine Simplex läßt sich durch Vorgabe von n+1 nicht entarteten Ecken bestimmen, d.h., die entsprechenden Kanten sind alle linear unabhängig voneinander. Sie umfaßt somit eine n-dimensionale Punktwolke im Parameterraum. Die Optimierungssuche erfolgt in Epochen. Während jeder Epoche wird die Gütefunktion auf der Trainingsmenge an verschiedenen Stellen im Parameterraum ausgewertet, nämlich am aktuellen Ort sowie an n weiteren Ecken, die durch Zusammensetzung von Operationen wie Reflexion, Expansion/Kontraktion in einer Richtung, usw., definiert sind. Die Richtungen dieser Operationen werden auf der Basis der Werte der Gütefunktion an den zur vorigen Epoche definierten Ecken automatisch gewählt. Die Abnahme der Gütefunktion in der Ausführungsform ist monoton, und die Suche endet immer bei einem (wenigstens lokalen) Minimum.
Berücksichtigung der Validierungsmenge
Die oben beschriebene Validierungsmenge dient, falls vorhanden, zur Kontrolle des Optimierungsfortschritts und zur Vermeidung von Überanpassung.
Als Kennzahlen der augenblicklichen Güte der Optimierung bezüglich der Trainings- und Validierungsmengen werden in der Ausführungsform laufend die Größen Minus Log-likeiihood pro Muster der beiden Mengen berechnet und ausgegeben. Während diese Kennzahl auf der Trainingsmenge monoton abnehmen muß, sind vorübergehende Schwankungen der entsprechenden Kennzahl auf der Validierungsmenge möglich, ohne dass eine Überanpassung bereits stattgefunden hat. Ein monotoner Anstieg der Kennzahl auf der Validierungsmenge sollte jedoch zum Abbruch der weiteren Optimierung und zu einer Komplexitätsreduktion führen. Dieser Art der Abbruch stellt eine Art Notbremse für die Vermeidung von Überanpassung vor.
Ein mögliches Abbruchkriterium, das automatisch durchgeführt werden kann, wird durch die Führung der exponentieli geglätteten Güte der Validierungsmenge erreicht. Falls diese geglättete Kenngröße das bisherige Minimum des aktuellen Optimierungsschritts um einen festen Prozentsatz überschreitet (Verschlechterung der Güte), wird die Optimierung abgebrochen. Eine prozentuale Zunahme von etwa 1 % Toleranz wurde als Erfahrungswert für typische Größen der Trainingsmenge um die 300 oder mehr Datensätze festgestellt. Bei dieser Toleranz und bei etwa gleicher Größe von Trainings und Validierungsmengen wird das Training öfter durch die Erreichung eines Minimums auf der Trainingsmenge gestoppt als durch die Verschlechterung der Güte auf der Validierungsmenge. Dieser "normale" Abbruch ist bevorzugt, weil eine (fast) monotone Verbesserung der Güte auf der Validierungsmenge ein Zeichen darstellt, dass das neuronale Netz echte zugrunde liegenden Strukturen, und nicht einfach das Rauschen, erkannt hat.
Im Beispiel für die Ausführungsform wurde keine Validierungsmenge verwendet. Somit erfolgt der Abbruch allein aufgrund des Minimums auf der Trainingsmenge.
Strukturoptimierung und Komplexitätsreduktion
Aus der für die Ausführungsform beschriebenen Simplexoptimierung resultiert ein Satz von Gewichten {wpj, ... w[n]} und anderen Parametern, welche ein lokales Minimum der negativen Log-Likelihood bestimmen. (Die Numerierung [1] ... [n] der Gewichte in diesem Zusammenhang beinhaltet nicht die topologische Ordnung der Gewichte.) Dieses Minimum bezieht sich auf die feste Zahl n der Gewichte und eine feste Topologie. Um Überanpassung zu vermeiden, ist es wünschenswert, durch eine Ausdünnung der Gewichte die Komplexität zu verringern, soweit dies ohne einen signifikanten Verlust der Güte möglich ist.
Ausdünnung (Pruning) bezeichnet die Deaktivierung von Konnektoren. Dazu werden deren Gewichte auf einen festen Wert "eingefroren" (in der Ausführungsform null, wobei man auch vom "Entfernen" sprechen kann). Es ist im Prinzip möglich, einzelne Gewichte oder auch ganze Knoten zu entfernen. Im letzteren Fall werden alle Gewichte deaktiviert, die entweder in den zu entfernenden Knoten einführen oder aus dem Knoten weiterführen.
In der Ausführungsform wird eine Phase der Komplexitätsreduktion im Netz im Anschluß an einer Optimierungsphase (Simplex-Verfahren) durchgeführt. Der erste Schritt dazu ist die „Ausdünnung" einzelner Konnektoren. Im Anschluß werden Kombinationen aus verschiedenen Konnektoren im Hinblick auf Redundanz getestet. Schließlich wird die Konsistenz der Topologie überprüft und gegebenenfalls Konnektoren bzw. Knoten entfernt, die aufgrund der bisherigen Entfernung anderer Konnektoren und Knoten nicht mehr zur Aussage beitragen können. Diese Prozedur ist zwar nicht Gegenstand der Erfindung, gehört jedoch zur guten Praxis gemäß dem Stand der Technik.
Zur Komplexitätsreduktion werden in der Ausführungsform automatisch verschiedene statistische Hypothesen gebildet, die mittels eines Likelihood-ratio-tests bezüglich eines vorgegebenen Signifikanzniveaus überprüft werden. Bestimmte Gewichte bzw. Parameter werden hierbei als obligatorisch betrachtet werden, d.h., sie werden auf keinen Fall entfernt. Dazu gehören die globalen Zeitparameter λ0k.
Rangfolge der Konnektoren
Um die Reihenfolge der zu überprüfenden Konnektoren festzustellen, wird in der Ausführungsform zunächst die Testgröße log(Likelihood-Ratio) gebildet. Dabei stellt man sich für jedes Gewicht wIA] zwei Netzwerke vor:
• Das Netz mit allen aktuellen Gewichten (n Freiheitsgrade), einschließlich w[A].
• Das Netz mit allen aktuellen Gewichten außer w[A], das deaktiviert wird (n-1 Freiheitsgrade).
Beim Netz mit w[A] deaktiviert werden die übrigen Gewichte bei den aktuell optimierten Werten eingefroren.
Testing
Nachdem eine Rangfolge {wm, ... wι} der Gewichte gemäß dem "Likelihood-ratio" bekannt ist, werden in der Ausführungsform die in dieser Reihenfolge zwecks der Ausdünnung getestet, bis maximal Gmax Gewichte zu entfernen sind. Angenommen, A-1 Gewichte sind bereits entfernt worden, kann man für das A-te zusätzliche Gewicht der Reihenfolge w[A] zwei Hypothesen testen.
• Teststatistik für die Hypothese HA-ι : Likelihood-Ratio für das Netz mit Gewichten {wm ... WrA-i] } deaktiviert (n-A+1 Freiheitsgrade)
• Teststatistik für die Hypothesis HA : Likelihood-Ratio für das Netz mit Gewichten {wm ... w[A] } deaktiviert (n-A Freiheitsgrade)
Die Hypothese HA wird nun zweimal getestet: • HA versus HA-ι und
• HA versus H.
Die Signifikanz wird mit dem Chi-Quadrat-Test bezüglich des Likelihood-Ratios angewandt. Falls bei einer der beiden Vergleiche HA angenommen wird (Ausdünnung von A ergibt eine signifikante Verschlechterung), wird der Konnektor A nicht entfernt, und der Ausdünnungsschritt wird beendet.
Beim Deaktivieren wird der Konnektor aus der Liste der aktiven Konnektoren entfernt und das zugehörige Gewicht eingefroren (meinstens gleich null).
Während einer Ausdünnungsphase wird in der Ausführungsform die Zahl G der entfernten Konnektoren auf eine maximale Zahl begrenzt, wobei n die Anzahl der verbleibenden Konnektoren ist.
Weitere Komplexitätsreduktion
In der Ausführungsform werden durch paarweise Analyse der Gewichte im Hinblick auf die Likelihood der Daten und unter Berücksichtigung verschiedener Korrelationseigenschaften weitere Konnektoren entfernt. Dieser Schritt ist jedoch nicht zwingend erforderlich für die Funktion des lernfähigen Modells und kann daher weggelassen werden. Ebenso ist es möglich, die Erfindung mit anderen Techniken zur Komplexitätsreduktion, die in verschiedenen lernfähigen Systemen eventuell bereits implementiert sind, zu verbinden.
Überprüfung der Topologie
Ausdünnung oder Entfernung einzelner Konnektoren kann zur Isolierung eines Knotens von Eingangssignalen, Ausgangssignalen, oder (im Falle eines versteckten Neurons) von beiden führen. In diesem Fall wird in der Ausführungsform ein Deaktivierungsflag für den Knoten gesetzt. Für Neuronen der Ausgangsschicht bedeutet z.B. "Isolierung", dass weder von der Eingangsschicht, noch von der versteckten Schicht aktive Konnektoren vorhanden sind. Falls alle Konnektoren von einem Eingangsneuron zur versteckten und zur Ausgangsschicht entfernt worden sind, ist der Bias der linearen Konnektoren auch zu deaktivieren.
Ein verstecktes Neuron, das von allen Eingängen isoliert worden ist, kann noch mit Ausgängen verbunden ist. Die "eingefrorenen" Beiträge solcher versteckter Neuronen zum Ausgang sind dann redundant, weil sie im Prinzip nur die Biaswerte der übrigen, aktiven Konnektoren verändern. Daher werden solche Neuronen deaktiviert, und verbleibende Konnektoren zur Ausgangsschicht werden entfernt.
Die verschiedenen Überprüfungen können zur weiteren Isolierung von Knoten führen. Deshalb wird die Prozedur solange iteriert, bis die Topologie konstant bleibt.
Beenden des Trainings und Ausgabe
Wenn nach der letzten Simplex-Optimierung keine weiterere Komplexitätsreduktion möglich ist, wird in der Ausführungsform das Training beendet. Alle Gewichte und sonstige Parameter erhalten ihre endgültigen Werte, die in hierfür angelegten Dateien gespeichert werden.
Somit ist das trainierte neuronale Netz eindeutig bestimmt. Durch Einlesen dieser gespeicherten Werte kann entweder gleich anschließend oder zu einem zukünftigen Zeitpunkt das trainierte neuronale Netz gemäß der obigen Beschreibung verwendet werden, um für beliebige Daten, welche die unabhängigen Faktoren („Kovariaten") x enthalten, die Ausgabewerte und somit die oben definierten Funktionen fk(t), λk (_), und Sk(f), zu den Kovariaten x zu gewinnen. Mit diesen Funktionen ist das Wahrscheinlichkeitsmodell nun bestimmt.
Insbesondere ist es selbstverständlich möglich, den Verlauf dieser Funktionen in Abhängigkeit von gewählten Faktoren, auszurechnen. Eine solche abhängige Bestimmung ist zur Evaluierung der erwarteten Wirkung eines Therapiekonzeptes sinnvoll, wenn die zu bewertenden Therapien als „Faktoren" zum Training verwendet worden sind.
Beispiel
Daten
Zur Veranschaulichung der Funktionsweise der Erfindung in der Ausführungsform wurden zunächst 1000 fiktive Patientendatensätze mit 9 Faktoren (Kovariaten) mittels eines Zufallsgenerators erzeugt. Die ersten 7 Faktoren wurden als Realisierungen einer multivariaten Gaußverteilung erzeugt. Hierfür wurden im Ausführungsbeispiel Mittelwerte und Varianzen der Faktoren und eine Kovarianzmatrix vorgegeben: Faktor x'yj?0 χer XPJ xa .Qe χtum xujpa xpai
Mittelwert ÖΪ50 Ö45 Ö.45 5.5Ö Ö.5Ϊ Ö.5Ö Ö.5Ö
Varianz 0.071 0.087 0.097 0.083 0.083 0.084 0.083
Die angenommene Kovarianzmatrix war
xlypo : xer ; xpr : xage : xtum ; xupa : xpai xlypo 1.00 -0.06 -0.09 0.03 0.42 0.02 0.05 xer -0.06 1.00 0.54 0.29 -0.07 -0.18 -0.19 xpr -0.09 0.54 1.00 0.03 -0.06 -0.07 -0.14 xage 0.03 0.29 0.03 1.00 0.04 0.02 0.00 xtum 0.42 -0.07 -0.06 0.04 1.00 0.03 0.06 xupa 0.02 -0.18 -0.07 0.02 0.03 1.00 0.54 xpai 0.05 -0.19 -0.14 0.00 0.06 0.54 1.00
Um eine möglichst realistische Situation darzustellen wurden diese Werte in der Größenordnung so gewählt, wie sie in der wissenschaftlichen Literatur im Falle des Mammakarzinoms für bestimmte Faktoren bekannt sind. Für die Funktion der Erfindung sind die genauen Annahmen sowie die Interpretation der Faktoren jedoch völlig unerheblich.
Neben den sieben benannten Faktoren wurden zwei weitere binäre Faktoren („Therapien") „et" und „ht" zufällig erzeugt. Für ht wurden zufällig 50 % der Wert 1 , 50 % der Wert 0 zugeordnet. Im Ausführungsbeispiel für et wurden nur 1 % der Wert 1 , 99 % der Wert 0 zugeordnet. Somit ist zu erwarten, daß et nicht im neuronalen Netz als Einflußfaktor erkannt wird.
Die ersten zehn der hieraus resultierenden Datensätze sind wie folgt:
Patienten- xlypo xer xpr xage xtum xupa xpai et ht Nummer
1 0.07 0.89 1.41 0.36 0.49 0.31 0.22 0 1
2 0.25 0.23 0.98 0.15 0.10 0.31 0.05 0 0
3 0.56 0.52 0.79 0.09 0.22 -0.22 -0.07 0 1
4 0.61 0.83 1.10 0.73 0.56 0.21 0.44 0 1
5 0.97 0.38 0.70 0.61 0.51 0.97 0.72 0 0
6 0.44 0.22 0.07 0.90 0.80 0.60 0.55 0 1
7 0.46 0.24 0.47 0.14 0.60 0.57 0.31 0 0
8 0.42 0.60 0.41 0.36 0.54 0.23 0.47 0 0
9 -0.01 0.22 0.80 0.52 0.38 -0.13 0.41 0 0
10 0.80 0.41 0.19 0.11 0.45 0.40 0.51 0 0
Für den Einfluß der Faktoren auf einen Krankheitsverlauf wurden zunächst drei unabhängige Risikowahrscheinlichkeiten risk(i), i=1,3 erzeugt. Folgendes Modell wurde unterstellt: risk(1)=exp(r1+r2+r3+r4-rh) risk(2)=exp(rι+r3+r4) risk(3)=exp(r-ι) mit r-ι-2 (xlypo-median(xlypo)) r2=0,5 (xtum-median(xtum)) r3=0, 75 (xupa-median(xupa)) r4=1,5 (xpai-median(paimed)) und r = 1 falls ht=1.
Aus diesen Risikowerten wurden tatsächliche Versagenszeiten der drei Ausprägungen als zufällige Realisierungen einer Exponentialverteilung bzw. einer modifizierten Exponentialverteilung mit Zeitkonstante 200 Monate erzeugt. Für die 3. Ausprägung wurde zusätzlich angenommen, daß ein Versagen nach spätestens 24 Monaten möglich ist, um eine Situation mit konkurrierenden Risiken ähnlich dem Lokalrezidiv beim Mammakarzinom zu erzeugen. Diese Daten wurden gemäß einer simulierten „Studie" zensiert, und eine „Beobachtung" wurde nach dem Schema der unter Abbildung 1 dargestellten Priorität simuliert.
Aus dem im Ausführungsbeispiel unterstellten Modell geht hervor, daß für das Versagen der 3. Ausprägung nur der Faktor „xlypo" kausal ausschlaggebend ist. Dennoch besteht ein indirekter Zusammenhang zwischen den übrigen Faktoren und den Beobachtungen der 3. Ausprägung, weil erhöhte Risiken der übrigen Faktoren die Wahrscheinlichkeit für eine Beobachtung des Versagens der 3. Ausprägung senken können. Diese Eigenschaft des unterstellten Modells ist zwar unerheblich für die Funktion der Erfindung, veranschaulicht aber einen typischen Nutzen.
Trainiertes neuronales Netz
Die Neuronen der Ausgangsschicht werden gemäß den Gleichungen 4 bis 7 und 10 mit Ntime = 1 und Nkey = 3 zugeordnet, so daß 3 Neuronen der Ausgangsschicht ursprünglich aktiv sind. Für die Ausführungsform werden jeweils 9 Neuronen der Eingangs- bzw. der versteckten Schicht ursprünglich aktiviert. Das nach der beschriebenen Methode trainierte neuronale Netz wird in der Figur 3 veranschaulicht („xpai" und „xpail" sind identisch). Man beachte, dass zum Ausgang „O3" nur ein Konnektor vorhanden ist, und zwar vom Knoten (Neuron) „xlypo". Die Ausgänge 01 bis 03 sind den Risiken ,,risk(1)" bis ,,risk(3)" zugeordnet.
Eine vollständige eindeutige Darstellung des trainierten neuronalen Netzes erfolgt durch Angabe der verbleibenden Konnektoren mit ihren zugehörigen Gewichten und Bias-Werten sowie durch die Überlebenszeitskalen. Hierfür werden in der Tabelle 2a für jedes Neuron, zu dem ein aktiver Konnektor führt („tgt"), alle Quellen („src") mit den entsprechenden Gewichten („wt") angegeben. Man beachte, daß viele Konnektoren nicht mehr aktiv sind.
tgt src wt src wt src wt src wt src wt src wt src wt src wt src wt h1 ht 13.5 h6 xlypo 0.53 xupa -1.78 xtum 1.02 h7 xer 1.98 xpr -1.37 h8 xage 1.70 h9 xpr 2.31 o1 h1 -1.70 h6 0.30 ht -1.10 xlypo 0.19 xpai 0.72 xupa 0.63 xtum 0.22 o2 h1 2.03 h6 -0.68 h7 -0.86 h8 0.33 h9 -0.64 xlypo 0.64 xpail 0.91 xer 0.56 xage -0.42 o3 xlypo 2.39
Tabelle 2a
Die Bias-Werte sind wie in der Tabelle 2b angegeben:
ht xlypo xpai xupa xtum et xer xage xpr h1 h2 h3 h4 h5 h6 h7 h8 h9 o1 o2 o3 0.17 0.16 Ö Ö (5 Ö Ö Ö 0 -0.94 Ö Ö Ö 0 0.86 1.31 0 2.07 1.03 0.66 -0.11
Tabelle 2b: Bias Werte (automatisch 0 für inaktive Neuronen)
Die Werte der für die Spezifikation des Modells der Gleichung 6 notwendigen Überlebenszeitskalen λ0k sind schließlich der Tabelle 2c zu entnehmen (die Einheiten dieser Angaben entsprechen sinnvollerweise der obigen Zeitkonstante von 200 Monaten):
λ_1 ^02 Λ03
0.53/200 0.13/200 0.27/200
Tabelle 2c
Zeitliche Variation
Um zeitlich variierende Ausgangsneuronen zu verwenden, könnte statt Ntime = 1 wie hier verwendet ein höherer Wert eingesetzt werden. Die Anzahl der Ausgangsneuronen bestimmt sich dann aus der Gleichung 10.d. Im Falle Nkey = 3 und time = 2 wäre dann z.B. N0 = 6. Das Training würde auf die bisher beschriebene Weise erfolgen. Die eventuellen zeitlichen Variationen der verschiedenen Ausprägungen könnten im Rahmen des Modells der Gleichungen 4 bis 7 unabhängig von einander bestimmt werden, die Aufgabe der Erfassung konkurrierender Risiken würde hierdurch insbesondere keinesfalls beeinträchtigt werden.

Claims

Patentansprüche
1. Verfahren zur Ermittlung konkurrierender Risiken für Objekte nach einem Anfangsereignis auf Grundlage bereits gemessener oder sonst objektivierbarer Trainingsdatensätze, in welchem mehrere aus einem lernfähigen System gewonnene Signale in einer objektiven Funktion so kombiniert werden, dass das lernfähige System die zugrunde liegenden Wahrscheinlichkeiten der jeweiligen konkurrierenden Risiken erkennen oder vorhersagen kann.
2. Verfahren nach Anspruch 1 , in welchem für die Trainingsdatensätze gemessene oder in sonstiger Weise objektiv erfaßte Daten des Anfangsereignisses und einer Nachbeobachtung bis zu einem vorgegebenen Zeitpunkt verwendet werden.
3. Verfahren nach Anspruch 2, in welchem der letzte Zeitpunkt der Nachbeobachtung explizit in den Trainingsdatensätzen verwendet wird.
4. Verfahren nach einem der vorangegangenen Ansprüche, in welchem bei der Beobachtung einer Versagensausprägung zu einem Zeitpunkt die anderen Ausprägungen ausgeschlossen werden.
5. Verfahren nach einem der vorangegangenen Ansprüche, in welchem die objektive Funktion L in Abhängigkeit einer Funktion P gegeben ist:
wobei μ die Parameter des lernfähigen Systems, fLS(k x (ty ) die Versagensrate der Ausprägung k und Sω(fc x } (t. ) den Erwartungswert des Anteils an Objekten j mit beobachteten Merkmalen x;-, welche kein Versagen der Ausprägung k zum Zeitpunkt tj erleiden, bezeichnen und P aufgrund des logischen Zusammenhangs aus δjk bestimmt wird, mit δjk =1, wenn ein Objekt; ein Versagen der Ausprägung k zum Zeitpunkt ty erlitten hat und sonst δjk = 0.
6. Verfahren nach Anspruch 5, in welchem als objektive Funktion verwendet wird, wobei εJk und ψjk aufgrund des logischen Zusammenhangs aus δjk bestimmt werden.
7. Verfahren nach Anspruch 6, in welchem
Uμ;{τJ,tJJt}) itj)} }Jk als objektive Funktion verwendet wird.
8. Verfahren nach einem der vorangegangenen Ansprüche, in welchem ein neuronales Netz als lernfähiges System verwendet wird.
9. Verfahren nach Anspruch 8, in welchem ein neuronales Netz der Architektur MLP (multilayer Perzeptron) verwendet wird.
10. Verfahren nach einem der Ansprüche 1 - 7, in welchem das lernfähige System eine rekursive Partitionierung durchführt, wobei
jedem Objekt einem Knoten zugeordnet wird,
jedem Knoten die Häufigkeiten oder Wahrscheinlichkeiten aller Ausprägungen zugeordnet wird, und
die Partionierung so durchgeführt wird, dass die objektive Funktion optimiert wird, die diese Häufigkeiten oder Wahrscheinlichkeiten statistisch berücksichtigt.
11. Verfahren nach einem der vorangegangenen Ansprüche, in welchem das lernfähige System im Rahmen einer Entscheidungshilfe verwendet wird.
12. Verfahren nach einem der vorangegangenen Ansprüche, in welchem den verschiedenen Wahrscheinlichkeitsfunktionen der konkurrierenden Risiken Werte zur Ermittlung einer Strategie zugeordnet werden.
EP01999919A 2000-12-07 2001-12-07 Verfahren zur ermittlung konkurrierender risiken Withdrawn EP1384199A2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE10060928 2000-12-07
DE10060928 2000-12-07
PCT/EP2001/014411 WO2002047026A2 (de) 2000-12-07 2001-12-07 Verfahren zur ermittlung konkurrierender risiken

Publications (1)

Publication Number Publication Date
EP1384199A2 true EP1384199A2 (de) 2004-01-28

Family

ID=7666201

Family Applications (1)

Application Number Title Priority Date Filing Date
EP01999919A Withdrawn EP1384199A2 (de) 2000-12-07 2001-12-07 Verfahren zur ermittlung konkurrierender risiken

Country Status (4)

Country Link
US (1) US7395248B2 (de)
EP (1) EP1384199A2 (de)
AU (1) AU2002216080A1 (de)
WO (1) WO2002047026A2 (de)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1388812A1 (de) * 2002-07-04 2004-02-11 Ronald E. Dr. Kates Trainingsverfahren für lernfähiges System
US7485390B2 (en) 2003-02-12 2009-02-03 Symyx Technologies, Inc. Combinatorial methods for preparing electrocatalysts
WO2005024717A1 (de) * 2003-09-10 2005-03-17 Swiss Reinsurance Company System und verfahren zur automatisierten erfahrungstarifierung und/oder schadensreservierung
US8096811B2 (en) * 2003-11-29 2012-01-17 American Board Of Family Medicine, Inc. Computer architecture and process of user evaluation
US20070239496A1 (en) * 2005-12-23 2007-10-11 International Business Machines Corporation Method, system and computer program for operational-risk modeling
US7747551B2 (en) * 2007-02-21 2010-06-29 Neurovista Corporation Reduction of classification error rates and monitoring system using an artificial class
DE102007044919A1 (de) * 2007-09-19 2009-04-02 Hefter, Harald, Prof. Dr. med. Dr. rer. nat. Verfahren zur Bestimmung von sekundärem Therapieversagen
US8949671B2 (en) * 2008-01-30 2015-02-03 International Business Machines Corporation Fault detection, diagnosis, and prevention for complex computing systems
DE102009009228A1 (de) * 2009-02-17 2010-08-26 GEMAC-Gesellschaft für Mikroelektronikanwendung Chemnitz mbH Verfahren und Vorrichtung zur agglutinationsbasierten erkennung von spezifischen Erkankungen über einen Bluttest
WO2011161301A1 (en) 2010-06-24 2011-12-29 Valtion Teknillinen Tutkimuskeskus State inference in a heterogeneous system
US8620720B2 (en) * 2011-04-28 2013-12-31 Yahoo! Inc. Embedding calendar knowledge in event-driven inventory forecasting
US9235799B2 (en) * 2011-11-26 2016-01-12 Microsoft Technology Licensing, Llc Discriminative pretraining of deep neural networks
US8738421B1 (en) * 2013-01-09 2014-05-27 Vehbi Koc Foundation Koc University Driver moderator method for retail sales prediction
US20150032681A1 (en) * 2013-07-23 2015-01-29 International Business Machines Corporation Guiding uses in optimization-based planning under uncertainty
US10133980B2 (en) 2015-03-27 2018-11-20 Equifax Inc. Optimizing neural networks for risk assessment
CA3039182C (en) 2016-11-07 2021-05-18 Equifax Inc. Optimizing automated modeling algorithms for risk assessment and generation of explanatory data
US11093830B2 (en) 2018-01-30 2021-08-17 D5Ai Llc Stacking multiple nodal networks
WO2019152308A1 (en) 2018-01-30 2019-08-08 D5Ai Llc Self-organizing partially ordered networks
US11321612B2 (en) 2018-01-30 2022-05-03 D5Ai Llc Self-organizing partially ordered networks and soft-tying learned parameters, such as connection weights
US10558913B1 (en) * 2018-10-24 2020-02-11 Equifax Inc. Machine-learning techniques for monotonic neural networks
US11468315B2 (en) * 2018-10-24 2022-10-11 Equifax Inc. Machine-learning techniques for monotonic neural networks

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5862304A (en) * 1990-05-21 1999-01-19 Board Of Regents, The University Of Texas System Method for predicting the future occurrence of clinically occult or non-existent medical conditions
DE4224621C2 (de) * 1992-07-25 1994-05-05 Boehringer Mannheim Gmbh Verfahren zur Analyse eines Bestandteils einer medizinischen Probe mittels eines automatischen Analysegerätes
US5943663A (en) * 1994-11-28 1999-08-24 Mouradian; Gary C. Data processing method and system utilizing parallel processing
US5701400A (en) * 1995-03-08 1997-12-23 Amado; Carlos Armando Method and apparatus for applying if-then-else rules to data sets in a relational data base and generating from the results of application of said rules a database of diagnostics linked to said data sets to aid executive analysis of financial data
US5812992A (en) * 1995-05-24 1998-09-22 David Sarnoff Research Center Inc. Method and system for training a neural network with adaptive weight updating and adaptive pruning in principal component space
US6125105A (en) * 1997-06-05 2000-09-26 Nortel Networks Corporation Method and apparatus for forecasting future values of a time series
DE19940577A1 (de) * 1999-08-26 2001-03-01 Wilex Biotechnology Gmbh Verfahren zum Trainieren eines neuronalen Netzes
US6606615B1 (en) * 1999-09-08 2003-08-12 C4Cast.Com, Inc. Forecasting contest
US20040122702A1 (en) * 2002-12-18 2004-06-24 Sabol John M. Medical data processing system and method
JP4177228B2 (ja) * 2003-10-24 2008-11-05 三菱電機株式会社 予測装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
None *
See also references of WO0247026A3 *

Also Published As

Publication number Publication date
WO2002047026A3 (de) 2003-11-06
WO2002047026A2 (de) 2002-06-13
US20040073096A1 (en) 2004-04-15
US7395248B2 (en) 2008-07-01
AU2002216080A1 (en) 2002-06-18

Similar Documents

Publication Publication Date Title
WO2002047026A2 (de) Verfahren zur ermittlung konkurrierender risiken
DE112020000281T5 (de) Vereinigen von modellen, die jeweilige zielklassen aufweisen, mit destillation
DE102016203546B4 (de) Analysator zur verhaltensanalyse und parametrisierung von neuronaler stimulation
DE112019000806T5 (de) Erkennen und vorhersagen von epilepsieanfällen unter verwenden von techniken wie methoden des tiefen lernens
DE112018002822T5 (de) Klassifizieren neuronaler netze
DE112011101370T5 (de) Neuronales Netz mit kanonischen gepulsten Neuronen für einen raumzeitlichen Assoziativspeicher
DE10237310A1 (de) Verfahren, Datenverarbeitungseinrichtung und Computerprogrammprodukt zur Datenverarbeitung
DE102005046747B3 (de) Verfahren zum rechnergestützten Lernen eines neuronalen Netzes und neuronales Netz
DE102007001026A1 (de) Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems
DE10296704T5 (de) Fuzzy-Inferenznetzwerk zur Klassifizierung von hochdimensionalen Daten
WO2003054794A2 (de) Auswerten von mittels funktionaler magnet-resonanz-tomographie gewonnenen bildern des gehirns
DE102018204514A1 (de) Handhaben einer signalsättigung in gepulsten neuronalen netzen
EP1232478B1 (de) Verfahren zum trainieren eines neuronalen netzes
DE112021003761T5 (de) Prädiktive modelle mit zerlegbaren hierarchischen ebenen, die konfiguriert werden, um interpretierbare resultate zu erzeugen
DE102021124256A1 (de) Mobile ki
EP0978052B1 (de) Rechnergestütztes verfahren zur auswahl von trainingsdaten für ein neuronales netz
DE112018006656T5 (de) 3erzeugen von neuronenmodellen für eine personalisierte medikamentöse therapie
DE112020004025T5 (de) Gegnerisches und koopoeratives Nachahmungslernen zur dynamischen Behandlung
DE19838654C1 (de) Verfahren zum Trainieren eines neuronalen Netzes, Verfahren zur Klassifikation einer Folge von Eingangsgrößen unter Verwendung eines neuronalen Netzes, neuronales Netz und Anordnung zum Trainieren eines neuronalen Netzes
DE102021205097A1 (de) Computerimplementiertes Verfahren und System zur Bestimmung einer Kostenfunktion
Taha et al. A new quantum radial wavelet neural network model applied to analysis and classification of EEG signals
DE102021200215A1 (de) Ermitteln einer Konfidenz eines künstlichen neuronalen Netzwerks
DE102021210607A1 (de) Verfahren und Vorrichtung zum Verarbeiten von mit einem neuronalen Netz assoziierten Daten
DE102022201853A1 (de) Erkennung kritischer Verkehrssituationen mit Petri-Netzen
DE112022001973T5 (de) Vorhersage von medizinischen ereignissen mit hilfe eines personalisierten zweikanal-kombinator-netzwerks

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20030704

AK Designated contracting states

Kind code of ref document: A2

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR

17Q First examination report despatched

Effective date: 20100319

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 20180817