DE4440859C2 - Verfahren und Vorrichtung zum Steuern eines autonom explorierenden Roboters - Google Patents

Verfahren und Vorrichtung zum Steuern eines autonom explorierenden Roboters

Info

Publication number
DE4440859C2
DE4440859C2 DE4440859A DE4440859A DE4440859C2 DE 4440859 C2 DE4440859 C2 DE 4440859C2 DE 4440859 A DE4440859 A DE 4440859A DE 4440859 A DE4440859 A DE 4440859A DE 4440859 C2 DE4440859 C2 DE 4440859C2
Authority
DE
Germany
Prior art keywords
network
values
artificial neural
output
sgnw
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE4440859A
Other languages
English (en)
Other versions
DE4440859A1 (de
Inventor
Alexander Kaske
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KASKE, ALEXANDER, WIEN, AT
Original Assignee
Alexander Kaske
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alexander Kaske filed Critical Alexander Kaske
Priority to DE4440859A priority Critical patent/DE4440859C2/de
Priority to US08/554,948 priority patent/US5774632A/en
Priority to EP95118004A priority patent/EP0718732A3/de
Publication of DE4440859A1 publication Critical patent/DE4440859A1/de
Application granted granted Critical
Publication of DE4440859C2 publication Critical patent/DE4440859C2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/161Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/33Director till display
    • G05B2219/33012Kohonen network, single layer with neurodes, associated with codebook vector
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/33Director till display
    • G05B2219/33022One network for learned signal values, one network for unknown signal values

Description

Die Erfindung betrifft ein Verfahren sowie eine Vorrichtung zum Steuern eines autonom explorierenden Roboters gemäß den Oberbegriffen der Ansprüche 1 und 6 sowie eine Verwendung der Vorrichtung.
Sollen Arbeiten in einer für den Menschen feindlichen Umge­ bung durchgeführt werden, so bietet es sich an, hierfür Robo­ ter einzusetzen. Diese Roboter können mittels einer Fern­ steuerung oder eines in einer robotereigenen Recheneinheit implementierten Programms gesteuert werden.
Der Einsatz einer Fernsteuerung setzt voraus, daß sich die Bedienungsperson an der Fernsteuerung zumindest in Kommunka­ tionsreichweite mit dem Roboter befindet. Dies ist aber in einer Reihe von Anwendungsfällen nicht möglich, insbesondere dann, wenn die Entfernung zwischen Bedienungsperson und Robo­ ter zu groß wird, oder aber, wenn Störungen in der Kommunika­ tion zwischen Roboter und Bedienungsperson auftreten können.
Demgegenüber weist ein Roboter, der mittels eines ihm eigenen Programms arbeitet, eine größere Unabhängigkeit gegenüber dem ferngesteuerten Roboter auf. Jedoch setzt die Verwendung ei­ nes Programms voraus, daß während der Programmierung alle eventuell auftretenden Situationen für den Roboter bereits bekannt und entsprechende Handlungstrategien dem Roboter mit eingegeben werden. Wird jedoch der Roboter für Arbeiten ein­ gesetzt, bei denen entweder die Einsatzumgebung und die damit möglicherweise auftretenden Situationen nicht vollständig bekannt sind und/oder aber Bedingungen auftreten können, die zum Zeitpunkt der Programmierung noch nicht vorhersehbar sind, so scheitert ein Roboter, der mittels eines Programms gesteuert wird. Wird demgegenüber versucht, die dem Roboter bereits bekannten Situationen dadurch zu erweitern, daß mit der Recheneinheit eine Datenbank verbunden ist, die eine Vielzahl von gegebenen Situationen speichert, so werden hier­ für erhebliche Rechenzeiten beansprucht, so daß der Roboter bei Auftreten einer für ihn zunächst unbekannten Situation einen verhältnismäßig langen Zeitraum stillgesetzt wird, bis nach Durchsuchen des Datenbestandes eine entsprechende Lö­ sungsstrategie gefunden wird. Dies kann aber dann von Nach­ teil sein, wenn der Roboter in eine Situation gerät, die eine sofortige Handlung erfordert.
Es sind in der Praxis bereits Netzwerke mit vorgeschalteten Kohonenkarten bekannt, die jedoch nicht in der Lage sind, zwischen bekannten und unbekannten Situationen zu unterschei­ den. Damit können keine gezielten Ausweichverhalten gegenüber ungewöhnlichen Situationen generiert werden. Auch bleibt das Verhalten in diesen neuen Situationen völlig stereotyp, da, ja zu einem durch eine Sensorik erfaßten Wert mit einem Steuer­ befehl geantwortet wird, welcher einem gespeicherten sensori­ schen Wert am nächsten kommt. Eine Variation des Verhaltens wäre nur über eine Superposition von Ausgangswerten möglich, die den ähnlichsten gespeicherten Situationen entsprechen. Allerdings ist diese Superposition durch die Filterwirkung der Kohonenkarte fast ausgeschlossen. Es käme zur Instabili­ tät des Musters in der Kohonenkarte mit wechselnder Aktivität entsprechend der Ähnlichkeit zu den gespeicherten Prototypen. Das System würde also im Grunde sein Handlungsrepertoir nach­ einander ausprobieren. Ein Lernprozeß tritt nur nach dem Er­ folg einer dieser Versuche ein. Das spezifische dieser neuen Situation geht darüber hinaus in diesem Lernprozeß fast voll­ ständig verloren. Es ändert sich allenfalls geringfügig die Kohonenkarte. Das Netzwerk würde aus dem Erfolg sehr wenig lernen (die Stereotypen werden etwas erweitert oder vermin­ dert in der Kohonenkarte, während das Repertoire des Netz­ werkes praktisch unverändert bleibt) und könnte aus einem Mißerfolg überhaupt keine Schlußfolgerungen ziehen.
Ein Verfahren und eine Vorrichtung zum Steuern eines Roboters mit den Merkmalen aus den Oberbegriffen der Ansprüche 1 und 6 aus der Veröffentlichung "IEEE Transactions on Neural Networks," Bd. 4, Nr. 1, 1. Januar 1993, Seite 86 bis 95 "Implementation of Self- Organizing Neural Networks for Visuo-Motor Control of an Indu­ strial Robot" bekannt ist. Sie beschreibt im wesentlichen ein Kohonennetzwerk mit nichteuklidischer Metrik (Rangmetrik). Die Fehlerkorrektur erfolgt anhand der Videosignale problembezogen, d. h. die Videosignale wer­ den anhand des Formalismus der Jacobi-Matrizen, die das Steuerpro­ blem darstellen, interpretiert. Die kooperativen Fähigkeiten der Kohonenkarte werden lediglich zur Optimierung eines an sich prä­ zise formulierten Problems benutzt (im Grunde indirekte aber ex­ plizite Wertefunktion). Dagegen sind Organisation und Struktur der Erfindung von solcher formaler Problembestimmung unabhängig. Das System lernt nicht durch Fehlerbewertung (mit welcher impliziter Metrik auch immer) sondern durch Variation und Selektion seines Repertoirs.
Aus den Veröffentlichungen Hoffmann, Norbert: "Kleines Handbuch Neuronale Netze", Vieweg Verlag, Braunschweig, Wiesbaden 1993 Seite 105 bis 110, 154 bis 159 und Rojas, Raúl: "Theorie der neu­ ronalen Netze", Springer Verlag, Berlin 1993 Seiten 356 bis 375 ist die Verwendung von Kohonenschichten und Kombinationen von Netzen (hybride Modelle) auch zusammen mit Kohonenschichten für spezielle Aufgaben bekannt. Die erfindungsgemäße Kombination von Kohonenkarten und assoziativen neuronalen Netzen soll eine be­ stimmte Dynamik realisieren und die Statistik der ablaufenden Dynamik abbilden, was für die Auswahl, welche Muster variiert wer­ den, wesentlich ist (Stabilität). Hier ist die Rückkoppelung von B1, B2, (optional). SGNW auf KK2, KK1 und KK3 wesentlich (die je­ doch in den Beispielen - Counterpropagation (Hoffmann), linearer Assoziator usw. - nicht vorhanden ist). Die Approximation mathema­ tischer Funktionen und Transformationen (Invariante Mustererken­ nung, Normierung etc.) ist nicht beabsichtigt.
Des weiteren dient die Vorschaltung von Kohonenkarten der Minde­ rung des Nachteils gängiger assoziativer Speicher gegenüber etwa dem backpropagation - Netzen, die alle gewünschten Input/Output­ beziehungen annehmen können, was assoziative Speicher nur at least square - Approximation leisten können. Diese Begrenzung assoziati­ ver Speicher im allgemeinen und von Willshaw-Matricen im besonde­ ren wird durch die Wirkung der Kohonenkarten (deren Output besteht bis auf die spezifisch aktivierte "Zellgruppe" hauptsächlich aus Nullen) gemildert. Bei den ART Architekturen hat das Modell von Grossberg eine gewisse Ähnlichkeit mit dem System künstlicher neu­ ronaler Netze. Unterschiede liegen jedoch darin, daß keine Auf­ merksamkeits- und Resetsignale vorhanden sind, die Evaluierung ei­ nes Wertepaares im Netzwerksystem erfolgt demgemäß simultan und nicht sequentiell. B1 und B2 haben keine Entsprechung im ART- Modell. Das Suchkriterium ist nicht die Amplitude (Resonanz), son­ dern das dynamische Muster (Grenzzyklus, Chaos etc.).
Es ist Aufgabe der vorliegenden Erfindung, ein Verfahren so­ wie eine Vorrichtung der eingangs genannten Art zu schaffen, das bzw. die es dem Roboter innerhalb des real-time-Modus gestattet, zwischen einer bekannten und einer unbekannten Situation zu unterscheiden.
Die vorliegende Aufgabe wird verfahrensgemäß mit den Merkmalen des Anspruchs 1 gelöst. Durch die Verwendung des erfindungsgemäßen Systems weiterer künstlicher neuronaler Netze benötigt der Roboter nicht mehr eine umfangreiche Datenbank möglicher auftretender Situationen. Es genügt vielmehr, dem Roboter während einer Trainingsphase selektierte Wertepaare, also Paare von Vektoren, die aus durch die sensorische Einrichtung zu erfassenden Werten der Umwelt und den hierzu gehörenden Steuerbefehlen bestehen, aufzutrainieren. Ein derartiges Auftrainieren führt bei den eingesetzten künstlichen neuronalen Netzen, die im folgenden als Netzwerke bezeichnet werden, zur Ausbildung bestimmter Synapsenstärken. Wird während des Betriebs des Roboters durch das erfindungsgemäße System von weiteren künstlichen neuronalen Netzen (kurz im folgenden als Netzwerksystem bezeichnet) ein bekanntes Wertepaar aus von der sensorischen Einrichtung erfaßten Umweltwerten und von dem ersten künstlichen neuronalen Netz, das im folgenden als strategiegenerierendes Netzwerk bezeichnet wird, hierzu erzeugte Steuerbefehle erkannt, so kann dieses Wertepaar zum einen zu weiteren, bereits gelernten Wertepaaren führen, die dem Roboter dann gestatten, einen bereits ihm bekannten Pfad bzw. Lösungsweg zu beschreiten. Zum anderen wird dem Roboter die Möglichkeit eröffnet, Erfahrung zu sammeln in der Form, daß die Paare von Vektoren, also sogenannte Wertepaare, die vor dem Erkennen des durch das Netzwerksystem als bekannt eingestuften Wertepaares ebenfalls erfaßt worden sind, mit diesem bekannten Wertepaar abgespeichert werden. Da die Wertepaare Resultat von Handlungen des Roboters sind, können somit an sich unbekannte Wertepaare zu bekannten "gemacht" werden. Tritt in einer zukünftigen Situation dann wieder ein Wertepaar auf, das aus der Reihe der bereits abgespeicherten Wertepaare stammt, so besteht die Möglichkeit, die anderen hierzu gehörenden Wertepaare zu rekonstruieren bzw. die Erfahrung zu vergrößern.
Das vorgeschlagene Netzwerksystem wirkt praktisch als kognitives Interferrometer, das sehr sensibel zwischen gespeicher­ ten Wertepaaren (durch hohe Rückkopplung und die Trainings­ prozesse sind nur diese stabil) und neuen ungespeicherten Wertepaaren unterscheidet. Damit kann einmal Neues spezifisch angegangen werden (vorsichtiges Explorieren oder Ausweichen). Die Dynamik des Netzwerksystems wird ungefiltert an das stra­ tegiegenerierende Netzwerk weitergegeben und modifiziert des­ sen Verhalten in Form geänderter Steuerbefehle bedarfsge­ recht. Hierdurch ist es möglich, eine Stabilisierung des Ver­ haltens in einem erfolgreichen Zustand und eine Variation des Verhaltens in Form veränderter Steuerbefehle in einem Zustand zu erhalten, der keinen Erfolg verspricht. Die Verhaltensva­ riationen werden situationsspezifisch abgespeichert, wodurch eine Erweiterung und Differenzierung der Diskrimination von Situationen und des Verhaltensrepertoires erfolgt.
Das System kann damit zumindest indirekt aus "Fehlern" ler­ nen, wobei unter dem Begriff "Fehler" das Auftauchen neuer, nicht erwarteter Situationen verstanden wird, die eine Ver­ haltensmodifikation erfordern. Die Durchbrechung der Erwar­ tung und das Ausbleiben des Erfolgs werden explizit als in­ stabiler Zustand des Netzwerksystems erfaßt und dargestellt. Die Verhaltensweisen, die zur Korrektur der "Fehler" führen, werden einerseits durch Verhaltensvariationen erzeugt und an­ schließend selektiert sowie unter Berücksichtigung der Beson­ derheiten der Situation repräsentiert (= Training). Sollten Lernprozesse ausbleiben, verlernt das Netzwerksystem aber nicht, diesen Fehler unter gleichen Gegebenheiten anzuzeigen. Damit bemerkt das System "Fehler" (= unerwartet) und stellt sein Verhalten darauf ein.
Es ist zu bemerken, daß im Sinne der Erfindung unter der sen­ sorischen Einrichtung eine Vorrichtung zu verstehen ist, die aus ein oder mehreren Sensoren oder sensorähnlichen Baugrup­ pen bestehen kann. Die Sensoren können die unterschiedlich­ sten physikalischen Werte erfassen und ggf. diese noch in eine für die verwendeten Netzwerke geeignete Form transfor­ mieren. Des weiteren ist unter Handlungseinheiten jede Form einer Einrichtung zu verstehen, die dem Roboter eine Handlung ermöglicht, sei es, daß ein Betätigungsglied des Roboters in irgendeiner Form verfahren wird, sei es, daß die Empfindlich­ keit von seinen Sensoren verändert wird. Insbesondere können die Handlungseinheiten Kombinationen von Netzwerken, Reglern und/oder Servos sein, die zudem noch lokale sensorische In­ formation verarbeiten können. Hierdurch sind sie in der Lage, teilweise autonom die an sie gehenden Steuerbefehle aufgrund der lokal, in Ort und Zeit (bei zu langsamer Variation der Steuerbefehle) vorliegenden Informationen weiter zu differen­ zieren. Das strategiegenerierende Netzwerk wird so entlastet. Zwischen solcherart differenzierten Handlungseinheiten und der hierarchischen Organisation von Netzwerken besteht eine große Ähnlichkeit. Schließlich ist noch zu bemerken, daß un­ ter Steuerbefehlen jede Form von Befehl an eine derartige Handlungseinheit verstanden werden kann.
Weiterhin ist darauf hinzuweisen, daß der Trainingsvorgang für das strategiegenerierende Netzwerk und die Netzwerke des Netzwerksystems eine doppelte Schleife bilden. Das Training des Netzwerksytems beschreibt die innere Schleife. Jedes Wer­ tepaar aus sensorischen Werten und den dazugehörigen Steuer­ befehlen wird solange den Netzwerken des Netzwerksystems an­ geboten, bis die Adaption zu einem stabilen Ausgangwert aus den Netzwerken des Netzwerksystems führt. Nun setzt die äu­ ßere Schleife ein, in dem die den Netzwerken des Netzwerksy­ stems zugeführten Wertepaare über ggf. vorhandene Kohonenkar­ ten und die nun stabilen Ausgangswerte der Netzwerke des Netzwerksystems an das strategiegenerierende Netzwerk als zu lernende Vektorkombination zugeführt werden. Würden die bei­ den Schleifen des Trainingsprozesses zeitlich parallel lau­ fen, würde das strategiegenerierende Netzwerk alle "Wackler" aus dem Netzwerksystem, d. h. alle instabilen Zwischenprozesse des Trainings des Netzwerksystems, mitlernen.
Um bekannte Wertepaare von unbekannten Wertepaaren zu unter­ scheiden, ist erfindungsgemäß vorgesehen, daß die Ausgangs­ werte der Netzwerke des Netzwerksystems einem Dynamikanalysa­ tor zugeführt werden. Anhand der Stabilität der Ausgangswerte der Netzwerke des Netzwerksystems kann dann der Dynamikanaly­ sator erkennen, daß ein bekanntes Wertepaar den Netzwerken des Netzwerksystems zugeführt worden ist.
Das Ergebnis des Dynamikanalysators kann dem strategiegene­ rierenden Netzwerk neben den Ausgangswerten der Netzwerke des Netzwerksystems und den den Netzwerken des Netzwerksystems als Eingangswerte zugeführten Wertepaaren als weiterer Ein­ gangswert zugeführt werden. Hierbei kann zwischen go-, no-go- oder chaos-Zuständen unterschieden werden. Ein go-Zustand wird bei Stabilität der Ausgangswerte der Netzwerke des Netz­ werksystems erkannt. Mit anderen Worten bedeutet dies, daß ein bekanntes Wertepaar erfaßt worden ist. Der chaos-Zustand (vollkommene Instabilität) tritt ein, wenn ein unbekanntes Wertepaar von den Netzwerken des Netzwerksystems behandelt wird. Der no-go-Zustand liegt dynamisch zwischen dem chaos- und dem go-Zustand und ist durch die Ausbildung eines angenä­ herten Grenzzyklus der Ausgangswerte des Netzwerksystems ge­ kennzeichnet. Der no-go-Zustand signalisiert, daß der momen­ tane sensorische Wert zwar bekannt ist, aber nicht zu dem ak­ tivierten Steuerbefehl paßt. Es kann deshalb vorgesehen sein, daß no-go-Zustände des Dynamikanalysators durch Ignorieren oder Abwenden des Roboters von dieser Konfiguration der sen­ sorischen Werte beantwortet wird. Dadurch gerät der Roboter möglichst schnell wieder in den bekannten Bereich bereits ge­ speicherter Wertepaare. Der Übergang zwischen no-go- und chaos-Zuständen ist fließend, deshalb können neue Wertepaare ebenfalls teilweise ignoriert werden. Führt das Abwenden und/oder Ignorieren jedoch nicht in den bekannten Bereich zu­ rück, resultiert ein dauerhafter chaos-Zustand. Nun kann die im Netzwerksystem sich entfaltende Chaotik zunehmend das strategiegenerierende Netzwerk beeinflußen und damit völlig neue Aktionen im Sinne von neuen Steuerbefehlen generieren. Noch länger andauernde chaos- und/oder no-go-Zustände könnten auch durch explizite regressive Strategien beantwortet wer­ den. Beispielsweise etwa durch Zurückkehren zu dem Ausgangs­ punkt des Roboters oder zu demjenigen Punkt, an dem die letz­ ten bekannten Wertepaare erfaßt worden sind.
Da die von der sensorischen Einrichtung erfaßten Werte nicht nur Skalare sein können, sondern auch in Form von Vektoren mit einer Vielzahl von Komponenten auftreten können, werden zur Datenreduktion die von der sensorischen Einrichtung er­ faßten Werte und die ebenfalls in Form von Vektoren vorlie­ genden Steuerbefehle vor Zuführung zu den Netzwerken des Netzwerksystems und/oder vor Zuführung zu dem strategie­ generierenden Netzwerk Kohonenkarten zugeführt.
Zu der Trainingsphase ist im Zusammenhang mit dem Einsatz von Kohonenkarten noch zu bemerken, daß die Synapsen dieser Koho­ nenkarten während des Trainingsprozesses langsamer adaptieren sollen als die Synapsen der Netzwerke des Netzwerksystems so­ wie des strategiegenerierenden Netzwerkes, da diese zum Lern­ prozeß relativ stabile Eingangs- bzw. Ausgangsbeziehungen brauchen. Allerdings kann eine Adaptierung der Kohonenkarte den gesamten Prozeß erleichtern, insofern als die benutzten Netzwerke allein nicht alle Eingangs- bzw. Ausgangsbeziehun­ gen nachbilden können.
Des weiteren ist zu bemerken, daß es vorteilhaft ist, die ggf. vorhandenen Kohonenkarten sich fortlaufend oder zumin­ dest intermittierend synaptisch adaptieren zu lassen. Damit bilden die Kohonenkarten die Statistik der Steuerbefehle und der sensorischen Werte erfolgsunabhängig ab, um den Roboter "kognitiv" an das vorherrschende Terrain bzw. die gestellten Aufgaben anzupassen.
Die von der sensorischen Einrichtung erfaßten Werte sowie die dazugehörenden Steuerbefehle werden neben der Zuführung zu dem strategiegenerierenden Netzwerk und den Netzwerken des Netzwerksystems einem Kurzzeitgedächtnis zugeführt, wo sie abgelegt werden. Wird ein den Netzwerken des Netzwerksystems neu zugeführtes Wertepaar als bekanntes Wertepaar identifi­ ziert, so erfolgt eine Verknüpfung dieses als bekannt erkann­ ten Wertepaares mit den Wertepaaren einer zum Erfolg geführ­ ten Kette von Wertepaaren, wobei die Wertepaare, die vor dem gerade eben als bekannt erfaßten Wertepaar den Netzwerken des Netzwerksystems zugeführt worden sind, ebenfalls an der be­ reits bekannten Kette angeknüpft werden. Bei diesem solcher Art gesteuerten Lernprozeß werden fast ausschließlich neue Wertepaare an die in der anfänglich durchgeführten Trainings­ phase gespeicherten Wertepaare angehängt. Mit anderen Worten werden nur bereits angelegte Verhaltenselemente (die anfäng­ lich eintrainierten Wertepaare) verbessert und weiterentwic­ kelt. Besteht die Möglichkeit, durch externe Belohnung unab­ hängig von der Bekanntheit oder Neuheit von Wertepaaren einen dem oben beschriebenen gleichartigen Trainingsprozeß initiie­ ren zu können, kann man auch noch später gezielt in das Lern­ verhalten eingreifen. Die beobachterunabhängige Formulierung von Belehrungskriterien läuft auf das Training einer schon spezifizierten Untermenge von Wertepaaren hinaus. Diese Be­ lehrungskriterien wurden ja initial schon als Wertepaare ein­ gespeichert.
Es kann hierbei sinnvoll sein, alle möglicherweise eingesetz­ ten Kohonenkarten fortlaufend oder in regelmäßigen Abständen einem, wenn auch relativ wenig intensiven Trainingsprozeß un­ abhängig von den Erfolgskriterien zu unterwerfen. Die Stati­ stik von Umgebung und Handlung wird damit synaptisch abgebil­ det und damit der Roboter gezwungen, sich "kognitiv" auf seine Umgebung und Aufgaben einzustellen. Dadurch werden Lernprozesse beschleunigt. Umgekehrt sollten die Kohonenkar­ ten beim erfolgsinduzierten Training synaptisch relativ sta­ bil bleiben, da ihr Ausgang (= Output) ja den Eingang (= In­ put) für die nachgeschalteten Netzwerke darstellt, die in dieser Phase die Input/Output-Assoziation herstellen sollen. Eine gewisse Plastizität der Kohonenkarten erleichtert hier­ bei den Trainingsprozeß für das strategiegenerierende Netz­ werk und die Netzwerke des Netzwerksystems.
Wie bereits vorstehend darauf hingewiesen worden ist, werden in einer Trainingsphase dem strategiegenerierenden Netzwerk und den Netzwerken des Netzwerksystems ausgewählte Werte­ paare, die aus von der sensorischen Einrichtung möglicher­ weise zu erfassenden Werten und den dazugehörenden Steuerbe­ fehlen bestehen, zugeführt. Innerhalb dieser Trainingsphase bilden sich dann in den Netzwerken zugehörige Synapsenstärken aus.
Die vorstehende Aufgabe wird vorrichtungsgemäß mit den Merk­ malen des Anspruchs 6 gelöst. Diese vorrichtungsgemäße Lösung weist die gleichen Vorteile auf, wie sie im Zusammenhang mit dem erfindungsgemäßen Verfahren geschildert worden sind. Zum Aufbau des Netzwerksystems ist zu bemerken, daß die Ausgangs­ werte jedes einzelnen Netzwerkes des Netzwerksystems der zu dem jeweiligen Netzwerk gehörenden Kohonenkarte sowie der Ko­ honenkarte des benachbarten Netzwerkes zugeführt werden kön­ nen. Bei Verwendung mehrerer, parallel nebeneinander ange­ ordneter Netzwerke können die Ausgangswerte jedes Netzwerkes wiederum den Kohonenkarten der benachbarten bzw. der anderen Netzwerke zugeführt werden.
Der Dynamikanalysator führt dabei eine Fourieranalyse der Ausgangswerte der Netzwerke des Netzwerksystems und der zuge­ führten sensorischen Werte bzw. der Steuerbefehle mit an­ schließendem spektralen Vergleich durch. Sind die Spektren der zugeführten Werte gleich wird ein go-Zustand signa­ lisiert. Enthalten die Ausgangwerte der Netzwerke des Netz­ werksystems vorwiegend harmonische Obertöne des Spektrums der zugeführten sensorischen Werte bzw. der Steuerbefehle wird ein no-go-Zustand signalisiert. Sind die Spektren der Aus­ gangswerte der Netzwerke des Netzwerksystems und der sensori­ schen Werte bzw. der Steuerbefehle völlig ohne Gemeinsamkeit wird ein chaos-Zustand signalisiert.
Die Suche im Fourierraum ist durch die Abtastfrequenz und durch die Breite des betrachteten Intervalls bestimmt. Die Zuordnung der Zustände kann hierbei durch (beispielsweise vom strategiegenerierenden Netzwerk generierte) Variation der Zu­ weisung der relativen spektralen Amplituden zu den Zuständen optimiert werden. Da sowohl die Ausgangswerte des Netzwerksy­ stems als auch die Wertepaare mehrkomponentige Vektoren sind, müßten theoretisch alle ihre Vektorkomponenten einer Fourier­ analyse unterzogen werden. Welche Komponenten der Wertepaare mit welchen Komponenten der Ausgangswerte des Netzwerksystems in ihrer Dynamik verglichen werden, kann allerdings willkür­ lich sein. Beispielsweise könnte ein Netzwerk aufgrund belie­ biger noch anzugebener Kriterien (Korrelation von Wertepaar- Komponenten mit Komponenten der Ausgangswerte des Netzwerksy­ stems?) diese Zuordnung durchführen. Einfacher ist es, zumin­ dest alle Spektralamplituden wenigstens der Wertepaare (als relativ stabil vorausgesetzt) ggf. gewichtet und renormiert zu addieren. Für die Werte aus den Netzwerken des Netzwerksy­ stems kann ebenso verfahren werden. Es ist aber auch möglich, das Spektrum einer Komponente eines Ausgangswertes der Netz­ werke des Netzwerksystems mit dem zusammengefaßten Spektrum der Wertepaare zu vergleichen und komponentenweise den go, no-go- oder chaos-Zustand zu erheben. Zur Reduktion des Re­ chenaufwandes könnte man sowohl die Wertepaare als auch die Ausgangswerte der Netzwerke des Netzwerksystems in einen Un­ terraum projizieren, oder andere Verfahren der Dimensionsre­ duktion durchführen (extrem: Spur S1 * S2; Spur B1 * B2 usw.), und anschließend Fourieranalyse sowie Spektralvergleich durchführen. Wegen der unzähligen Möglichkeiten und des po­ tentiell großen Aufwands wird noch als Vorschlag eine primi­ tive Fourieranalyse vorgestellt.
Die Wertepaare und die Ausgangswerte der Netzwerke des Netz­ werksystems werden in getrennte Schieberegister eingelesen und auf Periodizität untersucht. Dies geht folgendermaßen. Ein Wertepaar oder ein Paar an Ausgangswerten wird mit einem zeitverschobenen Paar verglichen. Wenn die (euklidische-, Manhattan Distanz -Vektoren) Abweichung kleiner ist als die Schwelle s, gibt es einen Punkt.
Die Punktzahl ergibt sich über die doppelte Summation der Elemente i des Schieberegisters bis y und der Variation der Zeitverschiebungen n von 1 bis y/2.
p = Σi Σn fi(xr1) + fi(xr2),
wobei fi(xr) = 1 wenn /xi - xr/ <- s, sonst O.
r1 = n + i modulo y, r2 = 2n + i modulo y, i - 1 bis y; n - 1 bis y/2, xi = eingelesener Vektor in Position i des Schieberegi­ ster
Dieser Prozeß wird getrennt für die Wertepaare und die Aus­ gangswerte der Netzwerke des Netzwerksystems durchgeführt. Die Differenz der Punktzahlen der Wertepaare und der Aus­ gangswerte ist maximal = 0, wenn die Ausgangswerte des Netz­ werksystems so stabil wie die Wertepaare sind. Ansonsten wird die Differenz um so negativer, je chaotischer sich die Aus­ gangswerte gegenüber den Wertepaaren verhält. Die Ausbildung von harmonischen der Ausgangswerte des Netzwerksystems würde zu (negativen) Mittelwerten führen. An dieser Differenz kann die Klassifikation der Dynamik des Netzwerksystems erfolgen.
Das Kurzzeitgedächtnis ist vorzugsweise als Schieberegister ausgebildet, so daß die neu hinzugekommenden Wertepaare die zeitlich ältesten abgespeicherten Wertepaare aus dem Schiebe­ register entfernen.
Weiterhin ist zu bemerken, daß die Intensität des Trainings (= Lernzyklen) sich in Abhängigkeit des Verhältnisses bzw. der Differenz von Belohnung und aufgelaufenen Kosten, die ggf. Energiekosten sein können, gestalten kann. Damit werden nur Wertepaare mit positiver Energiebilanz trainiert bzw. ge­ lernt (= zusätzliches Selektionskriterium). Damit Wertepaare über das Fassungsvermögen des ggf. vorhandenen Kurzzeitge­ dächtnisses hinaus trainiert werden können, müssen bekannte und gespeicherte Wertepaare mit einem Belohnungswert assozi­ iert werden, der die Weiterverteilung der Belohnung an die anschließenden Kettenglieder ermöglicht. Hierzu gibt es meh­ rere Möglichkeiten. Beispielsweise wird von der "Belohnung", wie die zugeführte Energie usw., dem ersten Wertepaar dessen "Kosten", wie beispielsweise die zur Erreichung der momenta­ nen Situation aufgewandte Energie usw., abgezogen und das Re­ sultat als Belohnungswert zugewiesen und gespeichert (ggf. als zusätzliche Steuerbefehlskomponente, die nur zum Kurzzeitgedächtnis projeziert wird). Dem nächsten zu spei­ chernden Wertepaar wird dieser Werte als Bruttobelohnung zu­ gewiesen, wobei wiederum die jeweiligen Kosten abgezogen wer­ den usw.
Eine ähnliche Form läßt sich dadurch erreichen, daß Beloh­ nungsverteilung und Anlaufkosten über mehrere aufeinanderfol­ gende Wertepaare hinweg aufsummiert bzw. gesammelt werden und der resultiertende Durchschnittswert auf die Wertepaare ver­ teilt wird. Dieses Verfahren ergibt aber einen schlechten Gradienten, der allerdings durch die Überlagerung vieler Lernprozesse sich verbessert. Ein relativ hoher Gradient läßt sich dadurch herstellen, daß der Nettogewinn der im Kurzzeit­ gedächtnis gespeicherten Wertepaare mit einer entsprechenden Formel verteilt wird.
Des weiteren ist zu bemerken, daß direkt nach den Sensoren der sensorischen Einrichtung bzw. vor den ggf. vorhandenen Kohonenkarten des strategiegenerierenden Netzwerkes bzw. den Kohonenkarten des Netzwerksystems sowie dem Kurzzeitgedächt­ nis Bandpaßfilter angeordnet sein können.
Dabei werden die Bandpaßfilter verwendet, um die zeitlichen Komponenten von Signalen, auf die die nachgeschalteten Sy­ steme kaum oder nur schlecht reagieren, auszufiltern. Der Filter hat im wesentlichen zwei Parameter, die zentrale Fre­ quenz seines Durchlaßbereiches und die Bandbreite. Die Steue­ rung der Zentralfrequenz sowie die Bandbreite erfolgt durch den Dynamikanalysator. Die Bandbreite wird von der Netzwerk- Konfiguration, das die so gefilterten Werte erhält, während eines go-Zustandes erhöht, wogegen sie bei no-go- bzw. chaos- Zuständen verringert wird.
Ist die vorgeschlagene Erfindung Bestandteil eines größeren Netzwerksystems so kann es sinnvoll sein, zwischen den ein­ zelnen Hierachien dieses Großnetzwerksytems ebenfalls Band­ paßfilter einzusetzen. Der Ausgang nach oben, der meistens gleich dem Eingang von unten ist, soll ebenfalls gefiltert werden. Das übergeordnete Netzwerk braucht über das un­ tergeordnete nur wenig zu wissen, wenn der Betrieb ohne Stö­ rung verläuft. Erst wenn Probleme auftreten, sollte es mehr wissen. Der dazwischenliegende Bandpaßfilter sollte unter diesen Umständen geöffnet werden (= chaos-Zustand), ansonsten in seiner Bandbreite reduziert werden. In der Hierarchie wer­ den vor- und nachgeschaltete Bandpaßfilter unmittelbar ge­ koppelt und können bei entsprechender Konvergenz und Verrech­ nung der Steuerbefehle von unten und oben zusammengefaßt wer­ den. Dabei können die aus dem hierachisch höher angeordneten Netzwerk und zeitverzögerte Signale aus dem Kurzzeitgedächt­ nis der gleichen Hierachie ebenfalls über einen Bandpaßfilter laufen.
Weiterhin ist zu bemerken, daß zeitverzögerte Wertepaare aus dem Kurzzeitgedächtnis dem strategiegenerierenden Netzwerk und der Kohonenkarte des Netzwerkes des Netzwerksystems, das die Steuerbefehle empfängt, angeboten bzw. zugeführt werden. Hieraus ergibt sich der Vorteil, daß die Netzwerke zeitlich­ kausale Beziehungen zwischen den Wertepaaren entdecken und speichern können. Die Kompetenz des Systems entlang der Zeit­ achse steigt. So können nun zeitversetzte Signale abwesende sensorische Werte partiell ersetzen und so die Abhängigkeit des Sytems und dessen Strategien von den momentanen sensori­ schen Werten reduzieren, wodurch das Verhalten stabilisiert werden kann. Das Netzwerksystem kann nun Wertepaare in Bezie­ hung zu ganzen Netzwertepaarketten setzen. Eine zeitverzö­ gerte Rückführung wäre auch für das Netzwerksystem geeignet, um ganze Ketten zu lernen und damit solche des strategiegene­ rierenden Netzwerkes zu modulieren. Es ist sinnvoll die Rück­ führung zeitverzögerter Wertepaare von der Situation - insbe­ sondere go-, no-go-, chaos-Zustand - abhängig zu machen. Bei länger bestehenden chaos-Zustand sollte die Rückführung redu­ ziert werden (durch Reduktion von Bandbreite, Zeitverzögerung (falls mehrere berücksichtigt werden), Anzahl der Komponenten usw.) dadurch kommt es zur Konzentration auf das hier und jetzt.
Werden durch no-go-Zustände vorwiegend Vermeidungsreaktionen (Abwenden, Ignorieren), die oft am schnellsten in den go-Zu­ stand zurückführen, ausgelöst, setzt sich der Roboter nicht genug mit Neuem auseinander. Diskriminationsvermögen und Ver­ haltensrepertoire stagnieren. Um dies zu vermeiden, muß man ausreichend lange chaos-Zustände erzwingen. Dies wird durch ein übergeordnetes Rechenwerk bzw. einen Computer erreicht. On-line Explorationsphase: Treten innerhalb eines typischen Zeitraums nicht genug chaos-Zustände auf (Summation über "leaky integrator") induziert das Rechenwerk den chaos-Zu­ stand, indem die für eine Aufgabenstellung spezifischen Kom­ ponenten (aufgrund der initialen "Programmierung" bekannt) eines Aufgabenvektors (es können mehrere mehrkomponentige Aufgabenvektoren vorliegen, die sowohl Komponenten enthalten, die allen oder einigen Aufgabenvektoren gemeinsam sind, als auch Komponenten, die nur in einem Aufgabenvektor enthalten sind) durch stoachastische Variablen ersetzt werden. Durch diese neuen stochastischen Variablen werden neue Wertepaare erzeugt, die ausschließlich im Netzwerksystem gespeichert werden. Dadurch kommt es u. a. zu geringfügigen Modifikationen der Kohonenkarten der Netzwerke des Netzwerksystems. In er­ ster Linie werden die Wertepaare aber den ähnlichsten bereits gespeicherten Mustern, gemäß der Variation der spezifischen Komponente des Aufgabenvektors im Grunde zufällig, zugeord­ net.
Sollten Energiemangel, akute Bedrohungen oder Anforderungen, Erschöpfung der Speicherkapazität des Netzwerksystems auftre­ ten, wird die Explorationsphase ebenso abgebrochen wie bei erfüllter chaos-Zustands-Quote. Ansonsten auftretende Gefah­ ren bei der Exploration werden so vermieden.
Off-line Wissentransfer Phase: Diese wird vom Rechenwerk bei erfülltem chaos-Zustandskontingent und bei erschöpfter Spei­ cherkapazität des Netzwerksystems ausgelöst, indem die Hand­ lungseinheiten und sensorischen Einrichtungen sowohl von dem Netzwerksystem als auch dem strategiegenerierenden Netzwerk­ system abgekoppelt werden. Die sensorischen Daten der senso­ rischen Einrichtigung werden durch stochastische Variablen ersetzt. Die auf Grund dieser stochastischen Variablen er­ zeugten Steuerbefehle des strategiegenerierenden Netzwerksy­ stems werden dem Netzwerksystem als weitere Eingangsdaten zu­ geführt. Aus der Sicht des strategiegenerierenden Netzwerkes ersetzen diese Variablen und das im Netzwerksystem gespei­ cherte Wissen die physische Interaktion mit der Umwelt. Die stochastischen Variablen sorgen dafür, daß möglichst viele Wertepaare durchgespielt werden. Durch diese Interaktion des Netzwerksystems (indem auch die Variablen gespeichert sind) mit dem strategiegenerierenden Netzwerk wird indirekt Wissen aus der Explorationsphase nun gemäß der Ähnlichkeit der die sensorischen Daten ersetzenden stochastischen Variablen mit den von dem strategiegenerierenden Netzwerk auf Grund dieser stochastischen Variablen erzeugten Steuerbefehlen zu bereits im strategiegenerierenden Netzwerk gespeicherten Wertepaaren ins strategiegenerierende Netzwerk übertragen. Der springende Punkt bei diesem Prozeß ist, daß in dem Netzwerksystem nicht vollständig die gleichen Muster wie im strategiegenerierendem Netzwerk gespeichert sind. Wäre dies der Fall, würden beide Strukturen synchron agieren und sich gegenseitig stabilisieren. Dieses Gleichgewicht zwischen Netzwerksystem und strategiegenerierenden Netzwerk wird durch stochastische Variablen immer wieder (kurzfristig) gestört, wenn sie von dem Netzwerksystem als ein aus der Explorationsphase stammendes Wertepaar interpretiert werden.
Werden in dem Netzwerksystem durch Steuerbefehle und stocha­ stische Variablen Wertepaare aus der Explorationsphase ent­ sprechende Muster (nur dieser Fall wird im weiteren disku­ tiert) aktiviert, passiert folgendes. Die resultierenden Aus­ gangssignale aus den Netzwerken des Netzwerksystems und des Dynamikanalysators sind dem strategiegenerierenden Netzwerk im allgemeinen unbekannt und destabilisieren dessen Dynamik, insbesondere die resultierenden Steuerbefehle. Das strategie­ generierende Netzwerk wird so gewissermaßen von dem Netzwerk­ system dominiert, das nur einem instabilen selektierenden Steuerbefehl unterliegt, bis ein dem strategiegenerierenden Netzwerk bekannter, aufgabenspezifischer Ausgang des Netz­ werksystems an dem strategiegenerienden Netzwerk anliegt und zusammen mit Steuerbefehl und stochastischen Variablen dessen Dynamik stabilisiert. (Ausgabe eines stabilen Steuerbefehls mit entsprechender Selektionswirkung). Innerhalb der klassi­ fikatorischen Diskriminationsfähigkeiten des strategiegene­ rierenden Netzwerkes und dem Netzwerksystem wird so die Dyna­ mik einer Teilmenge von Wertepaaren aus der Explorationsphase nun auch vom strategiegenerierenden Netzwerk nachvollzogen. Hierbei wählt gemäß "best fit"-Kriterium der Steuerbefehl un­ ter den in der einem Netzwerk des Netzwerksystems vorgeschal­ teten Kohonenkarte repräsentierten Steuerbefehlen aus der Ex­ plorationsphase und die stochastische Variable unter den in der anderen Kohonenkarte repräsentierten sensorischen Muster aus der Explorationsphase aus. Die gleichzeitig an den Ein- und Ausgängen des strategiegenerierenden Netzwerkes anliegen­ den Ausgänge des Netzwerksystems, der stochastischen Vari­ ablen und den Steuerbefehlen stellen die Rekonstruktion der Wertepaare aus der Explorationsphase dar. Die Reaktion des strategiegenerierenden Netzwerkes erfolgt natürlich ebenfalls gemäß "best fit"-Kriterium. Die aus dieser Interaktion resul­ tierenden Wertepaare und Ausgänge des Netzwerksytems sollen nun in dem strategiegenerierenden Netzwerk und dem Netzwerk­ system gespeichert werden. Die off-line-Phase wird bei akuter Gefährdung oder Aufgabenstellung ebenso abgebrochen wie nach dem Ablauf der für diesen Prozeß eingeräumten Zeitspanne, die proportional der aufgelaufenen chaos-Zustände mit dem Explo­ rationszeitraum vergleichbar ist.
Erreicht wird hierdurch, daß eine Teilmenge der aus der Ex­ plorationsphase stammenden Wertepaare gemäß des "best fit"- Kriteriums ins strategiegenerierende Netzwerk übertragen wird. Es findet also ein crossing-over von explorativen Er­ fahrungen in aufgabespezifische Wertepaaren statt. Das neue Repertoire wird während aufgabenspezifischem Verhalten in üb­ licher Weise selektioniert.
Im allgemeinen wird während der off-line-Phase nur eine Teil­ menge der aus der Explorationsphase stammenden Wertepaare und der aufgabenspezifischen Wertepaare reproduziert. Die übrigen Wertepaare könnten einem beschleunigtem "Vergessensprozeß" unterliegen. Dadurch wird Platz für neue Wertepaare geschaf­ fen und die durchgespielten Werte gewinnen eine höhere Prio­ rität. Man kann diesen Prozeß der Straffung unterstützen, in­ dem während der off-line-Phase auftretende Wiederholungen in­ nerhalb der Reichweite des Kurzzeitgedächtnisses mitsamt den dazwischen liegenden Wertepaaren vom anschließenden Trai­ ningsprozeß ausgeschlossen werden. Weiteres Ausschlußkriterium wäre z. B. zu starke Instabilität der Muster. Der hier beschriebene Prozeß - insbesondere die off- line-Phase - kann in einem System bestehend aus strategiegenerierende Netzwerke und Netzwerksysteme beinhaltenden Modulen autonom ablaufen, während andere Module Basisinteraktionen mit der Umwelt aufrecht erhalten können.
Um die Begrenzungen der vorhandenen Neurochips zu überwinden, können mehrere Neurochips in paralleler, hierarchischer oder gemischt parallel/hierarchischer ("fraktaler") Anordnung kom­ biniert werden. Die Dimensionalität der Verbindungen zwischen den Netzwerken bzw. den so entstandenen Modulen solcher An­ ordnungen ist dabei immer niedriger als innerhalb der Netz­ werke selbst. Diese geringere Dimensionalität kann für höhere Stabilität und gezieltere sowie schnellere Optimierung ge­ nutzt werden. Es muß aber berücksichtigt werden, daß nicht zu viel Flexibilität verloren geht. Um die vermehrte Anzahl an Modulen und Netzwerken gut zu nutzen, ist es vorteilhaft, daß jedes Modul schwerpunktmäßig einen anderen Bereich der Koor­ dination von sensorisch erfaßten Werten und ausgegebenen Steuerbefehlen kontrolliert. Es wird ein topographisches Sy­ stem eingeführt. Dies bedeutet, daß die Steuerbefehle eines Moduls dorthin zurück gehen, wo die sensorische Information herstammt bzw. wo eine maximale Korrelation besteht, falls dies nicht auslegungsmäßig klar sein sollte.
Das topographische Prinzip wird auch innerhalb von Hierar­ chien von Netzwerken durchgehalten; der Feedback bzw. die Steuerbefehle gehen dorthin, wo die Information herkommt. Da­ bei können auch Hierarchiestufen übersprungen werden, die Bindung an den entsprechenden Abschnitt der Koordination von sensorisch erfaßten Werten und ausgegebenen Steuerbefehlen bleibt aber erhalten.
Der Begriff "hierarchisch" definiert sich hierbei über die Beziehung der Signale zu den Kohonenkarten eines strategiege­ nerierende Netzwerkes. Ein Signal von "unten" passiert analog der sensorischen Information eine solche Kohonenkarten, Si­ gnale von "oben" gehen direkt an das strategiegenerierende Netzwerk. Die Verschaltung des zugehörigen Netzwerksystems hat damit primär nichts zu tun. Als Standard weisen die Netz­ werksysteme der verschiedenen strategiegenerierende Netzwerke keine Verbindungen untereinander auf. Als Option wäre es mög­ lich, unter den Netzwerksystemen genau zu den verbundenen strategiegenerierende Netzwerke analoge Verbindungen aufzu­ bauen (sh. auch Fig. 2).
Gemischt parallel hierarchisch heißt, daß zwischen den Netz­ werken u. a. auch hierarchische Beziehungen bestehen aber gleichzeitig diese Netzwerke (auszugsweise) direkten Zugang zur gleichen "sensorischen" Information haben und gemeinsam Steuerbefehle an die gleiche Substruktur richten.
"Fraktale" Organisation heißt, daß innerhalb eines Gefüges von strategiegenerierende Netzwerken jedes einzelne durch eine dem Gefüge analoge Kombination von Netzwerken ersetzt werden kann.
Besonders vorteilhaft ist in diesem Zusammenhang der Einsatz einer gemischt parallel/hierarchisch/fraktalen Anordnung mit erfolgsbelohnten Lernprozesse und bedarfsabhängigen Ersetzen bei häufigen chaos-Zuständen des betreffenden Netzwerks bzw. Netzwerksystems durch eine gemischt hierarchisches Vierer­ pack.
Steuert ein paralleles oder hierarchisches System aus strate­ giegenerierende Netzwerk-Modulen z. B. ein Ensemble von Schrittmotoren eines mehrgelenkigen Arms, ist es unvermeid­ bar, daß die Steuerbefehle an einen Schrittmotor auch Folgen für die übrigen Gelenke haben, speziell für die Position des Endglieds. Insbesondere bei einer topographischen Aufteilung der Arbeit auf verschiedenen Netzwerke muß sich z. B. ein Netzwerk b mit den Folgen der Steuerbefehle eines Netzwerks a befassen, obwohl die eigentliche Ursache bei Netzwerk a liegt. Deshalb kann Netzwerk b diese Folgen nur in Grenzen kompensieren. Damit die Stabilität gewährleistet wird, muß Netzwerk a auch über die unerwünschten Nebeneffekte seiner Steuerbefehle informiert werden. Wegen der reduzierten Dimen­ sionalität der Kommunikation zwischen den Netzwerken a und b (evtl. ist noch ein Netzwerk c oder mehr dazwischengeschal­ tet) dauert dies zur Aufrechterhaltung der Steuerstabilität zu lange. Man braucht also ein System, das diese unerwünsch­ ten Koppelungen der Steuersätze mit ihren dynamischen Folgen kompensiert ("Kleinhirn").
Das System muß die mangelnde Konnektivität zwischen Netzwerk a und b sowie deren unter Umständen zu große Zeitkonstante kompensieren. Damit das System nicht unnötige Arbeit leistet, ist es sinnvoll, das System vom Zeitverhalten so auszulegen, daß es nur die schnellen Korrekturen ausführt, die das zusam­ mengesetzte Netzwerk nicht beherrscht. Auf der anderen Seite begrenzt die Trägheit der Stellglieder die obere Grenzfre­ quenz von dem System. Es hat wenig Sinn die Generierung der Steuerbefehle schneller zu machen, als die Stellglieder fol­ gen können. Die Signalverarbeitung erfolgt also in einem re­ lativ engen Zeitbereich (= Bandpaßfilter). Alle Ein- und Ausgangssignale des Sytems sind dementsprechend bandpassge­ filtert. Das System selbst besteht aus einem (hochdimensionalen) closed-loop-Regler und einem Feedforward- Netzwerk, das die Korrekturbefehle aus dem Regler (Steuerbefehl aus dem strategiegenerierenden Netzwerk minus den tatsächlichen Positionen der Stellglieder (alle Größen bandpassgefiltert) mit den (unter Umständen zeitverzögerten) Steuerbefehlen aus dem strategiegenerierenden Netzwerk asso­ ziiert, um in Zukunft diesen errechneten Korrekturbefehl bei Anliegen des Steuerbefehls am Feedforward-Netzwerk antezipie­ rend direkt an die Stellglieder zu geben. Das Feedforward- Netzwerk ersetzt durch Lernen zunehmend den im nachhinein, wenn auch schnell operierenden Regler.
Es werden Trainings- und Arbeitsphase unterschieden. In der Trainingsphase werden die bandpaßgefilterten Steuerbefehl aus dem strategiegenerierenden Netzwerk etwas zeitverzögert ange­ boten, damit die gelernten Korrekturen an die Stellglieder gegeben werden, bevor der Fehler im Regler detektiert und von dort korrigiert wird. Das im Feedforward-Netzwerk gespei­ cherte Wertepaar besteht aus dem behandelten Steuerbefehl-Si­ gnal und der Korrektur aus dem Regler.
In der Arbeitsphase löst ein Steuerbefehl gemäß der beim Training benutzten Zeitverzögerung den Korrekturbefehl aus, bevor der Fehler manifest wird.
An der Peripherie werden die Steuerbefehle aus dem zusammen­ gesetzten Netzwerk und bandpaßgefilterten Korrekturbefehle von Feedforward-Netzwerk und Regler entsprechend verrechnet, z. B. komponentengerecht, d. h. unter Berücksichtigung des to­ pographischen Prinzips superponiert (addiert und ggf. renor­ miert). Die Korrekturberichte aus dem Regler können ggf. nach Integration und Verstärkung mit einer für das strategiegene­ rierende Netzwerk handhabbaren Zeitkonstante an das strate­ giegenerierende Netzwerk zurückgemeldet werden. Das strate­ giegenerierende Netzwerk würde so soviel wie möglich dieser Korrekturbefehle lernen und damit das Feedforward-Netzwerk entlasten. Eine Trainingsphase empfiehlt sich, wenn das stra­ tegiegenerierende Netzwerk selbst neue Steuerbefehle lernt. Allerdings geht dies off-line nur, wenn ein entsprechendes Kurzzeitgedächtnis für die notwendigen Korrekturen vorhanden ist. Ansonsten muß mehr oder weniger unter on-line Bedingun­ gen trainiert werden (zusätzliches Bewegungstraining).
Ein Ausführungsbeispiel sowie weitere Vorteile werden nach­ stehend anhand der Fig. 1 bis 4 erläutert. Es zeigt:
Fig. 1-4 jeweils ein 1. bis 4. Ausführungsbeispiel der Er­ findung.
In den Zeichnungsfiguren kennzeichnen die punktiert darge­ stellten Linien optionale Verbindungen. Darüber hinaus kenn­ zeichnet der Buchstabe "a" eine abgeleitete Größe oder einen zeitverzögerten Wert aus einem Kurzzeitgedächtnis. Die Buch­ stabenfolgen "S1g" und "S2g" kennzeichnen zwischen­ gespeicherte Werte, die in einer Starttrainingsphase oder in einer während des Betriebes stattfindenden Trainingsphase die aus der Umwelt durch die sensorische Einrichtung aufgenomme­ nen Werte und die dazugehörenden Steuerbefehle ersetzen. Dies wird auch durch die die Verbindungsleitung umschlingenden Kreise gekennzeichnet.
Von einer aus einem oder mehreren Sensoren bestehenden senso­ rischen Einrichtung SE werden die erfaßten Werte S2, die zu einem oder mehreren Vektoren mit mehreren Komponenten zusammengefaßt worden sind, einem strategiegenerierenden Netzwerk SGNW und einem Netzwerk B2 mit einer vorgeschalteten Kohonenkarte KK2 eines Netzwerksystems zugeführt. Ebenso wer­ den die von dem strategiegenerierenden Netzwerk SGNW aufgrund der Vektoren S2 erzeugten Vektoren S1, die Steuerbefehle für Handlungseinheiten HE darstellen, neben ihrer Zuführung zu den Handlungseinheiten HE einem Netzwerk B1 mit einer vorge­ schalteten Kohonenkarte KK1 des Netzwerksystems zugeführt. Sowohl die Steuerbefehle S1 als auch die sensorischen Werte S2 werden vor Zuführung zu den jeweiligen Netzwerken B1, B2 über die Kohonenkarten KK1, KK2 geführt. Die Netzwerke B1, B2 besitzen an ihren Ausgangsseiten jeweils Verbindungen zu ih­ ren eigenen Kohonenkarten KK1 bzw. KK2, als auch eine Verbin­ dung zu der Kohonenkarte KK1, KK2 des anderen Netzwerkes B1, B2. Die Ausgangswerte der Netzwerke B1, B2 werden ebenfalls einem Dynamikanalysator DAN zugeführt, der zwischen stabilen und unstabilen Ausgangswerten unterscheidet. Schließlich wer­ den die Ausgangswerte der Netzwerke B1, B2 des Netzwerksy­ stems dem strategiegenerierenden Netzwerk zugeführt. Als weitere Eingangsinformation er­ hält das strategiegenerierende Netzwerk SGNW das Ergebnis des Dynamikanalysators DAN, der zwischen go-Zuständen, no-go-Zu­ ständen und chaos-Zuständen unterscheidet. In Abhängigkeit seiner Eingangswerte erzeugt das strategiegenerierende Netz­ werk wiederum Steuerbefehle S1, die den Handlungseinheiten HE als auch dem zugehörigen Netzwerk B1 des Netzwerksystems zugeführt werden. Infolge der Steuerbefehle S1 werden von den sensorischen Einrichtungen SE Vektoren S2 erfaßt, die dem zugehörige Netzwerk B2 zugeführt werden. Gleichfalls werden die Steuerbefehle S1 als auch die sensorischen Werte S2 einer dem strategiegenerierenden Netzwerk SGNW vorgeschalteten Kohonenkarte KK3 zugeführt. Schließlich werden die von der sensorischen Einrichtung SE erfaßten Sensorwerte S2 als auch die Steuerbefehle S1 einem Kurzzeitgedächtnis KZG zugeführt, welches diese Wertepaare abspeichert.
Das erfindungsgemäße Verfahren zerfällt in zwei Handlungsbe­ standteile. In einer Trainingsphase werden ausgesuchte Werte­ paare S1g/S2g als xn-Werte (n = 1, ..., i) den Kohonenkarten KK1, KK2 der Netzwerke B1, B2 des Netzwerksystems zugeführt. Ebenso werden diese Werte dem strategiegenerierenden Netzwerk SGNW zugeführt. Im Laufe dieses Trainings bilden sich dann in den zugehörigen Netzwerken SGNW, B1, B2 bestehende Synapsen­ stärken aus. Hierbei können die dem strategiegenerierenden Netzwerk zugeführten Werte (x0) die Ausgangswerte des Dynami­ kanalysators und der Netzwerke B1, B2 des Netzwerksystems er­ setzen und deren Zuführung erst dann erfolgen, wenn der Dyna­ mikanalysator DAN Stabilität im Training zeigt. Nach Abschluß der Trainingsphase wird der Roboter in Gang gesetzt mittels eines ersten Steuerbefehles S1. Infolge dieses Steuerbefehles S1 erzeugen die Handlungseinheiten HE eine Handlung, die zu einer Veränderung der sensorischen Werte S2 führen, die dem strategiegenerierenden Netzwerk SGNW über die Kohonenkarte KK3 als auch dem Netzwerk B2 über die Kohonenkarte KK2 des Netzwerksystems sowie dem Kurzzeitgedächtnis MG zugeführt werden. Infolge der von der sensorischen Einrichtung SE er­ faßten Werte S2 gibt das strategiegenerierende Netzwerk SGNW Steuerbefehle S1 aus, die sowohl den Handlungseinheiten HE, dem Netzwerk B1 des Netzwerksystems über die Kohonenkarte KK1 als auch dem Kurzzeitgedächtnis MG und dem strategiegenerie­ renden Netzwerk SGNW selbst zugeführt werden. Die Ausgangs­ werte der Netzwerke B1, B2 werden sowohl ihren jeweiligen zu­ geordneten Kohonenkarten KK1, KK2 als auch der Kohonenkarte KK2, KK1 des benachbarten Netzwerkes B2, B1 zugeführt. Des weiteren werden die Ausgangswerte der Netzwerke B1, B2 dem Dynamikanalysator DAN und dem strategiegenerierenden Netzwerk SGNW zugeführt. Der Dynamikanalysator DAN unterscheidet auf­ grund der Stabilität bzw. Unstabilität der Ausgangswerte der Netzwerke B1, B2 in go-, no-go- oder chaos-Zustände. Diese Zustände werden dem strategiegenerierenden Netzwerk SGNW wie­ derum mitgeteilt, das aufgrund seiner weiteren Eingangswerte neue Steuerbefehle S1 erzeugt, die wiederum zu veränderten Steuerbefehlen S2 der sensorischen Einrichtungen SE führen. Nach Erreichen eines stabilen Zustandes der Ausgangswerte der Netzwerke B1, B2 wird das zugehörige Wertepaar S1, S2 zusam­ men mit den zeitlich vor diesem Wertepaar S1/S2 erfaßten und im Kurzzeitgedächtnis abgespeicherten Wertepaare den Netz­ werken SGNW, B1, B2 auftrainiert. Somit wird die "positive" Erfahrung des Roboters sofort umgesetzt, so daß bei Auftreten eines Wertepaares S1/S2, das zwar in der vorbeschriebenen Si­ tuation zu keinem stabilien Ausgangswert aus dem Netzwerksy­ stem geführt hat, jedoch zeitlich vor und in Verbindung mit einem als bekannt eingestuften Wertepaar S1/S2 steht, die si­ tuation als bekannt eingeschätzt wird.
In der Fig. 2 wird ein Ausführungsbeispiel der Erfindung wiedergegeben, bei dem ein Netzwerksystem durch ein gemischt hierarchisches "Viererpack"-Netzwerksystem ersetzt ist. Das Netzwerk nw, welches ein strategiegenerierendes Netzwerk so­ wie ein Netzwerksystem umfaßt, wird durch ein Ensemble von vier gleichartig wie das Netzwerk nw aufgebauten Netzwerken a0, n1, n2, n3 ersetzt, wobei a0 dem alten Netzwerk nw ent­ spricht und n1, n2, n3 neue Netzwerke sind. n2 wird im näch­ sten Schritt durch den Viererpack der nächsten Generation er­ setzt. Die neuen Netzwerke n1, n2, n3 liegen im Bypass zum alten Netzwerk a0 (nw) und können so sukzessive von a0 ler­ nen, bis unter Kontrolle von a0 deren Ausgang zunehmend be­ rücksichtigt wird. Dabei übernimmt das alte Netzwerk a0 das Managament von Eingangs- und Ausgangswerten aller Netzwerke n1, n2, n3 (des Viererpacks) inklusive ihrer Gewichtungen. Diese Gewichtungen sind vor allen Dingen für den zurückge­ führten Ausgang der vier Netzwerke von Bedeutung, die nun alle auf das normale Feedbackformat (identisch mit Format des ursprünglichen Steuerbefehls) reduziert werden.
Dies kann beispielsweise durch gewichtete Superposition bei Erhaltung der Topographie erfolgen, wie dies nachstehend im Zusammenhang mit der Fig. 3 erläutert wird. Als Resultat wird aber das Repertoire des Feedback-Outputs und damit der Steuersatz für untergeordnete Strukturen selbst ohne flexible Gewichtung mindestens verdreifacht. Für die Feedforward-Pro­ jektion FF zu einem übergeordneten, nicht dargestellten Netz­ werk ist es nicht nötig, die Ausgänge der vier Netzwerke a, n1, n2, n3 auf Feedbackformat FB zu reduzieren, da auf der Kohonenkarte dieses übergeordneten Netzwerkes genügend Platz ist, um den aus den Ausgängen a, n1, n2, n3 bestehenden zu­ sammengesetzten Feedforward Vektor aufzunehmen.
Weiterhin können in diesem Zusammenhang Karten als Sonderfall einer parallelen Erweiterung angesehen werden, vor allem für topographisch analog angeordnete Ensembles gleichartiger Sub­ systeme.
Bei der in Fig. 3 dargestellten Ausführungsform handelt es sich um eine Vertiefung der in Fig. 2 beschriebenen Ausfüh­ rung, wobei insbesondere die innere Kommunikation der Netz­ werke und die Organisation der Ein- und Ausgänge eines Viererpacks beschrieben werden. S2 ist die topographisch ge­ ordnete Information von der sensorischen Einrichtung SE. Der Output der Netzwerke a und n1 weist schon die richtige Topo­ graphie auf und kann direkt superponiert werden, um den Steu­ erbefehl S1 zu den Handlungseinheiten HE und untergeordneten Netzwerken zu bilden. Die jeweils benachbarten Ausgangskompo­ nenten der Netzwerke n2 und n3 werden zu einem Wert zusammen­ gefaßt, um das topographisch richtige Format zu bilden, das mit den Ausgängen der Netzwerke a und n1 zum Steuerbefehl S1 (= FB) superponiert werden kann. Die Erhaltung der Topogra­ phie ist durch die Symmetrie der Zuordnung der Netzwerke zu S2 und S1 angedeutet. Für die Feedforward Projektion FF zu einem übergeordneten Netzwerk ist es nicht nötig, die Aus­ gänge der 4 Netzwerke a, n1, n2, n3 auf Feedbackformat FB zu reduzieren, da auf der Kohonenkarte dieses Netzwerkes genü­ gend Platz ist um den aus den Ausgängen der Netzwerke a, n1, n2, n3 bestehenden zusammengesetzten Feedforward Vektor auf­ zunehmen.
Fig. 4 beschreibt folgende Ausführungsform: Das zusammenge­ setzte Netzwerk besteht aus den Modulen, die aus strategiege­ nerierenden Netzwerken SGNW und Netzwerksystemen bestehen. Deren Ausgänge S1 gehen an die Handlungseinheiten HE und an PK. PK besteht aus Bandpassfiltern BPF, einem Regler (zwischen den BPF) und einem Feedforward Netzwerk. Im Signal­ weg liegen noch ein Integrator I mit der Zeitkonstanten des zusammengesetzten Netzwerks und ein Delay D, das während des Trainingsprozesses aktiv, ansonsten überbrückt ist. Die Fol­ gen der Steuersätze S1 und deren Korrekturen K und K' aus PK, die gemeinsam die Handlungseinheiten HE steuern, werden von der sensorischen Einrichtung SE erfaßt und an das zusammenge­ setzte Netzwerk und PK (BPF) weitergegeben.

Claims (16)

1. Verfahren zum Steuern eines autonom explorierenden Roboters, wobei von einer sensorischen Einrichtung (SE) erfaßte Werte einem ersten künstlichen neuronalen Netz (SGNW) als Eingangsvektor (S2) zugeführt werden, und Handlungseinheiten (HE) die von dem ersten künstlichen neuronalen Netz (SGNW) erzeugten Steuerbefehle als Ausgangsvektor (S1) empfangen, dadurch gekennzeichnet, daß die Eingangsvektoren (S2) und die Ausgangsvektoren (S1) mehreren weiteren künstlichen neuronalen Netzen (B1, B2) über Kohonenkarten (KK1, KK2) zugeführt werden, wobei Ausgangswerte der weiteren künstlichen neuronalen Netze (B1, B2) wenigstens der Kohonenkarte (KK1, KK2) des anderen weiteren künstlichen neuronalen Netzes (B2, B1) zugeführt werden, und die Ausgangswerte einem ihnen nachgeschalteten Dynamikanalysator (DAN) zuführbar sind, der anhand der Stabilität der Ausgangswerte ein Paar von Eingangs-/Ausgangsvektoren (S2/S1) als bekannt bzw. unbekannt unterscheidet, und die Ausgangswerte und/oder das Ergebnis des Dynamikanalysators (DAN) dem ersten künstlichen neuronalen Netz (SGNW) zugeführt werden; und daß während einer Trainingsphase den künstlichen neuronalen Netzen (SGNW, B1, B2) ausgewählte Paare von Eingangs- /Ausgangsvektoren (S2/S1) auftrainiert werden.
2. Verfahren nach Anspruch 1 dadurch gekennzeichnet, daß als unbekannt klassifizierte Vektorpaare (S1/S2) mit einem bereits bekannten Vektorpaar, das Bestandteil einer zum Erfolg führenden Kette von Vektorpaaren (S1/S2) ist, verknüpft werden, wenn sie diesen zeitlich unmittelbar vorangehen, indem die bislang unbekannten, in einem Kurzzeitgedächtnis (KZG) zwischengespeicherten, Vektorpaare den künstlichen neuronalen Netzen (SGNW, B1, B2) auftrainiert werden.
3. Verfahren nach Anspruch 1 dadurch gekennzeichnet, daß das Ergebnis des Dynamikanalysators (DAN) dem ersten künstlichen neuronalen Netz (SGNW) als zusätzlicher Eingangswert zugeführt wird.
4. Verfahren nach einem der vorhergehenden Ansprüche dadurch gekennzeichnet, daß die Eingangs-/Ausgangsvektoren (S2/S1) dem ersten künstlichen neuronalen Netz (SGNW) über wenigstens eine Kohonenkarte (KK3) zugeführt werden.
5. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die Eingangs- und Ausgangsvektoren (S2/S1) im Kurzzeitgedächtnis (KZG) abgelegt werden.
6. Vorrichtung zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 5, umfassend eine sensorische Einrichtung (SE) zum Erfassen von Werten der Umwelt, welche einem ersten künstlichen neuronalen Netz (SGNW) als Eingangsvektor (S2) zugeführt werden, und Handlungseinheiten (HE), die von dem ersten Netz (SGNW) erzeugte Steuerbefehle als Ausgangsvektor (S1) empfangen, dadurch gekennzeichnet, daß mehrere weitere künstliche neuronale Netze (B1, B2) vorgesehen sind, welche die Eingangs-/Ausgangsvektoren (S2/S1) über Kohonenkarten (KK1, KK2) empfangen, wobei die weiteren Netze (B1, B2) an ihren Ausgangsseiten Verbindungen zu den Kohonenkarten (KK2, KK1) der anderen weiteren Netze (B2, B1) aufweisen und die Ausgangsseiten ferner mit einem Dynamikanalysator (DAN) verbunden sind, dessen Ausgang wiederum mit dem ersten Netz (SGNW) verkoppelt ist.
7. Vorrichtung nach Anspruch 6, dadurch gekennzeichnet, daß der Dynamikanalysator (DAN) globale oder lokale Go-, No-Go- oder Chaos- Zustände anzeigt und diese zusammen mit den Ausgangswerten der weiteren künstlichen neuronalen Netze (B1, B2) an das erste künstliche neuronale Netz (SGNW) weitergibt.
8. Vorrichtung nach einem der Ansprüche 6 oder 7, dadurch gekennzeichnet, daß der Dynamikanalysator (DAN) als Schieberegister ausgebildet ist.
9. Vorrichtung nach einem der Ansprüche 6 oder 7, dadurch gekennzeichnet, daß der Dynamikanalysator (DAN) als Fourieanalysator ausgebildet ist.
10. Vorrichtung nach einem der Ansprüche 6 oder 7, dadurch gekennzeichnet, daß die von der sensorischen Einrichtung (SE) erzeugten Eingangsvektoren (S2) und die von dem ersten künstlichen neuronalen Netz (SGNW) ausgegebenen Ausgangsvektoren (S1) einem Kurzzeitgedächtnis (KZG) zuführbar sind.
11. Vorrichtung nach Anspruch 10, dadurch gekennzeichnet, daß das Kurzzeitgedächtnis (KZG) als Schieberegister ausgebildet ist.
12. Vorrichtung nach einem der Ansprüche 6 oder 7, dadurch gekennzeichnet, daß die von der sensorischen Einrichtung (SE) erzeugten Eingangsvektoren (S2) und die von dem ersten künstlichen neuronalen Netz (SGNW) erzeugten Ausgangsvektoren (S1) über eine weitere Kohonenkarte (KK3) dem ersten künstlichen neuronalen Netz (SGNW) zuführbar sind.
13. Verwendung der Vorrichtung gemäß einem der Ansprüche 6 bis 12 als Modul in einem größeren System von künstlichen neuronalen Netzen solcher Module.
14. Verwendung nach Anspruch 13, dadurch gekennzeichnet, daß ein fraktales Gefüge von Modulen durch rekursives, bedarfsabhängiges Ersetzen einzelner Module durch eine dem Gesamtgefüge analoge, selbstähnliche Kombination von Modulen entsteht.
15. Verwendung nach Anspruch 13 oder 14, dadurch gekennzeichnet, daß die Verbindungen zwischen den Modulen hierarchisch organisiert sind und die Verbindungen zur Peripherie im wesentlichen parallel und topographisch geordnet sind, so daß jedes Modul seine Ausgangswerte zu jenem Teilbereich der Peripherie (SE, HE) und der Modularchitektur sendet, woher es seine Eingangswerte bezieht.
16. Verwendung nach einem der Ansprüche 13, 14 oder 15 dadurch gekennzeichnet, daß die bereits gelernten Eingangs-/Ausgangsvektoren (S2/S1) eines Moduls, das bereits eine Lernphase durchlaufen hat, erhalten bleiben, bis die neue Kombination das Verhalten des einen Moduls annähernd reproduziert.
DE4440859A 1994-11-15 1994-11-15 Verfahren und Vorrichtung zum Steuern eines autonom explorierenden Roboters Expired - Fee Related DE4440859C2 (de)

Priority Applications (3)

Application Number Priority Date Filing Date Title
DE4440859A DE4440859C2 (de) 1994-11-15 1994-11-15 Verfahren und Vorrichtung zum Steuern eines autonom explorierenden Roboters
US08/554,948 US5774632A (en) 1994-11-15 1995-11-13 Method and device for the control of an autonomously exploring robot
EP95118004A EP0718732A3 (de) 1994-11-15 1995-11-15 Verfahren und Vorrichtung zum Steuern eines autonom explorierenden Roboters

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE4440859A DE4440859C2 (de) 1994-11-15 1994-11-15 Verfahren und Vorrichtung zum Steuern eines autonom explorierenden Roboters

Publications (2)

Publication Number Publication Date
DE4440859A1 DE4440859A1 (de) 1996-05-30
DE4440859C2 true DE4440859C2 (de) 1998-08-06

Family

ID=6533426

Family Applications (1)

Application Number Title Priority Date Filing Date
DE4440859A Expired - Fee Related DE4440859C2 (de) 1994-11-15 1994-11-15 Verfahren und Vorrichtung zum Steuern eines autonom explorierenden Roboters

Country Status (3)

Country Link
US (1) US5774632A (de)
EP (1) EP0718732A3 (de)
DE (1) DE4440859C2 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102020211648A1 (de) 2020-09-17 2022-03-17 Robert Bosch Gesellschaft mit beschränkter Haftung Vorrichtung und Verfahren zum Steuern einer Robotervorrichtung
DE102022125829B3 (de) 2022-10-06 2024-01-04 Deutsches Zentrum für Luft- und Raumfahrt e.V. Verfahren zum Steuern eines Roboters und Roboter

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7117131B2 (en) * 1998-05-26 2006-10-03 Definiens Ag Method for characterizing a complex system
JP3422686B2 (ja) 1998-06-12 2003-06-30 三菱電機株式会社 データ復号装置及びデータ復号方法
US6950814B2 (en) * 2000-06-24 2005-09-27 International Business Machines Corporation Natural language processing methods and systems
EP1406751A2 (de) * 2001-07-13 2004-04-14 FSI International Robotersteuerungssystem
US7577631B2 (en) * 2001-09-10 2009-08-18 Feldhake Michael J Cognitive image filtering
ES2262988T3 (es) * 2002-01-31 2006-12-01 SOLAR &amp; ROBOTICS S.A. Mejora de un procedimiento de control de un robot movil autonomo y dispositivo asociado.
EP1484716A1 (de) * 2003-06-06 2004-12-08 Sony France S.A. Eine Architektur für selbstentwickelnde Einheiten
US8096811B2 (en) * 2003-11-29 2012-01-17 American Board Of Family Medicine, Inc. Computer architecture and process of user evaluation
US7400291B2 (en) * 2003-12-04 2008-07-15 Sony Corporation Local positioning system which operates based on reflected wireless signals
KR100506097B1 (ko) * 2004-02-04 2005-08-03 삼성전자주식회사 자기장 지도 생성 방법 및 장치와 이를 활용한 이동체의포즈 확인 방법 및 장치
US7478192B2 (en) * 2004-11-03 2009-01-13 Saffron Technology, Inc. Network of networks of associative memory networks
US7725418B2 (en) * 2005-01-28 2010-05-25 Honda Motor Co., Ltd. Responding to situations using multidimensional semantic net and Bayes inference
JP4663484B2 (ja) * 2005-04-25 2011-04-06 株式会社日立製作所 システムセキュリティ設計・評価支援ツール、システムセキュリティ設計支援ツール、システムセキュリティ設計・評価支援プログラム、およびシステムセキュリティ設計支援プログラム
US7370022B2 (en) * 2005-07-08 2008-05-06 Honda Motor Co. Building plans for household tasks from distributed knowledge
US8019713B2 (en) * 2005-07-08 2011-09-13 Honda Motor Co., Ltd. Commonsense reasoning about task instructions
US7456596B2 (en) * 2005-08-19 2008-11-25 Cisco Technology, Inc. Automatic radio site survey using a robot
US7603330B2 (en) 2006-02-01 2009-10-13 Honda Motor Co., Ltd. Meta learning for question classification
KR100757839B1 (ko) * 2006-04-04 2007-09-11 삼성전자주식회사 제어시스템, 제어시스템을 갖는 이동로봇장치 및 그제어방법
US20100017026A1 (en) * 2008-07-21 2010-01-21 Honeywell International Inc. Robotic system with simulation and mission partitions
US7977906B1 (en) * 2008-08-14 2011-07-12 Hrl Laboratories, Llc Saccadic tracking for an electro-mechanical system
US9409294B1 (en) 2015-03-05 2016-08-09 Toyota Motor Engineering & Manufacturing North America, Inc. Hierarchical geometric plan composition (HGPC) framework for robot task planning
WO2018200637A1 (en) * 2017-04-28 2018-11-01 Southie Autonomy Works, Llc Automated personalized feedback for interactive learning applications

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4884216A (en) * 1987-11-09 1989-11-28 Michael Kuperstein Neural network system for adaptive sensory-motor coordination of multijoint robots for single postures
JPH02136904A (ja) * 1988-11-18 1990-05-25 Hitachi Ltd 動作系列自己生成機能を持つ運動制御装置
US5111531A (en) * 1990-01-08 1992-05-05 Automation Technology, Inc. Process control using neural network
US5124918A (en) * 1990-01-18 1992-06-23 Case Western Reserve University Neural-based autonomous robotic system
DE4001493A1 (de) * 1990-01-19 1991-07-25 Pietzsch Ibp Gmbh Verfahren und einrichtung zur selbsttaetigen steuerung von bewegbaren geraeten
JPH04227507A (ja) * 1990-07-02 1992-08-17 Nec Corp 移動ロボット用のマップを作成し保持する方法
JPH04211802A (ja) * 1990-07-25 1992-08-03 Toshiba Corp ニュ−ラルネットワ−ク装置
EP0479271B1 (de) * 1990-10-03 1998-09-09 Aisin Seiki Kabushiki Kaisha Automatisches Steuersystem für Seitenführung
US5448681A (en) * 1992-03-27 1995-09-05 National Semiconductor Corporation Intelligent controller with neural network and reinforcement learning
US5323470A (en) * 1992-05-08 1994-06-21 Atsushi Kara Method and apparatus for automatically tracking an object
JPH06131009A (ja) * 1992-10-20 1994-05-13 Fujitsu Ltd フィードバック制御装置
US5392382A (en) * 1992-12-01 1995-02-21 Schoppers; Marcel J. Automated plan synthesizer and plan execution method
JPH06314103A (ja) * 1993-04-30 1994-11-08 Fujitsu Ltd 制御装置と能動的センシング装置
US5608843A (en) * 1994-08-01 1997-03-04 The United States Of America As Represented By The Secretary Of The Air Force Learning controller with advantage updating algorithm
US5548512A (en) * 1994-10-04 1996-08-20 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Autonomous navigation apparatus with neural network for a mobile vehicle

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HOFFMANN, N.: "Kleines Handbuch Neuronale Netze", Vieweg-Verlag, Berlin 1993, S.105-110 u. 154-159 *
ROJAS, PAUL: "Theorie der neuronalen Netze", Springer-Verlag 1993, S.356-375 *
WALTER, J.A., SCHULTEN, K.J.: "Implemen- tation of Self-Organizing Neural Networks for Visno-Motor Control of an Industrial Robot" in "IEEE Transaktions on Neural Networks", Bd.4, Nr.1, Jan.1993, S.86-95 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102020211648A1 (de) 2020-09-17 2022-03-17 Robert Bosch Gesellschaft mit beschränkter Haftung Vorrichtung und Verfahren zum Steuern einer Robotervorrichtung
DE102022125829B3 (de) 2022-10-06 2024-01-04 Deutsches Zentrum für Luft- und Raumfahrt e.V. Verfahren zum Steuern eines Roboters und Roboter

Also Published As

Publication number Publication date
EP0718732A2 (de) 1996-06-26
EP0718732A3 (de) 1996-08-28
DE4440859A1 (de) 1996-05-30
US5774632A (en) 1998-06-30

Similar Documents

Publication Publication Date Title
DE4440859C2 (de) Verfahren und Vorrichtung zum Steuern eines autonom explorierenden Roboters
DE69823049T2 (de) Modellfreie adaptive prozesssteuerung
DE102007001024B4 (de) Verfahren zur rechnergestützten Regelung und/oder Steuerung eines technischen Systems insbesondere einer Gasturbine
EP2135140B1 (de) Verfahren zur rechnergestützten steuerung und/oder regelung eines technischen systems
DE102007001025B4 (de) Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems
DE102008020379A1 (de) Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems
DE19531967C2 (de) Verfahren zum Training eines neuronalen Netzes mit dem nicht deterministischen Verhalten eines technischen Systems
WO2006000427A1 (de) Fahrzeug-steuergerät mit einem neuronalen netz
EP0754317B1 (de) Einrichtung zur kompensation von nichtlinearitäten an maschinenachsen
DE10341574A1 (de) Konfiguration und Betrachtungsanzeige für einen integrierten prädiktiven Modellsteuerungs- und Optimierungsfunktionsblock
DE102017223717A1 (de) Verfahren zum Betreiben eines Roboters in einem Multiagentensystem, Roboter und Multiagentensystem
WO1997050021A1 (de) Verfahren und system zur inbetriebsetzung von industrieanlagen, insbesondere der grundstoffindustrie
WO2020182541A1 (de) Verfahren zum betreiben eines roboters in einem multiagentensystem, roboter und multiagentensystem
DE112011100192T5 (de) Verfahren zum Bearbeiten von Werkstücken mittels eines kognitiven Bearbeitungskopfes und ein dieses verwendender Bearbeitungskopf
DE102020122373A1 (de) Vorrichtung für maschinelles Lernen, Servosteuervorrichtung, Servosteuersystem und Verfahren für maschinelles Lernen
EP1119799B1 (de) Regeleinrichtung zur regelung einer strecke mit mehreren verkoppelten regelgrössen
EP1148395A2 (de) Regler, insbesondere Lenkregler für Flugkörper
DE102020206913B4 (de) Verfahren und Vorrichtung zum Betreiben eines Roboters
DE4311290A1 (de) Modellbasierte neuronale Bahnführung eines Industrieroboters
DE102020104267A1 (de) Computerimplementiertes Regelungs- oder Folgeregelungsverfahren oder Optimierungsverfahren zur Absicherung von Steuerungsalgorithmen einer Regelung und/oder Regelungsalgorithmen
EP3953865A1 (de) Verfahren, vorrichtung und computerprogramm zum betreiben eines tiefen neuronalen netzes
EP4139849A1 (de) Verfahren zum konfigurieren von komponenten in einem system mit hilfe von multi-agent reinforcement learning, computerlesbares speichermedium und system
DE3609925A1 (de) Einrichtung zur simulation von neuronensystemen
DE102022208082B3 (de) Verfahren zum Steuern eines technischen Systems
EP3489773A1 (de) Verfahren zum rechnergestützten steuern eines technischen systems, insbesondere einer energieerzeugungsanlage

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
D2 Grant after examination
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: VIRTUAL GENETICS AB, STOCKHOLM, SE

8328 Change in the person/name/address of the agent

Free format text: VOGESER, LIEDL, ALBER, DR. STRYCH, MUELLER UND KOLLEGEN, 81369 MUENCHEN

8381 Inventor (new situation)

Free format text: KASKE, ALEXANDER, 50933 KOELN, DE

8327 Change in the person/name/address of the patent owner

Owner name: KASKE, ALEXANDER, WIEN, AT

8328 Change in the person/name/address of the agent

Representative=s name: VOGESER, LIEDL, ALBER, DR. STRYCH, MUELLER UND KOLL

8328 Change in the person/name/address of the agent

Representative=s name: HANSMANN & VOGESER, 81369 MUENCHEN

8339 Ceased/non-payment of the annual fee