DE4440859C2 - Verfahren und Vorrichtung zum Steuern eines autonom explorierenden Roboters - Google Patents
Verfahren und Vorrichtung zum Steuern eines autonom explorierenden RobotersInfo
- Publication number
- DE4440859C2 DE4440859C2 DE4440859A DE4440859A DE4440859C2 DE 4440859 C2 DE4440859 C2 DE 4440859C2 DE 4440859 A DE4440859 A DE 4440859A DE 4440859 A DE4440859 A DE 4440859A DE 4440859 C2 DE4440859 C2 DE 4440859C2
- Authority
- DE
- Germany
- Prior art keywords
- network
- values
- artificial neural
- output
- sgnw
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1602—Programme controls characterised by the control system, structure, architecture
- B25J9/161—Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1694—Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/33—Director till display
- G05B2219/33012—Kohonen network, single layer with neurodes, associated with codebook vector
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/33—Director till display
- G05B2219/33022—One network for learned signal values, one network for unknown signal values
Description
Die Erfindung betrifft ein Verfahren sowie eine Vorrichtung
zum Steuern eines autonom explorierenden Roboters gemäß den
Oberbegriffen der Ansprüche 1 und 6 sowie eine Verwendung
der Vorrichtung.
Sollen Arbeiten in einer für den Menschen feindlichen Umge
bung durchgeführt werden, so bietet es sich an, hierfür Robo
ter einzusetzen. Diese Roboter können mittels einer Fern
steuerung oder eines in einer robotereigenen Recheneinheit
implementierten Programms gesteuert werden.
Der Einsatz einer Fernsteuerung setzt voraus, daß sich die
Bedienungsperson an der Fernsteuerung zumindest in Kommunka
tionsreichweite mit dem Roboter befindet. Dies ist aber in
einer Reihe von Anwendungsfällen nicht möglich, insbesondere
dann, wenn die Entfernung zwischen Bedienungsperson und Robo
ter zu groß wird, oder aber, wenn Störungen in der Kommunika
tion zwischen Roboter und Bedienungsperson auftreten können.
Demgegenüber weist ein Roboter, der mittels eines ihm eigenen
Programms arbeitet, eine größere Unabhängigkeit gegenüber dem
ferngesteuerten Roboter auf. Jedoch setzt die Verwendung ei
nes Programms voraus, daß während der Programmierung alle
eventuell auftretenden Situationen für den Roboter bereits
bekannt und entsprechende Handlungstrategien dem Roboter mit
eingegeben werden. Wird jedoch der Roboter für Arbeiten ein
gesetzt, bei denen entweder die Einsatzumgebung und die damit
möglicherweise auftretenden Situationen nicht vollständig
bekannt sind und/oder aber Bedingungen auftreten können, die
zum Zeitpunkt der Programmierung noch nicht vorhersehbar
sind, so scheitert ein Roboter, der mittels eines Programms
gesteuert wird. Wird demgegenüber versucht, die dem Roboter
bereits bekannten Situationen dadurch zu erweitern, daß mit
der Recheneinheit eine Datenbank verbunden ist, die eine
Vielzahl von gegebenen Situationen speichert, so werden hier
für erhebliche Rechenzeiten beansprucht, so daß der Roboter
bei Auftreten einer für ihn zunächst unbekannten Situation
einen verhältnismäßig langen Zeitraum stillgesetzt wird, bis
nach Durchsuchen des Datenbestandes eine entsprechende Lö
sungsstrategie gefunden wird. Dies kann aber dann von Nach
teil sein, wenn der Roboter in eine Situation gerät, die eine
sofortige Handlung erfordert.
Es sind in der Praxis bereits Netzwerke mit vorgeschalteten
Kohonenkarten bekannt, die jedoch nicht in der Lage sind,
zwischen bekannten und unbekannten Situationen zu unterschei
den. Damit können keine gezielten Ausweichverhalten gegenüber
ungewöhnlichen Situationen generiert werden. Auch bleibt das
Verhalten in diesen neuen Situationen völlig stereotyp, da, ja
zu einem durch eine Sensorik erfaßten Wert mit einem Steuer
befehl geantwortet wird, welcher einem gespeicherten sensori
schen Wert am nächsten kommt. Eine Variation des Verhaltens
wäre nur über eine Superposition von Ausgangswerten möglich,
die den ähnlichsten gespeicherten Situationen entsprechen.
Allerdings ist diese Superposition durch die Filterwirkung
der Kohonenkarte fast ausgeschlossen. Es käme zur Instabili
tät des Musters in der Kohonenkarte mit wechselnder Aktivität
entsprechend der Ähnlichkeit zu den gespeicherten Prototypen.
Das System würde also im Grunde sein Handlungsrepertoir nach
einander ausprobieren. Ein Lernprozeß tritt nur nach dem Er
folg einer dieser Versuche ein. Das spezifische dieser neuen
Situation geht darüber hinaus in diesem Lernprozeß fast voll
ständig verloren. Es ändert sich allenfalls geringfügig die
Kohonenkarte. Das Netzwerk würde aus dem Erfolg sehr wenig
lernen (die Stereotypen werden etwas erweitert oder vermin
dert in der Kohonenkarte, während das Repertoire des Netz
werkes praktisch unverändert bleibt) und könnte aus einem
Mißerfolg überhaupt keine Schlußfolgerungen ziehen.
Ein Verfahren und eine Vorrichtung zum Steuern eines Roboters mit
den Merkmalen aus den Oberbegriffen der Ansprüche 1 und 6 aus der
Veröffentlichung "IEEE Transactions on Neural Networks," Bd.
4, Nr. 1, 1. Januar 1993, Seite 86 bis 95 "Implementation of Self-
Organizing Neural Networks for Visuo-Motor Control of an Indu
strial Robot" bekannt ist. Sie beschreibt im wesentlichen ein Kohonennetzwerk mit
nichteuklidischer Metrik (Rangmetrik). Die Fehlerkorrektur erfolgt
anhand der Videosignale problembezogen, d. h. die Videosignale wer
den anhand des Formalismus der Jacobi-Matrizen, die das Steuerpro
blem darstellen, interpretiert. Die kooperativen Fähigkeiten der
Kohonenkarte werden lediglich zur Optimierung eines an sich prä
zise formulierten Problems benutzt (im Grunde indirekte aber ex
plizite Wertefunktion). Dagegen sind Organisation und Struktur der
Erfindung von solcher formaler Problembestimmung unabhängig. Das
System lernt nicht durch Fehlerbewertung (mit welcher impliziter
Metrik auch immer) sondern durch Variation und Selektion seines
Repertoirs.
Aus den Veröffentlichungen Hoffmann, Norbert: "Kleines Handbuch
Neuronale Netze", Vieweg Verlag, Braunschweig, Wiesbaden 1993
Seite 105 bis 110, 154 bis 159 und Rojas, Raúl: "Theorie der neu
ronalen Netze", Springer Verlag, Berlin 1993 Seiten 356 bis 375
ist die Verwendung von Kohonenschichten und Kombinationen von
Netzen (hybride Modelle) auch zusammen mit Kohonenschichten für
spezielle Aufgaben bekannt. Die erfindungsgemäße Kombination von
Kohonenkarten und assoziativen neuronalen Netzen soll eine be
stimmte Dynamik realisieren und die Statistik der ablaufenden
Dynamik abbilden, was für die Auswahl, welche Muster variiert wer
den, wesentlich ist (Stabilität). Hier ist die Rückkoppelung von
B1, B2, (optional). SGNW auf KK2, KK1 und KK3 wesentlich (die je
doch in den Beispielen - Counterpropagation (Hoffmann), linearer
Assoziator usw. - nicht vorhanden ist). Die Approximation mathema
tischer Funktionen und Transformationen (Invariante Mustererken
nung, Normierung etc.) ist nicht beabsichtigt.
Des weiteren dient die Vorschaltung von Kohonenkarten der Minde
rung des Nachteils gängiger assoziativer Speicher gegenüber etwa
dem backpropagation - Netzen, die alle gewünschten Input/Output
beziehungen annehmen können, was assoziative Speicher nur at least
square - Approximation leisten können. Diese Begrenzung assoziati
ver Speicher im allgemeinen und von Willshaw-Matricen im besonde
ren wird durch die Wirkung der Kohonenkarten (deren Output besteht
bis auf die spezifisch aktivierte "Zellgruppe" hauptsächlich aus
Nullen) gemildert. Bei den ART Architekturen hat das Modell von
Grossberg eine gewisse Ähnlichkeit mit dem System künstlicher neu
ronaler Netze. Unterschiede liegen jedoch darin, daß keine Auf
merksamkeits- und Resetsignale vorhanden sind, die Evaluierung ei
nes Wertepaares im Netzwerksystem erfolgt demgemäß simultan und
nicht sequentiell. B1 und B2 haben keine Entsprechung im ART-
Modell. Das Suchkriterium ist nicht die Amplitude (Resonanz), son
dern das dynamische Muster (Grenzzyklus, Chaos etc.).
Es ist Aufgabe der vorliegenden Erfindung, ein Verfahren so
wie eine Vorrichtung der eingangs genannten Art zu schaffen,
das bzw. die es dem Roboter innerhalb des real-time-Modus gestattet, zwischen
einer bekannten und einer unbekannten Situation zu unterscheiden.
Die vorliegende Aufgabe wird verfahrensgemäß mit den Merkmalen des
Anspruchs 1 gelöst. Durch die Verwendung des erfindungsgemäßen Systems
weiterer künstlicher neuronaler Netze benötigt der Roboter nicht mehr eine
umfangreiche Datenbank möglicher auftretender Situationen. Es genügt vielmehr,
dem Roboter während einer Trainingsphase selektierte Wertepaare, also Paare
von Vektoren, die aus durch die sensorische Einrichtung zu erfassenden Werten
der Umwelt und den hierzu gehörenden Steuerbefehlen bestehen,
aufzutrainieren. Ein derartiges Auftrainieren führt bei den eingesetzten künstlichen
neuronalen Netzen, die im folgenden als Netzwerke bezeichnet werden, zur
Ausbildung bestimmter Synapsenstärken. Wird während des Betriebs des
Roboters durch das erfindungsgemäße System von weiteren künstlichen
neuronalen Netzen (kurz im folgenden als Netzwerksystem bezeichnet) ein
bekanntes Wertepaar aus von der sensorischen Einrichtung erfaßten
Umweltwerten und von dem ersten künstlichen neuronalen Netz, das im
folgenden als strategiegenerierendes Netzwerk bezeichnet wird, hierzu erzeugte
Steuerbefehle erkannt, so kann dieses Wertepaar zum einen zu weiteren, bereits
gelernten Wertepaaren führen, die dem Roboter dann gestatten, einen bereits ihm
bekannten Pfad bzw. Lösungsweg zu beschreiten. Zum anderen wird dem
Roboter die Möglichkeit eröffnet, Erfahrung zu sammeln in der Form, daß die
Paare von Vektoren, also sogenannte Wertepaare, die vor dem Erkennen des
durch das Netzwerksystem als bekannt eingestuften Wertepaares ebenfalls erfaßt
worden sind, mit diesem bekannten Wertepaar abgespeichert werden. Da die
Wertepaare Resultat von Handlungen des Roboters sind, können somit an sich
unbekannte Wertepaare zu bekannten "gemacht" werden. Tritt in einer
zukünftigen Situation dann wieder ein Wertepaar auf, das aus der Reihe der
bereits abgespeicherten Wertepaare stammt, so besteht die Möglichkeit, die
anderen hierzu gehörenden Wertepaare zu rekonstruieren bzw. die Erfahrung zu
vergrößern.
Das vorgeschlagene Netzwerksystem wirkt praktisch als kognitives
Interferrometer, das sehr sensibel zwischen gespeicher
ten Wertepaaren (durch hohe Rückkopplung und die Trainings
prozesse sind nur diese stabil) und neuen ungespeicherten
Wertepaaren unterscheidet. Damit kann einmal Neues spezifisch
angegangen werden (vorsichtiges Explorieren oder Ausweichen).
Die Dynamik des Netzwerksystems wird ungefiltert an das stra
tegiegenerierende Netzwerk weitergegeben und modifiziert des
sen Verhalten in Form geänderter Steuerbefehle bedarfsge
recht. Hierdurch ist es möglich, eine Stabilisierung des Ver
haltens in einem erfolgreichen Zustand und eine Variation des
Verhaltens in Form veränderter Steuerbefehle in einem Zustand
zu erhalten, der keinen Erfolg verspricht. Die Verhaltensva
riationen werden situationsspezifisch abgespeichert, wodurch
eine Erweiterung und Differenzierung der Diskrimination von
Situationen und des Verhaltensrepertoires erfolgt.
Das System kann damit zumindest indirekt aus "Fehlern" ler
nen, wobei unter dem Begriff "Fehler" das Auftauchen neuer,
nicht erwarteter Situationen verstanden wird, die eine Ver
haltensmodifikation erfordern. Die Durchbrechung der Erwar
tung und das Ausbleiben des Erfolgs werden explizit als in
stabiler Zustand des Netzwerksystems erfaßt und dargestellt.
Die Verhaltensweisen, die zur Korrektur der "Fehler" führen,
werden einerseits durch Verhaltensvariationen erzeugt und an
schließend selektiert sowie unter Berücksichtigung der Beson
derheiten der Situation repräsentiert (= Training). Sollten
Lernprozesse ausbleiben, verlernt das Netzwerksystem aber
nicht, diesen Fehler unter gleichen Gegebenheiten anzuzeigen.
Damit bemerkt das System "Fehler" (= unerwartet) und stellt
sein Verhalten darauf ein.
Es ist zu bemerken, daß im Sinne der Erfindung unter der sen
sorischen Einrichtung eine Vorrichtung zu verstehen ist, die
aus ein oder mehreren Sensoren oder sensorähnlichen Baugrup
pen bestehen kann. Die Sensoren können die unterschiedlich
sten physikalischen Werte erfassen und ggf. diese noch in
eine für die verwendeten Netzwerke geeignete Form transfor
mieren. Des weiteren ist unter Handlungseinheiten jede Form
einer Einrichtung zu verstehen, die dem Roboter eine Handlung
ermöglicht, sei es, daß ein Betätigungsglied des Roboters in
irgendeiner Form verfahren wird, sei es, daß die Empfindlich
keit von seinen Sensoren verändert wird. Insbesondere können
die Handlungseinheiten Kombinationen von Netzwerken, Reglern
und/oder Servos sein, die zudem noch lokale sensorische In
formation verarbeiten können. Hierdurch sind sie in der Lage,
teilweise autonom die an sie gehenden Steuerbefehle aufgrund
der lokal, in Ort und Zeit (bei zu langsamer Variation der
Steuerbefehle) vorliegenden Informationen weiter zu differen
zieren. Das strategiegenerierende Netzwerk wird so entlastet.
Zwischen solcherart differenzierten Handlungseinheiten und
der hierarchischen Organisation von Netzwerken besteht eine
große Ähnlichkeit. Schließlich ist noch zu bemerken, daß un
ter Steuerbefehlen jede Form von Befehl an eine derartige
Handlungseinheit verstanden werden kann.
Weiterhin ist darauf hinzuweisen, daß der Trainingsvorgang
für das strategiegenerierende Netzwerk und die Netzwerke des
Netzwerksystems eine doppelte Schleife bilden. Das Training
des Netzwerksytems beschreibt die innere Schleife. Jedes Wer
tepaar aus sensorischen Werten und den dazugehörigen Steuer
befehlen wird solange den Netzwerken des Netzwerksystems an
geboten, bis die Adaption zu einem stabilen Ausgangwert aus
den Netzwerken des Netzwerksystems führt. Nun setzt die äu
ßere Schleife ein, in dem die den Netzwerken des Netzwerksy
stems zugeführten Wertepaare über ggf. vorhandene Kohonenkar
ten und die nun stabilen Ausgangswerte der Netzwerke des
Netzwerksystems an das strategiegenerierende Netzwerk als zu
lernende Vektorkombination zugeführt werden. Würden die bei
den Schleifen des Trainingsprozesses zeitlich parallel lau
fen, würde das strategiegenerierende Netzwerk alle "Wackler"
aus dem Netzwerksystem, d. h. alle instabilen Zwischenprozesse
des Trainings des Netzwerksystems, mitlernen.
Um bekannte Wertepaare von unbekannten Wertepaaren zu unter
scheiden, ist erfindungsgemäß vorgesehen, daß die Ausgangs
werte der Netzwerke des Netzwerksystems einem Dynamikanalysa
tor zugeführt werden. Anhand der Stabilität der Ausgangswerte
der Netzwerke des Netzwerksystems kann dann der Dynamikanaly
sator erkennen, daß ein bekanntes Wertepaar den Netzwerken
des Netzwerksystems zugeführt worden ist.
Das Ergebnis des Dynamikanalysators kann dem strategiegene
rierenden Netzwerk neben den Ausgangswerten der Netzwerke des
Netzwerksystems und den den Netzwerken des Netzwerksystems
als Eingangswerte zugeführten Wertepaaren als weiterer Ein
gangswert zugeführt werden. Hierbei kann zwischen go-, no-go-
oder chaos-Zuständen unterschieden werden. Ein go-Zustand
wird bei Stabilität der Ausgangswerte der Netzwerke des Netz
werksystems erkannt. Mit anderen Worten bedeutet dies, daß
ein bekanntes Wertepaar erfaßt worden ist. Der chaos-Zustand
(vollkommene Instabilität) tritt ein, wenn ein unbekanntes
Wertepaar von den Netzwerken des Netzwerksystems behandelt
wird. Der no-go-Zustand liegt dynamisch zwischen dem chaos-
und dem go-Zustand und ist durch die Ausbildung eines angenä
herten Grenzzyklus der Ausgangswerte des Netzwerksystems ge
kennzeichnet. Der no-go-Zustand signalisiert, daß der momen
tane sensorische Wert zwar bekannt ist, aber nicht zu dem ak
tivierten Steuerbefehl paßt. Es kann deshalb vorgesehen sein,
daß no-go-Zustände des Dynamikanalysators durch Ignorieren
oder Abwenden des Roboters von dieser Konfiguration der sen
sorischen Werte beantwortet wird. Dadurch gerät der Roboter
möglichst schnell wieder in den bekannten Bereich bereits ge
speicherter Wertepaare. Der Übergang zwischen no-go- und
chaos-Zuständen ist fließend, deshalb können neue Wertepaare
ebenfalls teilweise ignoriert werden. Führt das Abwenden
und/oder Ignorieren jedoch nicht in den bekannten Bereich zu
rück, resultiert ein dauerhafter chaos-Zustand. Nun kann die
im Netzwerksystem sich entfaltende Chaotik zunehmend das
strategiegenerierende Netzwerk beeinflußen und damit völlig
neue Aktionen im Sinne von neuen Steuerbefehlen generieren.
Noch länger andauernde chaos- und/oder no-go-Zustände könnten
auch durch explizite regressive Strategien beantwortet wer
den. Beispielsweise etwa durch Zurückkehren zu dem Ausgangs
punkt des Roboters oder zu demjenigen Punkt, an dem die letz
ten bekannten Wertepaare erfaßt worden sind.
Da die von der sensorischen Einrichtung erfaßten Werte nicht
nur Skalare sein können, sondern auch in Form von Vektoren
mit einer Vielzahl von Komponenten auftreten können, werden
zur Datenreduktion die von der sensorischen Einrichtung er
faßten Werte und die ebenfalls in Form von Vektoren vorlie
genden Steuerbefehle vor Zuführung zu den Netzwerken des
Netzwerksystems und/oder vor Zuführung zu dem strategie
generierenden Netzwerk Kohonenkarten zugeführt.
Zu der Trainingsphase ist im Zusammenhang mit dem Einsatz von
Kohonenkarten noch zu bemerken, daß die Synapsen dieser Koho
nenkarten während des Trainingsprozesses langsamer adaptieren
sollen als die Synapsen der Netzwerke des Netzwerksystems so
wie des strategiegenerierenden Netzwerkes, da diese zum Lern
prozeß relativ stabile Eingangs- bzw. Ausgangsbeziehungen
brauchen. Allerdings kann eine Adaptierung der Kohonenkarte
den gesamten Prozeß erleichtern, insofern als die benutzten
Netzwerke allein nicht alle Eingangs- bzw. Ausgangsbeziehun
gen nachbilden können.
Des weiteren ist zu bemerken, daß es vorteilhaft ist, die
ggf. vorhandenen Kohonenkarten sich fortlaufend oder zumin
dest intermittierend synaptisch adaptieren zu lassen. Damit
bilden die Kohonenkarten die Statistik der Steuerbefehle und
der sensorischen Werte erfolgsunabhängig ab, um den Roboter
"kognitiv" an das vorherrschende Terrain bzw. die gestellten
Aufgaben anzupassen.
Die von der sensorischen Einrichtung erfaßten Werte sowie die
dazugehörenden Steuerbefehle werden neben der Zuführung zu
dem strategiegenerierenden Netzwerk und den Netzwerken des
Netzwerksystems einem Kurzzeitgedächtnis zugeführt, wo sie
abgelegt werden. Wird ein den Netzwerken des Netzwerksystems
neu zugeführtes Wertepaar als bekanntes Wertepaar identifi
ziert, so erfolgt eine Verknüpfung dieses als bekannt erkann
ten Wertepaares mit den Wertepaaren einer zum Erfolg geführ
ten Kette von Wertepaaren, wobei die Wertepaare, die vor dem
gerade eben als bekannt erfaßten Wertepaar den Netzwerken des
Netzwerksystems zugeführt worden sind, ebenfalls an der be
reits bekannten Kette angeknüpft werden. Bei diesem solcher
Art gesteuerten Lernprozeß werden fast ausschließlich neue
Wertepaare an die in der anfänglich durchgeführten Trainings
phase gespeicherten Wertepaare angehängt. Mit anderen Worten
werden nur bereits angelegte Verhaltenselemente (die anfäng
lich eintrainierten Wertepaare) verbessert und weiterentwic
kelt. Besteht die Möglichkeit, durch externe Belohnung unab
hängig von der Bekanntheit oder Neuheit von Wertepaaren einen
dem oben beschriebenen gleichartigen Trainingsprozeß initiie
ren zu können, kann man auch noch später gezielt in das Lern
verhalten eingreifen. Die beobachterunabhängige Formulierung
von Belehrungskriterien läuft auf das Training einer schon
spezifizierten Untermenge von Wertepaaren hinaus. Diese Be
lehrungskriterien wurden ja initial schon als Wertepaare ein
gespeichert.
Es kann hierbei sinnvoll sein, alle möglicherweise eingesetz
ten Kohonenkarten fortlaufend oder in regelmäßigen Abständen
einem, wenn auch relativ wenig intensiven Trainingsprozeß un
abhängig von den Erfolgskriterien zu unterwerfen. Die Stati
stik von Umgebung und Handlung wird damit synaptisch abgebil
det und damit der Roboter gezwungen, sich "kognitiv" auf
seine Umgebung und Aufgaben einzustellen. Dadurch werden
Lernprozesse beschleunigt. Umgekehrt sollten die Kohonenkar
ten beim erfolgsinduzierten Training synaptisch relativ sta
bil bleiben, da ihr Ausgang (= Output) ja den Eingang (= In
put) für die nachgeschalteten Netzwerke darstellt, die in
dieser Phase die Input/Output-Assoziation herstellen sollen.
Eine gewisse Plastizität der Kohonenkarten erleichtert hier
bei den Trainingsprozeß für das strategiegenerierende Netz
werk und die Netzwerke des Netzwerksystems.
Wie bereits vorstehend darauf hingewiesen worden ist, werden
in einer Trainingsphase dem strategiegenerierenden Netzwerk
und den Netzwerken des Netzwerksystems ausgewählte Werte
paare, die aus von der sensorischen Einrichtung möglicher
weise zu erfassenden Werten und den dazugehörenden Steuerbe
fehlen bestehen, zugeführt. Innerhalb dieser Trainingsphase
bilden sich dann in den Netzwerken zugehörige Synapsenstärken
aus.
Die vorstehende Aufgabe wird vorrichtungsgemäß mit den Merk
malen des Anspruchs 6 gelöst. Diese vorrichtungsgemäße Lösung
weist die gleichen Vorteile auf, wie sie im Zusammenhang mit
dem erfindungsgemäßen Verfahren geschildert worden sind. Zum
Aufbau des Netzwerksystems ist zu bemerken, daß die Ausgangs
werte jedes einzelnen Netzwerkes des Netzwerksystems der zu
dem jeweiligen Netzwerk gehörenden Kohonenkarte sowie der Ko
honenkarte des benachbarten Netzwerkes zugeführt werden kön
nen. Bei Verwendung mehrerer, parallel nebeneinander ange
ordneter Netzwerke können die Ausgangswerte jedes Netzwerkes
wiederum den Kohonenkarten der benachbarten bzw. der anderen
Netzwerke zugeführt werden.
Der Dynamikanalysator führt dabei eine Fourieranalyse der
Ausgangswerte der Netzwerke des Netzwerksystems und der zuge
führten sensorischen Werte bzw. der Steuerbefehle mit an
schließendem spektralen Vergleich durch. Sind die Spektren
der zugeführten Werte gleich wird ein go-Zustand signa
lisiert. Enthalten die Ausgangwerte der Netzwerke des Netz
werksystems vorwiegend harmonische Obertöne des Spektrums der
zugeführten sensorischen Werte bzw. der Steuerbefehle wird
ein no-go-Zustand signalisiert. Sind die Spektren der Aus
gangswerte der Netzwerke des Netzwerksystems und der sensori
schen Werte bzw. der Steuerbefehle völlig ohne Gemeinsamkeit
wird ein chaos-Zustand signalisiert.
Die Suche im Fourierraum ist durch die Abtastfrequenz und
durch die Breite des betrachteten Intervalls bestimmt. Die
Zuordnung der Zustände kann hierbei durch (beispielsweise vom
strategiegenerierenden Netzwerk generierte) Variation der Zu
weisung der relativen spektralen Amplituden zu den Zuständen
optimiert werden. Da sowohl die Ausgangswerte des Netzwerksy
stems als auch die Wertepaare mehrkomponentige Vektoren sind,
müßten theoretisch alle ihre Vektorkomponenten einer Fourier
analyse unterzogen werden. Welche Komponenten der Wertepaare
mit welchen Komponenten der Ausgangswerte des Netzwerksystems
in ihrer Dynamik verglichen werden, kann allerdings willkür
lich sein. Beispielsweise könnte ein Netzwerk aufgrund belie
biger noch anzugebener Kriterien (Korrelation von Wertepaar-
Komponenten mit Komponenten der Ausgangswerte des Netzwerksy
stems?) diese Zuordnung durchführen. Einfacher ist es, zumin
dest alle Spektralamplituden wenigstens der Wertepaare (als
relativ stabil vorausgesetzt) ggf. gewichtet und renormiert
zu addieren. Für die Werte aus den Netzwerken des Netzwerksy
stems kann ebenso verfahren werden. Es ist aber auch möglich,
das Spektrum einer Komponente eines Ausgangswertes der Netz
werke des Netzwerksystems mit dem zusammengefaßten Spektrum
der Wertepaare zu vergleichen und komponentenweise den go,
no-go- oder chaos-Zustand zu erheben. Zur Reduktion des Re
chenaufwandes könnte man sowohl die Wertepaare als auch die
Ausgangswerte der Netzwerke des Netzwerksystems in einen Un
terraum projizieren, oder andere Verfahren der Dimensionsre
duktion durchführen (extrem: Spur S1 * S2; Spur B1 * B2 usw.),
und anschließend Fourieranalyse sowie Spektralvergleich
durchführen. Wegen der unzähligen Möglichkeiten und des po
tentiell großen Aufwands wird noch als Vorschlag eine primi
tive Fourieranalyse vorgestellt.
Die Wertepaare und die Ausgangswerte der Netzwerke des Netz
werksystems werden in getrennte Schieberegister eingelesen
und auf Periodizität untersucht. Dies geht folgendermaßen.
Ein Wertepaar oder ein Paar an Ausgangswerten wird mit einem
zeitverschobenen Paar verglichen. Wenn die (euklidische-,
Manhattan Distanz -Vektoren) Abweichung kleiner ist als die
Schwelle s, gibt es einen Punkt.
Die Punktzahl ergibt sich über die doppelte Summation der
Elemente i des Schieberegisters bis y und der Variation der
Zeitverschiebungen n von 1 bis y/2.
p = Σi Σn fi(xr1) + fi(xr2),
wobei fi(xr) = 1 wenn /xi - xr/ <- s, sonst O.
r1 = n + i modulo y, r2 = 2n + i modulo y, i - 1 bis y; n - 1 bis y/2, xi = eingelesener Vektor in Position i des Schieberegi ster
p = Σi Σn fi(xr1) + fi(xr2),
wobei fi(xr) = 1 wenn /xi - xr/ <- s, sonst O.
r1 = n + i modulo y, r2 = 2n + i modulo y, i - 1 bis y; n - 1 bis y/2, xi = eingelesener Vektor in Position i des Schieberegi ster
Dieser Prozeß wird getrennt für die Wertepaare und die Aus
gangswerte der Netzwerke des Netzwerksystems durchgeführt.
Die Differenz der Punktzahlen der Wertepaare und der Aus
gangswerte ist maximal = 0, wenn die Ausgangswerte des Netz
werksystems so stabil wie die Wertepaare sind. Ansonsten wird
die Differenz um so negativer, je chaotischer sich die Aus
gangswerte gegenüber den Wertepaaren verhält. Die Ausbildung
von harmonischen der Ausgangswerte des Netzwerksystems würde
zu (negativen) Mittelwerten führen. An dieser Differenz kann
die Klassifikation der Dynamik des Netzwerksystems erfolgen.
Das Kurzzeitgedächtnis ist vorzugsweise als Schieberegister
ausgebildet, so daß die neu hinzugekommenden Wertepaare die
zeitlich ältesten abgespeicherten Wertepaare aus dem Schiebe
register entfernen.
Weiterhin ist zu bemerken, daß die Intensität des Trainings
(= Lernzyklen) sich in Abhängigkeit des Verhältnisses bzw.
der Differenz von Belohnung und aufgelaufenen Kosten, die
ggf. Energiekosten sein können, gestalten kann. Damit werden
nur Wertepaare mit positiver Energiebilanz trainiert bzw. ge
lernt (= zusätzliches Selektionskriterium). Damit Wertepaare
über das Fassungsvermögen des ggf. vorhandenen Kurzzeitge
dächtnisses hinaus trainiert werden können, müssen bekannte
und gespeicherte Wertepaare mit einem Belohnungswert assozi
iert werden, der die Weiterverteilung der Belohnung an die
anschließenden Kettenglieder ermöglicht. Hierzu gibt es meh
rere Möglichkeiten. Beispielsweise wird von der "Belohnung",
wie die zugeführte Energie usw., dem ersten Wertepaar dessen
"Kosten", wie beispielsweise die zur Erreichung der momenta
nen Situation aufgewandte Energie usw., abgezogen und das Re
sultat als Belohnungswert zugewiesen und gespeichert (ggf.
als zusätzliche Steuerbefehlskomponente, die nur zum
Kurzzeitgedächtnis projeziert wird). Dem nächsten zu spei
chernden Wertepaar wird dieser Werte als Bruttobelohnung zu
gewiesen, wobei wiederum die jeweiligen Kosten abgezogen wer
den usw.
Eine ähnliche Form läßt sich dadurch erreichen, daß Beloh
nungsverteilung und Anlaufkosten über mehrere aufeinanderfol
gende Wertepaare hinweg aufsummiert bzw. gesammelt werden und
der resultiertende Durchschnittswert auf die Wertepaare ver
teilt wird. Dieses Verfahren ergibt aber einen schlechten
Gradienten, der allerdings durch die Überlagerung vieler
Lernprozesse sich verbessert. Ein relativ hoher Gradient läßt
sich dadurch herstellen, daß der Nettogewinn der im Kurzzeit
gedächtnis gespeicherten Wertepaare mit einer entsprechenden
Formel verteilt wird.
Des weiteren ist zu bemerken, daß direkt nach den Sensoren
der sensorischen Einrichtung bzw. vor den ggf. vorhandenen
Kohonenkarten des strategiegenerierenden Netzwerkes bzw. den
Kohonenkarten des Netzwerksystems sowie dem Kurzzeitgedächt
nis Bandpaßfilter angeordnet sein können.
Dabei werden die Bandpaßfilter verwendet, um die zeitlichen
Komponenten von Signalen, auf die die nachgeschalteten Sy
steme kaum oder nur schlecht reagieren, auszufiltern. Der
Filter hat im wesentlichen zwei Parameter, die zentrale Fre
quenz seines Durchlaßbereiches und die Bandbreite. Die Steue
rung der Zentralfrequenz sowie die Bandbreite erfolgt durch
den Dynamikanalysator. Die Bandbreite wird von der Netzwerk-
Konfiguration, das die so gefilterten Werte erhält, während
eines go-Zustandes erhöht, wogegen sie bei no-go- bzw. chaos-
Zuständen verringert wird.
Ist die vorgeschlagene Erfindung Bestandteil eines größeren
Netzwerksystems so kann es sinnvoll sein, zwischen den ein
zelnen Hierachien dieses Großnetzwerksytems ebenfalls Band
paßfilter einzusetzen. Der Ausgang nach oben, der meistens
gleich dem Eingang von unten ist, soll ebenfalls gefiltert
werden. Das übergeordnete Netzwerk braucht über das un
tergeordnete nur wenig zu wissen, wenn der Betrieb ohne Stö
rung verläuft. Erst wenn Probleme auftreten, sollte es mehr
wissen. Der dazwischenliegende Bandpaßfilter sollte unter
diesen Umständen geöffnet werden (= chaos-Zustand), ansonsten
in seiner Bandbreite reduziert werden. In der Hierarchie wer
den vor- und nachgeschaltete Bandpaßfilter unmittelbar ge
koppelt und können bei entsprechender Konvergenz und Verrech
nung der Steuerbefehle von unten und oben zusammengefaßt wer
den. Dabei können die aus dem hierachisch höher angeordneten
Netzwerk und zeitverzögerte Signale aus dem Kurzzeitgedächt
nis der gleichen Hierachie ebenfalls über einen Bandpaßfilter
laufen.
Weiterhin ist zu bemerken, daß zeitverzögerte Wertepaare aus
dem Kurzzeitgedächtnis dem strategiegenerierenden Netzwerk
und der Kohonenkarte des Netzwerkes des Netzwerksystems, das
die Steuerbefehle empfängt, angeboten bzw. zugeführt werden.
Hieraus ergibt sich der Vorteil, daß die Netzwerke zeitlich
kausale Beziehungen zwischen den Wertepaaren entdecken und
speichern können. Die Kompetenz des Systems entlang der Zeit
achse steigt. So können nun zeitversetzte Signale abwesende
sensorische Werte partiell ersetzen und so die Abhängigkeit
des Sytems und dessen Strategien von den momentanen sensori
schen Werten reduzieren, wodurch das Verhalten stabilisiert
werden kann. Das Netzwerksystem kann nun Wertepaare in Bezie
hung zu ganzen Netzwertepaarketten setzen. Eine zeitverzö
gerte Rückführung wäre auch für das Netzwerksystem geeignet,
um ganze Ketten zu lernen und damit solche des strategiegene
rierenden Netzwerkes zu modulieren. Es ist sinnvoll die Rück
führung zeitverzögerter Wertepaare von der Situation - insbe
sondere go-, no-go-, chaos-Zustand - abhängig zu machen. Bei
länger bestehenden chaos-Zustand sollte die Rückführung redu
ziert werden (durch Reduktion von Bandbreite, Zeitverzögerung
(falls mehrere berücksichtigt werden), Anzahl der Komponenten
usw.) dadurch kommt es zur Konzentration auf das hier und
jetzt.
Werden durch no-go-Zustände vorwiegend Vermeidungsreaktionen
(Abwenden, Ignorieren), die oft am schnellsten in den go-Zu
stand zurückführen, ausgelöst, setzt sich der Roboter nicht
genug mit Neuem auseinander. Diskriminationsvermögen und Ver
haltensrepertoire stagnieren. Um dies zu vermeiden, muß man
ausreichend lange chaos-Zustände erzwingen. Dies wird durch
ein übergeordnetes Rechenwerk bzw. einen Computer erreicht.
On-line Explorationsphase: Treten innerhalb eines typischen
Zeitraums nicht genug chaos-Zustände auf (Summation über
"leaky integrator") induziert das Rechenwerk den chaos-Zu
stand, indem die für eine Aufgabenstellung spezifischen Kom
ponenten (aufgrund der initialen "Programmierung" bekannt)
eines Aufgabenvektors (es können mehrere mehrkomponentige
Aufgabenvektoren vorliegen, die sowohl Komponenten enthalten,
die allen oder einigen Aufgabenvektoren gemeinsam sind, als
auch Komponenten, die nur in einem Aufgabenvektor enthalten
sind) durch stoachastische Variablen ersetzt werden. Durch
diese neuen stochastischen Variablen werden neue Wertepaare
erzeugt, die ausschließlich im Netzwerksystem gespeichert
werden. Dadurch kommt es u. a. zu geringfügigen Modifikationen
der Kohonenkarten der Netzwerke des Netzwerksystems. In er
ster Linie werden die Wertepaare aber den ähnlichsten bereits
gespeicherten Mustern, gemäß der Variation der spezifischen
Komponente des Aufgabenvektors im Grunde zufällig, zugeord
net.
Sollten Energiemangel, akute Bedrohungen oder Anforderungen,
Erschöpfung der Speicherkapazität des Netzwerksystems auftre
ten, wird die Explorationsphase ebenso abgebrochen wie bei
erfüllter chaos-Zustands-Quote. Ansonsten auftretende Gefah
ren bei der Exploration werden so vermieden.
Off-line Wissentransfer Phase: Diese wird vom Rechenwerk bei
erfülltem chaos-Zustandskontingent und bei erschöpfter Spei
cherkapazität des Netzwerksystems ausgelöst, indem die Hand
lungseinheiten und sensorischen Einrichtungen sowohl von dem
Netzwerksystem als auch dem strategiegenerierenden Netzwerk
system abgekoppelt werden. Die sensorischen Daten der senso
rischen Einrichtigung werden durch stochastische Variablen
ersetzt. Die auf Grund dieser stochastischen Variablen er
zeugten Steuerbefehle des strategiegenerierenden Netzwerksy
stems werden dem Netzwerksystem als weitere Eingangsdaten zu
geführt. Aus der Sicht des strategiegenerierenden Netzwerkes
ersetzen diese Variablen und das im Netzwerksystem gespei
cherte Wissen die physische Interaktion mit der Umwelt. Die
stochastischen Variablen sorgen dafür, daß möglichst viele
Wertepaare durchgespielt werden. Durch diese Interaktion des
Netzwerksystems (indem auch die Variablen gespeichert sind)
mit dem strategiegenerierenden Netzwerk wird indirekt Wissen
aus der Explorationsphase nun gemäß der Ähnlichkeit der die
sensorischen Daten ersetzenden stochastischen Variablen mit
den von dem strategiegenerierenden Netzwerk auf Grund dieser
stochastischen Variablen erzeugten Steuerbefehlen zu bereits
im strategiegenerierenden Netzwerk gespeicherten Wertepaaren
ins strategiegenerierende Netzwerk übertragen. Der springende
Punkt bei diesem Prozeß ist, daß in dem Netzwerksystem nicht
vollständig die gleichen Muster wie im strategiegenerierendem
Netzwerk gespeichert sind. Wäre dies der Fall, würden beide
Strukturen synchron agieren und sich gegenseitig
stabilisieren. Dieses Gleichgewicht zwischen Netzwerksystem
und strategiegenerierenden Netzwerk wird durch stochastische
Variablen immer wieder (kurzfristig) gestört, wenn sie von
dem Netzwerksystem als ein aus der Explorationsphase
stammendes Wertepaar interpretiert werden.
Werden in dem Netzwerksystem durch Steuerbefehle und stocha
stische Variablen Wertepaare aus der Explorationsphase ent
sprechende Muster (nur dieser Fall wird im weiteren disku
tiert) aktiviert, passiert folgendes. Die resultierenden Aus
gangssignale aus den Netzwerken des Netzwerksystems und des
Dynamikanalysators sind dem strategiegenerierenden Netzwerk
im allgemeinen unbekannt und destabilisieren dessen Dynamik,
insbesondere die resultierenden Steuerbefehle. Das strategie
generierende Netzwerk wird so gewissermaßen von dem Netzwerk
system dominiert, das nur einem instabilen selektierenden
Steuerbefehl unterliegt, bis ein dem strategiegenerierenden
Netzwerk bekannter, aufgabenspezifischer Ausgang des Netz
werksystems an dem strategiegenerienden Netzwerk anliegt und
zusammen mit Steuerbefehl und stochastischen Variablen dessen
Dynamik stabilisiert. (Ausgabe eines stabilen Steuerbefehls
mit entsprechender Selektionswirkung). Innerhalb der klassi
fikatorischen Diskriminationsfähigkeiten des strategiegene
rierenden Netzwerkes und dem Netzwerksystem wird so die Dyna
mik einer Teilmenge von Wertepaaren aus der Explorationsphase
nun auch vom strategiegenerierenden Netzwerk nachvollzogen.
Hierbei wählt gemäß "best fit"-Kriterium der Steuerbefehl un
ter den in der einem Netzwerk des Netzwerksystems vorgeschal
teten Kohonenkarte repräsentierten Steuerbefehlen aus der Ex
plorationsphase und die stochastische Variable unter den in
der anderen Kohonenkarte repräsentierten sensorischen Muster
aus der Explorationsphase aus. Die gleichzeitig an den Ein-
und Ausgängen des strategiegenerierenden Netzwerkes anliegen
den Ausgänge des Netzwerksystems, der stochastischen Vari
ablen und den Steuerbefehlen stellen die Rekonstruktion der
Wertepaare aus der Explorationsphase dar. Die Reaktion des
strategiegenerierenden Netzwerkes erfolgt natürlich ebenfalls
gemäß "best fit"-Kriterium. Die aus dieser Interaktion resul
tierenden Wertepaare und Ausgänge des Netzwerksytems sollen
nun in dem strategiegenerierenden Netzwerk und dem Netzwerk
system gespeichert werden. Die off-line-Phase wird bei akuter
Gefährdung oder Aufgabenstellung ebenso abgebrochen wie nach
dem Ablauf der für diesen Prozeß eingeräumten Zeitspanne, die
proportional der aufgelaufenen chaos-Zustände mit dem Explo
rationszeitraum vergleichbar ist.
Erreicht wird hierdurch, daß eine Teilmenge der aus der Ex
plorationsphase stammenden Wertepaare gemäß des "best fit"-
Kriteriums ins strategiegenerierende Netzwerk übertragen
wird. Es findet also ein crossing-over von explorativen Er
fahrungen in aufgabespezifische Wertepaaren statt. Das neue
Repertoire wird während aufgabenspezifischem Verhalten in üb
licher Weise selektioniert.
Im allgemeinen wird während der off-line-Phase nur eine Teil
menge der aus der Explorationsphase stammenden Wertepaare und
der aufgabenspezifischen Wertepaare reproduziert. Die übrigen
Wertepaare könnten einem beschleunigtem "Vergessensprozeß"
unterliegen. Dadurch wird Platz für neue Wertepaare geschaf
fen und die durchgespielten Werte gewinnen eine höhere Prio
rität. Man kann diesen Prozeß der Straffung unterstützen, in
dem während der off-line-Phase auftretende Wiederholungen in
nerhalb der Reichweite des Kurzzeitgedächtnisses mitsamt den
dazwischen liegenden Wertepaaren vom anschließenden Trai
ningsprozeß ausgeschlossen werden. Weiteres
Ausschlußkriterium wäre z. B. zu starke Instabilität der
Muster. Der hier beschriebene Prozeß - insbesondere die off-
line-Phase - kann in einem System bestehend aus
strategiegenerierende Netzwerke und Netzwerksysteme
beinhaltenden Modulen autonom ablaufen, während andere Module
Basisinteraktionen mit der Umwelt aufrecht erhalten können.
Um die Begrenzungen der vorhandenen Neurochips zu überwinden,
können mehrere Neurochips in paralleler, hierarchischer oder
gemischt parallel/hierarchischer ("fraktaler") Anordnung kom
biniert werden. Die Dimensionalität der Verbindungen zwischen
den Netzwerken bzw. den so entstandenen Modulen solcher An
ordnungen ist dabei immer niedriger als innerhalb der Netz
werke selbst. Diese geringere Dimensionalität kann für höhere
Stabilität und gezieltere sowie schnellere Optimierung ge
nutzt werden. Es muß aber berücksichtigt werden, daß nicht zu
viel Flexibilität verloren geht. Um die vermehrte Anzahl an
Modulen und Netzwerken gut zu nutzen, ist es vorteilhaft, daß
jedes Modul schwerpunktmäßig einen anderen Bereich der Koor
dination von sensorisch erfaßten Werten und ausgegebenen
Steuerbefehlen kontrolliert. Es wird ein topographisches Sy
stem eingeführt. Dies bedeutet, daß die Steuerbefehle eines
Moduls dorthin zurück gehen, wo die sensorische Information
herstammt bzw. wo eine maximale Korrelation besteht, falls
dies nicht auslegungsmäßig klar sein sollte.
Das topographische Prinzip wird auch innerhalb von Hierar
chien von Netzwerken durchgehalten; der Feedback bzw. die
Steuerbefehle gehen dorthin, wo die Information herkommt. Da
bei können auch Hierarchiestufen übersprungen werden, die
Bindung an den entsprechenden Abschnitt der Koordination von
sensorisch erfaßten Werten und ausgegebenen Steuerbefehlen
bleibt aber erhalten.
Der Begriff "hierarchisch" definiert sich hierbei über die
Beziehung der Signale zu den Kohonenkarten eines strategiege
nerierende Netzwerkes. Ein Signal von "unten" passiert analog
der sensorischen Information eine solche Kohonenkarten, Si
gnale von "oben" gehen direkt an das strategiegenerierende
Netzwerk. Die Verschaltung des zugehörigen Netzwerksystems
hat damit primär nichts zu tun. Als Standard weisen die Netz
werksysteme der verschiedenen strategiegenerierende Netzwerke
keine Verbindungen untereinander auf. Als Option wäre es mög
lich, unter den Netzwerksystemen genau zu den verbundenen
strategiegenerierende Netzwerke analoge Verbindungen aufzu
bauen (sh. auch Fig. 2).
Gemischt parallel hierarchisch heißt, daß zwischen den Netz
werken u. a. auch hierarchische Beziehungen bestehen aber
gleichzeitig diese Netzwerke (auszugsweise) direkten Zugang
zur gleichen "sensorischen" Information haben und gemeinsam
Steuerbefehle an die gleiche Substruktur richten.
"Fraktale" Organisation heißt, daß innerhalb eines Gefüges
von strategiegenerierende Netzwerken jedes einzelne durch
eine dem Gefüge analoge Kombination von Netzwerken ersetzt
werden kann.
Besonders vorteilhaft ist in diesem Zusammenhang der Einsatz
einer gemischt parallel/hierarchisch/fraktalen Anordnung mit
erfolgsbelohnten Lernprozesse und bedarfsabhängigen Ersetzen
bei häufigen chaos-Zuständen des betreffenden Netzwerks bzw.
Netzwerksystems durch eine gemischt hierarchisches Vierer
pack.
Steuert ein paralleles oder hierarchisches System aus strate
giegenerierende Netzwerk-Modulen z. B. ein Ensemble von
Schrittmotoren eines mehrgelenkigen Arms, ist es unvermeid
bar, daß die Steuerbefehle an einen Schrittmotor auch Folgen
für die übrigen Gelenke haben, speziell für die Position des
Endglieds. Insbesondere bei einer topographischen Aufteilung
der Arbeit auf verschiedenen Netzwerke muß sich z. B. ein
Netzwerk b mit den Folgen der Steuerbefehle eines Netzwerks a
befassen, obwohl die eigentliche Ursache bei Netzwerk a
liegt. Deshalb kann Netzwerk b diese Folgen nur in Grenzen
kompensieren. Damit die Stabilität gewährleistet wird, muß
Netzwerk a auch über die unerwünschten Nebeneffekte seiner
Steuerbefehle informiert werden. Wegen der reduzierten Dimen
sionalität der Kommunikation zwischen den Netzwerken a und b
(evtl. ist noch ein Netzwerk c oder mehr dazwischengeschal
tet) dauert dies zur Aufrechterhaltung der Steuerstabilität
zu lange. Man braucht also ein System, das diese unerwünsch
ten Koppelungen der Steuersätze mit ihren dynamischen Folgen
kompensiert ("Kleinhirn").
Das System muß die mangelnde Konnektivität zwischen Netzwerk
a und b sowie deren unter Umständen zu große Zeitkonstante
kompensieren. Damit das System nicht unnötige Arbeit leistet,
ist es sinnvoll, das System vom Zeitverhalten so auszulegen,
daß es nur die schnellen Korrekturen ausführt, die das zusam
mengesetzte Netzwerk nicht beherrscht. Auf der anderen Seite
begrenzt die Trägheit der Stellglieder die obere Grenzfre
quenz von dem System. Es hat wenig Sinn die Generierung der
Steuerbefehle schneller zu machen, als die Stellglieder fol
gen können. Die Signalverarbeitung erfolgt also in einem re
lativ engen Zeitbereich (= Bandpaßfilter). Alle Ein- und
Ausgangssignale des Sytems sind dementsprechend bandpassge
filtert. Das System selbst besteht aus einem
(hochdimensionalen) closed-loop-Regler und einem Feedforward-
Netzwerk, das die Korrekturbefehle aus dem Regler
(Steuerbefehl aus dem strategiegenerierenden Netzwerk minus
den tatsächlichen Positionen der Stellglieder (alle Größen
bandpassgefiltert) mit den (unter Umständen zeitverzögerten)
Steuerbefehlen aus dem strategiegenerierenden Netzwerk asso
ziiert, um in Zukunft diesen errechneten Korrekturbefehl bei
Anliegen des Steuerbefehls am Feedforward-Netzwerk antezipie
rend direkt an die Stellglieder zu geben. Das Feedforward-
Netzwerk ersetzt durch Lernen zunehmend den im nachhinein,
wenn auch schnell operierenden Regler.
Es werden Trainings- und Arbeitsphase unterschieden. In der
Trainingsphase werden die bandpaßgefilterten Steuerbefehl aus
dem strategiegenerierenden Netzwerk etwas zeitverzögert ange
boten, damit die gelernten Korrekturen an die Stellglieder
gegeben werden, bevor der Fehler im Regler detektiert und von
dort korrigiert wird. Das im Feedforward-Netzwerk gespei
cherte Wertepaar besteht aus dem behandelten Steuerbefehl-Si
gnal und der Korrektur aus dem Regler.
In der Arbeitsphase löst ein Steuerbefehl gemäß der beim
Training benutzten Zeitverzögerung den Korrekturbefehl aus,
bevor der Fehler manifest wird.
An der Peripherie werden die Steuerbefehle aus dem zusammen
gesetzten Netzwerk und bandpaßgefilterten Korrekturbefehle
von Feedforward-Netzwerk und Regler entsprechend verrechnet,
z. B. komponentengerecht, d. h. unter Berücksichtigung des to
pographischen Prinzips superponiert (addiert und ggf. renor
miert). Die Korrekturberichte aus dem Regler können ggf. nach
Integration und Verstärkung mit einer für das strategiegene
rierende Netzwerk handhabbaren Zeitkonstante an das strate
giegenerierende Netzwerk zurückgemeldet werden. Das strate
giegenerierende Netzwerk würde so soviel wie möglich dieser
Korrekturbefehle lernen und damit das Feedforward-Netzwerk
entlasten. Eine Trainingsphase empfiehlt sich, wenn das stra
tegiegenerierende Netzwerk selbst neue Steuerbefehle lernt.
Allerdings geht dies off-line nur, wenn ein entsprechendes
Kurzzeitgedächtnis für die notwendigen Korrekturen vorhanden
ist. Ansonsten muß mehr oder weniger unter on-line Bedingun
gen trainiert werden (zusätzliches Bewegungstraining).
Ein Ausführungsbeispiel sowie weitere Vorteile werden nach
stehend anhand der Fig. 1 bis 4 erläutert. Es
zeigt:
Fig. 1-4 jeweils ein 1. bis 4. Ausführungsbeispiel der Er
findung.
In den Zeichnungsfiguren kennzeichnen die punktiert darge
stellten Linien optionale Verbindungen. Darüber hinaus kenn
zeichnet der Buchstabe "a" eine abgeleitete Größe oder einen
zeitverzögerten Wert aus einem Kurzzeitgedächtnis. Die Buch
stabenfolgen "S1g" und "S2g" kennzeichnen zwischen
gespeicherte Werte, die in einer Starttrainingsphase oder in
einer während des Betriebes stattfindenden Trainingsphase die
aus der Umwelt durch die sensorische Einrichtung aufgenomme
nen Werte und die dazugehörenden Steuerbefehle ersetzen. Dies
wird auch durch die die Verbindungsleitung umschlingenden
Kreise gekennzeichnet.
Von einer aus einem oder mehreren Sensoren bestehenden senso
rischen Einrichtung SE werden die erfaßten Werte S2, die zu
einem oder mehreren Vektoren mit mehreren Komponenten
zusammengefaßt worden sind, einem strategiegenerierenden
Netzwerk SGNW und einem Netzwerk B2 mit einer vorgeschalteten
Kohonenkarte KK2 eines Netzwerksystems zugeführt. Ebenso wer
den die von dem strategiegenerierenden Netzwerk SGNW aufgrund
der Vektoren S2 erzeugten Vektoren S1, die Steuerbefehle für
Handlungseinheiten HE darstellen, neben ihrer Zuführung zu
den Handlungseinheiten HE einem Netzwerk B1 mit einer vorge
schalteten Kohonenkarte KK1 des Netzwerksystems zugeführt.
Sowohl die Steuerbefehle S1 als auch die sensorischen Werte
S2 werden vor Zuführung zu den jeweiligen Netzwerken B1, B2
über die Kohonenkarten KK1, KK2 geführt. Die Netzwerke B1, B2
besitzen an ihren Ausgangsseiten jeweils Verbindungen zu ih
ren eigenen Kohonenkarten KK1 bzw. KK2, als auch eine Verbin
dung zu der Kohonenkarte KK1, KK2 des anderen Netzwerkes B1,
B2. Die Ausgangswerte der Netzwerke B1, B2 werden ebenfalls
einem Dynamikanalysator DAN zugeführt, der zwischen stabilen
und unstabilen Ausgangswerten unterscheidet. Schließlich wer
den die Ausgangswerte der Netzwerke B1, B2 des Netzwerksy
stems dem strategiegenerierenden Netzwerk
zugeführt. Als weitere Eingangsinformation er
hält das strategiegenerierende Netzwerk SGNW das Ergebnis des
Dynamikanalysators DAN, der zwischen go-Zuständen, no-go-Zu
ständen und chaos-Zuständen unterscheidet. In Abhängigkeit
seiner Eingangswerte erzeugt das strategiegenerierende Netz
werk wiederum Steuerbefehle S1, die den Handlungseinheiten HE
als auch dem zugehörigen Netzwerk B1 des Netzwerksystems
zugeführt werden. Infolge der Steuerbefehle S1 werden von den
sensorischen Einrichtungen SE Vektoren S2 erfaßt, die dem
zugehörige Netzwerk B2 zugeführt werden. Gleichfalls werden
die Steuerbefehle S1 als auch die sensorischen Werte S2 einer
dem strategiegenerierenden Netzwerk SGNW vorgeschalteten
Kohonenkarte KK3 zugeführt. Schließlich werden die von der
sensorischen Einrichtung SE erfaßten Sensorwerte S2 als auch
die Steuerbefehle S1 einem Kurzzeitgedächtnis KZG zugeführt,
welches diese Wertepaare abspeichert.
Das erfindungsgemäße Verfahren zerfällt in zwei Handlungsbe
standteile. In einer Trainingsphase werden ausgesuchte Werte
paare S1g/S2g als xn-Werte (n = 1, ..., i) den Kohonenkarten
KK1, KK2 der Netzwerke B1, B2 des Netzwerksystems zugeführt.
Ebenso werden diese Werte dem strategiegenerierenden Netzwerk
SGNW zugeführt. Im Laufe dieses Trainings bilden sich dann in
den zugehörigen Netzwerken SGNW, B1, B2 bestehende Synapsen
stärken aus. Hierbei können die dem strategiegenerierenden
Netzwerk zugeführten Werte (x0) die Ausgangswerte des Dynami
kanalysators und der Netzwerke B1, B2 des Netzwerksystems er
setzen und deren Zuführung erst dann erfolgen, wenn der Dyna
mikanalysator DAN Stabilität im Training zeigt. Nach Abschluß
der Trainingsphase wird der Roboter in Gang gesetzt mittels
eines ersten Steuerbefehles S1. Infolge dieses Steuerbefehles
S1 erzeugen die Handlungseinheiten HE eine Handlung, die zu
einer Veränderung der sensorischen Werte S2 führen, die dem
strategiegenerierenden Netzwerk SGNW über die Kohonenkarte
KK3 als auch dem Netzwerk B2 über die Kohonenkarte KK2 des
Netzwerksystems sowie dem Kurzzeitgedächtnis MG zugeführt
werden. Infolge der von der sensorischen Einrichtung SE er
faßten Werte S2 gibt das strategiegenerierende Netzwerk SGNW
Steuerbefehle S1 aus, die sowohl den Handlungseinheiten HE,
dem Netzwerk B1 des Netzwerksystems über die Kohonenkarte KK1
als auch dem Kurzzeitgedächtnis MG und dem strategiegenerie
renden Netzwerk SGNW selbst zugeführt werden. Die Ausgangs
werte der Netzwerke B1, B2 werden sowohl ihren jeweiligen zu
geordneten Kohonenkarten KK1, KK2 als auch der Kohonenkarte
KK2, KK1 des benachbarten Netzwerkes B2, B1 zugeführt. Des
weiteren werden die Ausgangswerte der Netzwerke B1, B2 dem
Dynamikanalysator DAN und dem strategiegenerierenden Netzwerk
SGNW zugeführt. Der Dynamikanalysator DAN unterscheidet auf
grund der Stabilität bzw. Unstabilität der Ausgangswerte der
Netzwerke B1, B2 in go-, no-go- oder chaos-Zustände. Diese
Zustände werden dem strategiegenerierenden Netzwerk SGNW wie
derum mitgeteilt, das aufgrund seiner weiteren Eingangswerte
neue Steuerbefehle S1 erzeugt, die wiederum zu veränderten
Steuerbefehlen S2 der sensorischen Einrichtungen SE führen.
Nach Erreichen eines stabilen Zustandes der Ausgangswerte der
Netzwerke B1, B2 wird das zugehörige Wertepaar S1, S2 zusam
men mit den zeitlich vor diesem Wertepaar S1/S2 erfaßten und
im Kurzzeitgedächtnis abgespeicherten Wertepaare den Netz
werken SGNW, B1, B2 auftrainiert. Somit wird die "positive"
Erfahrung des Roboters sofort umgesetzt, so daß bei Auftreten
eines Wertepaares S1/S2, das zwar in der vorbeschriebenen Si
tuation zu keinem stabilien Ausgangswert aus dem Netzwerksy
stem geführt hat, jedoch zeitlich vor und in Verbindung mit
einem als bekannt eingestuften Wertepaar S1/S2 steht, die si
tuation als bekannt eingeschätzt wird.
In der Fig. 2 wird ein Ausführungsbeispiel der Erfindung
wiedergegeben, bei dem ein Netzwerksystem durch ein gemischt
hierarchisches "Viererpack"-Netzwerksystem ersetzt ist. Das
Netzwerk nw, welches ein strategiegenerierendes Netzwerk so
wie ein Netzwerksystem umfaßt, wird durch ein Ensemble von
vier gleichartig wie das Netzwerk nw aufgebauten Netzwerken
a0, n1, n2, n3 ersetzt, wobei a0 dem alten Netzwerk nw ent
spricht und n1, n2, n3 neue Netzwerke sind. n2 wird im näch
sten Schritt durch den Viererpack der nächsten Generation er
setzt. Die neuen Netzwerke n1, n2, n3 liegen im Bypass zum
alten Netzwerk a0 (nw) und können so sukzessive von a0 ler
nen, bis unter Kontrolle von a0 deren Ausgang zunehmend be
rücksichtigt wird. Dabei übernimmt das alte Netzwerk a0 das
Managament von Eingangs- und Ausgangswerten aller Netzwerke
n1, n2, n3 (des Viererpacks) inklusive ihrer Gewichtungen.
Diese Gewichtungen sind vor allen Dingen für den zurückge
führten Ausgang der vier Netzwerke von Bedeutung, die nun
alle auf das normale Feedbackformat (identisch mit Format des
ursprünglichen Steuerbefehls) reduziert werden.
Dies kann beispielsweise durch gewichtete Superposition bei
Erhaltung der Topographie erfolgen, wie dies nachstehend im
Zusammenhang mit der Fig. 3 erläutert wird. Als Resultat
wird aber das Repertoire des Feedback-Outputs und damit der
Steuersatz für untergeordnete Strukturen selbst ohne flexible
Gewichtung mindestens verdreifacht. Für die Feedforward-Pro
jektion FF zu einem übergeordneten, nicht dargestellten Netz
werk ist es nicht nötig, die Ausgänge der vier Netzwerke a,
n1, n2, n3 auf Feedbackformat FB zu reduzieren, da auf der
Kohonenkarte dieses übergeordneten Netzwerkes genügend Platz
ist, um den aus den Ausgängen a, n1, n2, n3 bestehenden zu
sammengesetzten Feedforward Vektor aufzunehmen.
Weiterhin können in diesem Zusammenhang Karten als Sonderfall
einer parallelen Erweiterung angesehen werden, vor allem für
topographisch analog angeordnete Ensembles gleichartiger Sub
systeme.
Bei der in Fig. 3 dargestellten Ausführungsform handelt es
sich um eine Vertiefung der in Fig. 2 beschriebenen Ausfüh
rung, wobei insbesondere die innere Kommunikation der Netz
werke und die Organisation der Ein- und Ausgänge eines
Viererpacks beschrieben werden. S2 ist die topographisch ge
ordnete Information von der sensorischen Einrichtung SE. Der
Output der Netzwerke a und n1 weist schon die richtige Topo
graphie auf und kann direkt superponiert werden, um den Steu
erbefehl S1 zu den Handlungseinheiten HE und untergeordneten
Netzwerken zu bilden. Die jeweils benachbarten Ausgangskompo
nenten der Netzwerke n2 und n3 werden zu einem Wert zusammen
gefaßt, um das topographisch richtige Format zu bilden, das
mit den Ausgängen der Netzwerke a und n1 zum Steuerbefehl S1
(= FB) superponiert werden kann. Die Erhaltung der Topogra
phie ist durch die Symmetrie der Zuordnung der Netzwerke zu
S2 und S1 angedeutet. Für die Feedforward Projektion FF zu
einem übergeordneten Netzwerk ist es nicht nötig, die Aus
gänge der 4 Netzwerke a, n1, n2, n3 auf Feedbackformat FB zu
reduzieren, da auf der Kohonenkarte dieses Netzwerkes genü
gend Platz ist um den aus den Ausgängen der Netzwerke a, n1,
n2, n3 bestehenden zusammengesetzten Feedforward Vektor auf
zunehmen.
Fig. 4 beschreibt folgende Ausführungsform: Das zusammenge
setzte Netzwerk besteht aus den Modulen, die aus strategiege
nerierenden Netzwerken SGNW und Netzwerksystemen bestehen.
Deren Ausgänge S1 gehen an die Handlungseinheiten HE und an
PK. PK besteht aus Bandpassfiltern BPF, einem Regler
(zwischen den BPF) und einem Feedforward Netzwerk. Im Signal
weg liegen noch ein Integrator I mit der Zeitkonstanten des
zusammengesetzten Netzwerks und ein Delay D, das während des
Trainingsprozesses aktiv, ansonsten überbrückt ist. Die Fol
gen der Steuersätze S1 und deren Korrekturen K und K' aus PK,
die gemeinsam die Handlungseinheiten HE steuern, werden von
der sensorischen Einrichtung SE erfaßt und an das zusammenge
setzte Netzwerk und PK (BPF) weitergegeben.
Claims (16)
1. Verfahren zum Steuern eines autonom explorierenden Roboters, wobei von
einer sensorischen Einrichtung (SE) erfaßte Werte einem ersten künstlichen
neuronalen Netz (SGNW) als Eingangsvektor (S2) zugeführt werden, und
Handlungseinheiten (HE) die von dem ersten künstlichen neuronalen Netz
(SGNW) erzeugten Steuerbefehle als Ausgangsvektor (S1) empfangen,
dadurch gekennzeichnet, daß
die Eingangsvektoren (S2) und die Ausgangsvektoren (S1) mehreren weiteren
künstlichen neuronalen Netzen (B1, B2) über Kohonenkarten (KK1, KK2)
zugeführt werden, wobei Ausgangswerte der weiteren künstlichen neuronalen
Netze (B1, B2) wenigstens der Kohonenkarte (KK1, KK2) des anderen weiteren
künstlichen neuronalen Netzes (B2, B1) zugeführt werden, und die
Ausgangswerte einem ihnen nachgeschalteten Dynamikanalysator (DAN)
zuführbar sind, der anhand der Stabilität der Ausgangswerte ein Paar von
Eingangs-/Ausgangsvektoren (S2/S1) als bekannt bzw. unbekannt
unterscheidet, und die Ausgangswerte und/oder das Ergebnis des
Dynamikanalysators (DAN) dem ersten künstlichen neuronalen Netz (SGNW)
zugeführt werden; und daß während einer Trainingsphase den künstlichen
neuronalen Netzen (SGNW, B1, B2) ausgewählte Paare von Eingangs-
/Ausgangsvektoren (S2/S1) auftrainiert werden.
2. Verfahren nach Anspruch 1
dadurch gekennzeichnet, daß
als unbekannt klassifizierte Vektorpaare (S1/S2) mit einem bereits bekannten
Vektorpaar, das Bestandteil einer zum Erfolg führenden Kette von Vektorpaaren
(S1/S2) ist, verknüpft werden, wenn sie diesen zeitlich unmittelbar vorangehen,
indem die bislang unbekannten, in einem Kurzzeitgedächtnis (KZG)
zwischengespeicherten, Vektorpaare den künstlichen neuronalen Netzen
(SGNW, B1, B2) auftrainiert werden.
3. Verfahren nach Anspruch 1
dadurch gekennzeichnet, daß
das Ergebnis des Dynamikanalysators (DAN) dem ersten künstlichen neuronalen
Netz (SGNW) als zusätzlicher Eingangswert zugeführt wird.
4. Verfahren nach einem der vorhergehenden Ansprüche
dadurch gekennzeichnet, daß
die Eingangs-/Ausgangsvektoren (S2/S1) dem ersten künstlichen neuronalen
Netz (SGNW) über wenigstens eine Kohonenkarte (KK3) zugeführt werden.
5. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, daß
die Eingangs- und Ausgangsvektoren (S2/S1) im Kurzzeitgedächtnis (KZG)
abgelegt werden.
6. Vorrichtung zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis
5, umfassend eine sensorische Einrichtung (SE) zum Erfassen von Werten der
Umwelt, welche einem ersten künstlichen neuronalen Netz (SGNW) als
Eingangsvektor (S2) zugeführt werden, und Handlungseinheiten (HE), die von
dem ersten Netz (SGNW) erzeugte Steuerbefehle als Ausgangsvektor (S1)
empfangen,
dadurch gekennzeichnet, daß
mehrere weitere künstliche neuronale Netze (B1, B2) vorgesehen sind, welche
die Eingangs-/Ausgangsvektoren (S2/S1) über Kohonenkarten (KK1, KK2)
empfangen, wobei die weiteren Netze (B1, B2) an ihren Ausgangsseiten
Verbindungen zu den Kohonenkarten (KK2, KK1) der anderen weiteren Netze
(B2, B1) aufweisen und die Ausgangsseiten ferner mit einem Dynamikanalysator
(DAN) verbunden sind, dessen Ausgang wiederum mit dem ersten Netz (SGNW)
verkoppelt ist.
7. Vorrichtung nach Anspruch 6,
dadurch gekennzeichnet, daß
der Dynamikanalysator (DAN) globale oder lokale Go-, No-Go- oder Chaos-
Zustände anzeigt und diese zusammen mit den Ausgangswerten der weiteren
künstlichen neuronalen Netze (B1, B2) an das erste künstliche neuronale Netz
(SGNW) weitergibt.
8. Vorrichtung nach einem der Ansprüche 6 oder 7,
dadurch gekennzeichnet, daß
der Dynamikanalysator (DAN) als Schieberegister ausgebildet ist.
9. Vorrichtung nach einem der Ansprüche 6 oder 7,
dadurch gekennzeichnet, daß
der Dynamikanalysator (DAN) als Fourieanalysator ausgebildet ist.
10. Vorrichtung nach einem der Ansprüche 6 oder 7,
dadurch gekennzeichnet, daß
die von der sensorischen Einrichtung (SE) erzeugten Eingangsvektoren (S2) und
die von dem ersten künstlichen neuronalen Netz (SGNW) ausgegebenen
Ausgangsvektoren (S1) einem Kurzzeitgedächtnis (KZG) zuführbar sind.
11. Vorrichtung nach Anspruch 10,
dadurch gekennzeichnet, daß
das Kurzzeitgedächtnis (KZG) als Schieberegister ausgebildet ist.
12. Vorrichtung nach einem der Ansprüche 6 oder 7,
dadurch gekennzeichnet, daß
die von der sensorischen Einrichtung (SE) erzeugten Eingangsvektoren (S2) und
die von dem ersten künstlichen neuronalen Netz (SGNW) erzeugten
Ausgangsvektoren (S1) über eine weitere Kohonenkarte (KK3) dem ersten
künstlichen neuronalen Netz (SGNW) zuführbar sind.
13. Verwendung der Vorrichtung gemäß einem der Ansprüche 6 bis 12 als Modul in
einem größeren System von künstlichen neuronalen Netzen solcher Module.
14. Verwendung nach Anspruch 13,
dadurch gekennzeichnet, daß
ein fraktales Gefüge von Modulen durch rekursives, bedarfsabhängiges Ersetzen
einzelner Module durch eine dem Gesamtgefüge analoge, selbstähnliche
Kombination von Modulen entsteht.
15. Verwendung nach Anspruch 13 oder 14,
dadurch gekennzeichnet, daß
die Verbindungen zwischen den Modulen hierarchisch organisiert sind und die
Verbindungen zur Peripherie im wesentlichen parallel und topographisch
geordnet sind, so daß jedes Modul seine Ausgangswerte zu jenem Teilbereich
der Peripherie (SE, HE) und der Modularchitektur sendet, woher es seine
Eingangswerte bezieht.
16. Verwendung nach einem der Ansprüche 13, 14 oder 15
dadurch gekennzeichnet, daß
die bereits gelernten Eingangs-/Ausgangsvektoren (S2/S1) eines Moduls, das
bereits eine Lernphase durchlaufen hat, erhalten bleiben, bis die neue
Kombination das Verhalten des einen Moduls annähernd reproduziert.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE4440859A DE4440859C2 (de) | 1994-11-15 | 1994-11-15 | Verfahren und Vorrichtung zum Steuern eines autonom explorierenden Roboters |
US08/554,948 US5774632A (en) | 1994-11-15 | 1995-11-13 | Method and device for the control of an autonomously exploring robot |
EP95118004A EP0718732A3 (de) | 1994-11-15 | 1995-11-15 | Verfahren und Vorrichtung zum Steuern eines autonom explorierenden Roboters |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE4440859A DE4440859C2 (de) | 1994-11-15 | 1994-11-15 | Verfahren und Vorrichtung zum Steuern eines autonom explorierenden Roboters |
Publications (2)
Publication Number | Publication Date |
---|---|
DE4440859A1 DE4440859A1 (de) | 1996-05-30 |
DE4440859C2 true DE4440859C2 (de) | 1998-08-06 |
Family
ID=6533426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE4440859A Expired - Fee Related DE4440859C2 (de) | 1994-11-15 | 1994-11-15 | Verfahren und Vorrichtung zum Steuern eines autonom explorierenden Roboters |
Country Status (3)
Country | Link |
---|---|
US (1) | US5774632A (de) |
EP (1) | EP0718732A3 (de) |
DE (1) | DE4440859C2 (de) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102020211648A1 (de) | 2020-09-17 | 2022-03-17 | Robert Bosch Gesellschaft mit beschränkter Haftung | Vorrichtung und Verfahren zum Steuern einer Robotervorrichtung |
DE102022125829B3 (de) | 2022-10-06 | 2024-01-04 | Deutsches Zentrum für Luft- und Raumfahrt e.V. | Verfahren zum Steuern eines Roboters und Roboter |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7117131B2 (en) * | 1998-05-26 | 2006-10-03 | Definiens Ag | Method for characterizing a complex system |
JP3422686B2 (ja) | 1998-06-12 | 2003-06-30 | 三菱電機株式会社 | データ復号装置及びデータ復号方法 |
US6950814B2 (en) * | 2000-06-24 | 2005-09-27 | International Business Machines Corporation | Natural language processing methods and systems |
EP1406751A2 (de) * | 2001-07-13 | 2004-04-14 | FSI International | Robotersteuerungssystem |
US7577631B2 (en) * | 2001-09-10 | 2009-08-18 | Feldhake Michael J | Cognitive image filtering |
ES2262988T3 (es) * | 2002-01-31 | 2006-12-01 | SOLAR & ROBOTICS S.A. | Mejora de un procedimiento de control de un robot movil autonomo y dispositivo asociado. |
EP1484716A1 (de) * | 2003-06-06 | 2004-12-08 | Sony France S.A. | Eine Architektur für selbstentwickelnde Einheiten |
US8096811B2 (en) * | 2003-11-29 | 2012-01-17 | American Board Of Family Medicine, Inc. | Computer architecture and process of user evaluation |
US7400291B2 (en) * | 2003-12-04 | 2008-07-15 | Sony Corporation | Local positioning system which operates based on reflected wireless signals |
KR100506097B1 (ko) * | 2004-02-04 | 2005-08-03 | 삼성전자주식회사 | 자기장 지도 생성 방법 및 장치와 이를 활용한 이동체의포즈 확인 방법 및 장치 |
US7478192B2 (en) * | 2004-11-03 | 2009-01-13 | Saffron Technology, Inc. | Network of networks of associative memory networks |
US7725418B2 (en) * | 2005-01-28 | 2010-05-25 | Honda Motor Co., Ltd. | Responding to situations using multidimensional semantic net and Bayes inference |
JP4663484B2 (ja) * | 2005-04-25 | 2011-04-06 | 株式会社日立製作所 | システムセキュリティ設計・評価支援ツール、システムセキュリティ設計支援ツール、システムセキュリティ設計・評価支援プログラム、およびシステムセキュリティ設計支援プログラム |
US7370022B2 (en) * | 2005-07-08 | 2008-05-06 | Honda Motor Co. | Building plans for household tasks from distributed knowledge |
US8019713B2 (en) * | 2005-07-08 | 2011-09-13 | Honda Motor Co., Ltd. | Commonsense reasoning about task instructions |
US7456596B2 (en) * | 2005-08-19 | 2008-11-25 | Cisco Technology, Inc. | Automatic radio site survey using a robot |
US7603330B2 (en) | 2006-02-01 | 2009-10-13 | Honda Motor Co., Ltd. | Meta learning for question classification |
KR100757839B1 (ko) * | 2006-04-04 | 2007-09-11 | 삼성전자주식회사 | 제어시스템, 제어시스템을 갖는 이동로봇장치 및 그제어방법 |
US20100017026A1 (en) * | 2008-07-21 | 2010-01-21 | Honeywell International Inc. | Robotic system with simulation and mission partitions |
US7977906B1 (en) * | 2008-08-14 | 2011-07-12 | Hrl Laboratories, Llc | Saccadic tracking for an electro-mechanical system |
US9409294B1 (en) | 2015-03-05 | 2016-08-09 | Toyota Motor Engineering & Manufacturing North America, Inc. | Hierarchical geometric plan composition (HGPC) framework for robot task planning |
WO2018200637A1 (en) * | 2017-04-28 | 2018-11-01 | Southie Autonomy Works, Llc | Automated personalized feedback for interactive learning applications |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4884216A (en) * | 1987-11-09 | 1989-11-28 | Michael Kuperstein | Neural network system for adaptive sensory-motor coordination of multijoint robots for single postures |
JPH02136904A (ja) * | 1988-11-18 | 1990-05-25 | Hitachi Ltd | 動作系列自己生成機能を持つ運動制御装置 |
US5111531A (en) * | 1990-01-08 | 1992-05-05 | Automation Technology, Inc. | Process control using neural network |
US5124918A (en) * | 1990-01-18 | 1992-06-23 | Case Western Reserve University | Neural-based autonomous robotic system |
DE4001493A1 (de) * | 1990-01-19 | 1991-07-25 | Pietzsch Ibp Gmbh | Verfahren und einrichtung zur selbsttaetigen steuerung von bewegbaren geraeten |
JPH04227507A (ja) * | 1990-07-02 | 1992-08-17 | Nec Corp | 移動ロボット用のマップを作成し保持する方法 |
JPH04211802A (ja) * | 1990-07-25 | 1992-08-03 | Toshiba Corp | ニュ−ラルネットワ−ク装置 |
EP0479271B1 (de) * | 1990-10-03 | 1998-09-09 | Aisin Seiki Kabushiki Kaisha | Automatisches Steuersystem für Seitenführung |
US5448681A (en) * | 1992-03-27 | 1995-09-05 | National Semiconductor Corporation | Intelligent controller with neural network and reinforcement learning |
US5323470A (en) * | 1992-05-08 | 1994-06-21 | Atsushi Kara | Method and apparatus for automatically tracking an object |
JPH06131009A (ja) * | 1992-10-20 | 1994-05-13 | Fujitsu Ltd | フィードバック制御装置 |
US5392382A (en) * | 1992-12-01 | 1995-02-21 | Schoppers; Marcel J. | Automated plan synthesizer and plan execution method |
JPH06314103A (ja) * | 1993-04-30 | 1994-11-08 | Fujitsu Ltd | 制御装置と能動的センシング装置 |
US5608843A (en) * | 1994-08-01 | 1997-03-04 | The United States Of America As Represented By The Secretary Of The Air Force | Learning controller with advantage updating algorithm |
US5548512A (en) * | 1994-10-04 | 1996-08-20 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration | Autonomous navigation apparatus with neural network for a mobile vehicle |
-
1994
- 1994-11-15 DE DE4440859A patent/DE4440859C2/de not_active Expired - Fee Related
-
1995
- 1995-11-13 US US08/554,948 patent/US5774632A/en not_active Expired - Fee Related
- 1995-11-15 EP EP95118004A patent/EP0718732A3/de not_active Withdrawn
Non-Patent Citations (3)
Title |
---|
HOFFMANN, N.: "Kleines Handbuch Neuronale Netze", Vieweg-Verlag, Berlin 1993, S.105-110 u. 154-159 * |
ROJAS, PAUL: "Theorie der neuronalen Netze", Springer-Verlag 1993, S.356-375 * |
WALTER, J.A., SCHULTEN, K.J.: "Implemen- tation of Self-Organizing Neural Networks for Visno-Motor Control of an Industrial Robot" in "IEEE Transaktions on Neural Networks", Bd.4, Nr.1, Jan.1993, S.86-95 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102020211648A1 (de) | 2020-09-17 | 2022-03-17 | Robert Bosch Gesellschaft mit beschränkter Haftung | Vorrichtung und Verfahren zum Steuern einer Robotervorrichtung |
DE102022125829B3 (de) | 2022-10-06 | 2024-01-04 | Deutsches Zentrum für Luft- und Raumfahrt e.V. | Verfahren zum Steuern eines Roboters und Roboter |
Also Published As
Publication number | Publication date |
---|---|
EP0718732A2 (de) | 1996-06-26 |
EP0718732A3 (de) | 1996-08-28 |
DE4440859A1 (de) | 1996-05-30 |
US5774632A (en) | 1998-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE4440859C2 (de) | Verfahren und Vorrichtung zum Steuern eines autonom explorierenden Roboters | |
DE69823049T2 (de) | Modellfreie adaptive prozesssteuerung | |
DE102007001024B4 (de) | Verfahren zur rechnergestützten Regelung und/oder Steuerung eines technischen Systems insbesondere einer Gasturbine | |
EP2135140B1 (de) | Verfahren zur rechnergestützten steuerung und/oder regelung eines technischen systems | |
DE102007001025B4 (de) | Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems | |
DE102008020379A1 (de) | Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems | |
DE19531967C2 (de) | Verfahren zum Training eines neuronalen Netzes mit dem nicht deterministischen Verhalten eines technischen Systems | |
WO2006000427A1 (de) | Fahrzeug-steuergerät mit einem neuronalen netz | |
EP0754317B1 (de) | Einrichtung zur kompensation von nichtlinearitäten an maschinenachsen | |
DE10341574A1 (de) | Konfiguration und Betrachtungsanzeige für einen integrierten prädiktiven Modellsteuerungs- und Optimierungsfunktionsblock | |
DE102017223717A1 (de) | Verfahren zum Betreiben eines Roboters in einem Multiagentensystem, Roboter und Multiagentensystem | |
WO1997050021A1 (de) | Verfahren und system zur inbetriebsetzung von industrieanlagen, insbesondere der grundstoffindustrie | |
WO2020182541A1 (de) | Verfahren zum betreiben eines roboters in einem multiagentensystem, roboter und multiagentensystem | |
DE112011100192T5 (de) | Verfahren zum Bearbeiten von Werkstücken mittels eines kognitiven Bearbeitungskopfes und ein dieses verwendender Bearbeitungskopf | |
DE102020122373A1 (de) | Vorrichtung für maschinelles Lernen, Servosteuervorrichtung, Servosteuersystem und Verfahren für maschinelles Lernen | |
EP1119799B1 (de) | Regeleinrichtung zur regelung einer strecke mit mehreren verkoppelten regelgrössen | |
EP1148395A2 (de) | Regler, insbesondere Lenkregler für Flugkörper | |
DE102020206913B4 (de) | Verfahren und Vorrichtung zum Betreiben eines Roboters | |
DE4311290A1 (de) | Modellbasierte neuronale Bahnführung eines Industrieroboters | |
DE102020104267A1 (de) | Computerimplementiertes Regelungs- oder Folgeregelungsverfahren oder Optimierungsverfahren zur Absicherung von Steuerungsalgorithmen einer Regelung und/oder Regelungsalgorithmen | |
EP3953865A1 (de) | Verfahren, vorrichtung und computerprogramm zum betreiben eines tiefen neuronalen netzes | |
EP4139849A1 (de) | Verfahren zum konfigurieren von komponenten in einem system mit hilfe von multi-agent reinforcement learning, computerlesbares speichermedium und system | |
DE3609925A1 (de) | Einrichtung zur simulation von neuronensystemen | |
DE102022208082B3 (de) | Verfahren zum Steuern eines technischen Systems | |
EP3489773A1 (de) | Verfahren zum rechnergestützten steuern eines technischen systems, insbesondere einer energieerzeugungsanlage |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: VIRTUAL GENETICS AB, STOCKHOLM, SE |
|
8328 | Change in the person/name/address of the agent |
Free format text: VOGESER, LIEDL, ALBER, DR. STRYCH, MUELLER UND KOLLEGEN, 81369 MUENCHEN |
|
8381 | Inventor (new situation) |
Free format text: KASKE, ALEXANDER, 50933 KOELN, DE |
|
8327 | Change in the person/name/address of the patent owner |
Owner name: KASKE, ALEXANDER, WIEN, AT |
|
8328 | Change in the person/name/address of the agent |
Representative=s name: VOGESER, LIEDL, ALBER, DR. STRYCH, MUELLER UND KOLL |
|
8328 | Change in the person/name/address of the agent |
Representative=s name: HANSMANN & VOGESER, 81369 MUENCHEN |
|
8339 | Ceased/non-payment of the annual fee |