DE102007044792A1

DE102007044792A1 - Verfahren, Steuergerät und System zur Steuerung oder Bedienung

Info

Publication number: DE102007044792A1
Application number: DE102007044792A
Authority: DE
Inventors: Clemens Dr. Bulitta; Robert Kagermeier; Dietmar Sierk
Original assignee: Siemens AG
Current assignee: Siemens Healthcare GmbH
Priority date: 2007-09-19
Filing date: 2007-09-19
Publication date: 2009-04-02
Anticipated expiration: 2027-09-20
Also published as: US8044791B2; US20090076827A1; DE102007044792B4

Abstract

Zur Steuerung oder Bedienung einer Mehrzahl von Zielsystemen, insbesondere von Zielprozessen oder Zielgeräten, über gesprochende Befehle ist jedem Zielsystem oder Gruppen von Zielsystemen eine für dieses Zielsystem oder für diese Gruppe spezifische Schnittstelleninformation zugeordnet, die zur Anmeldung eines Zielsystems an ein Spracherkennungssystem vom Zielsystem auf das Spracherkennungssystem übertragen wird, sofern sie noch nicht auf diesem Spracherkennungssystem gespeichert sind. Das Spracherkennungssystem wertet bei der Steuerung oder Bedienung eines Zielsystems die für dieses Zielsystem spezifische Schnittstelleninformation oder die für die Gruppe, welcher dieses Zielsystem angehört, spezifische Schnittstelleninformation aus, um gesprochene Befehle zu erkennen, die zur Steuerung oder Bedienung dieses Zielsystems gesprochen werden.

Description

Die Erfindung betrifft ein Verfahren, ein Steuergerät und ein System zur Steuerung oder Bedienung einer Mehrzahl von Zielsystemen, insbesondere von Zielprozessen oder Zielgeräten, über gesprochene Befehle. Die Steuerung oder Bedienung – im folgenden auch einfach „die Steuerung" oder „die Bedienung" genannt – einzelner Zielsysteme über gesprochene Befehle mit Hilfe der automatisierten Spracherkennung ist dem Fachmann grundsätzlich, beispielsweise aus der Büroautomatisierung, oder anderen Technikgebieten, geläufig. Typische Zielsysteme sind beispielsweise Textverarbeitungssysteme oder andere prozessorgesteuerte Automaten, die auf definierte Befehle in programmierter Weise reagieren. Bei solchen bekannten Anwendungen werden für jeden Typ eines zu steuernden Zielsystems typischerweise spezifische Spracherkennungssysteme verwendet, deren Eigenschaften speziell auf die Anwendung und das zu steuernde Zielsystem abgestimmt sind.
Diese Eigenschaft bekannter Systeme erschwert den täglichen Umgang mit solchen Systemen durch Benutzer, die eine Mehrzahl solcher Systemtypen in gemischter Folge benutzen wollen, und die deshalb oft keine Gelegenheit haben, sich mit den speziellen Eigenschaften verschiedener Zielsysteme näher vertraut zu machen.
Diese Situation sucht die vorliegende Erfindung zu verbessern. Zur Lösung dieser Aufgabe sind erfindungsgemäß ein Verfahren, ein Steuergerät und ein System nach einem der unabhängigen Ansprüche vorgesehen. Vorteilhafte Weiterbildungen der Erfindung bilden den Gegenstand von Unteransprüchen.
Im Folgenden wird die Erfindung anhand bevorzugter Ausführungsbeispiele und mit Hilfe von Figuren näher beschrieben.
Dabei zeigt
1 in schematischer Weise ein System zur Steuerung oder Bedienung einer Mehrzahl von Zielsystemen (ZS1, ..., ZSn) mit Hilfe einer Mehrzahl von Steuergeräten (SG1, ..., SGm) und mit Hilfe eines Spracherkennungssystems (SES) gemäß einem Ausführungsbeispiel der Erfindung;
2 in schematischer Weise ein System zur Steuerung oder Bedienung einer Mehrzahl von Zielsystemen (ZS1, ..., ZSn) mit Hilfe einer Mehrzahl von Steuergeräten (SG1, ..., SGm) und mit diesen Steuergeräten jeweils zugeordneten Spracherkennungssystemen (SES1, ..., SESm) gemäß einem Ausführungsbeispiel der Erfindung.
3 in schematischer Weise ein System zur Steuerung oder Bedienung einer Mehrzahl von Zielsystemen (ZS1, ..., ZSn) mit Hilfe einer Mehrzahl von Steuergeräten (SG1, ..., SGm) und mit einer gemischten Zuordnung von teilweise dedizierten, teilweise gemeinsam genutzten Spracherkennungssystemen zu diesen Steuergeräten gemäß einem Ausführungsbeispiel der Erfindung.
4 in schematischer Weise die Übertragung eines von einem Steuergerät (SG) über ein Mikrofon (MP) aufgenommenes Sprachsignal mit Hilfe einer Übertragungseinrichtung (TD) an ein Spracherkennungssystem (SES) gemäß einem Ausführungsbeispiel der Erfindung.
5 in schematischer Weise die Übertragung eines von einem Steuergerät (SG) über ein Mikrofon (MP) aufgenommenes Sprachsignal mit Hilfe einer Übertragungseinrichtung (TD) an ein in dieses Steuergerät integriertes Spracherkennungssystem (SES) gemäß einem Ausführungsbeispiel der Erfindung.
6 in schematischer Weise ein Steuergerät (SG) mit einem integrierten Energiespeicher (ES) und einer integrierten Einrichtung (ECU) zur Steuerung des Energieverbrauchs von Funktionselementen des Steuergeräts gemäß einem Ausführungsbeispiel der Erfindung.
7 in schematischer Weise ein Steuergerät (SG) mit einem integrierten Energiespeicher (ES) und einer integrierten Einrichtung (ECU) zur Steuerung des Energieverbrauchs von Funktionselementen des Steuergeräts und einer integrierten Beschleunigungssensorik (BS) gemäß einem Ausführungsbeispiel der Erfindung.
8 in schematischer Weise ein Steuergerät (SG) mit einem integrierten Energiespeicher (Acc), einer integrierten Beschleunigungssensorik (BS), einem integrierten Laderegler (LR), einem Flash-Memory (FM), einem Ultra-Low-Power-Mikro-Controller (ULPμC), einem Digitalen Signalprozessor (DSP) mit Steuer- und Spracherkennungssoftware, einem Low-Power-Funk-Chip (LPF), einem Infrarot-Transceiver (IRT), einem Display (DP) und einem Bluetooth-Modul (BTM) gemäß einem Ausführungsbeispiel der Erfindung.
9 in schematischer Weise eine mögliche Netzwerk-Struktur zum Aufbau eines Low-Power-RF Meshed Networks gemäß einem Ausführungsbeispiel der Erfindung auf dem Gebiet der Gebäudeautomatisierung.
10 in schematischer Weise ein Klinik-Szenario gemäß einem Ausführungsbeispiel der Erfindung auf dem Gebiet der Medizintechnik.
Zur Steuerung oder Bedienung einer Mehrzahl von Zielsystemen (ZS1, ..., ZSn), insbesondere von Zielprozessen oder Zielgeräten, über gesprochene Befehle ist jedem Zielsystem oder Gruppen von Zielsystemen eine für dieses Zielsystem oder für diese Gruppe spezifische Schnittstelleninformation zugeordnet, die zur Anmeldung eines Zielsystems an ein Spracherkennungssystem (SES) vom Zielsystem auf das Spracherkennungssystem übertragen wird, sofern sie noch nicht auf diesem Spracherkennungssystem gespeichert sind. Das Spracherkennungssystem wertet bei der Steuerung oder Bedienung eines Zielsystems die für dieses Zielsystem spezifische Schnittstelleninformation (SI) oder die für die Gruppe, welcher dieses Zielsystem angehört, spezifische Schnittstelleninformation aus, um gesprochene Befehle zu erkennen, die zur Steuerung oder Bedienung dieses Zielsystems gesprochen werden.
Durch diese Maßnahmen wird erreicht, dass das Spracherkennungssystem (SES) oder die Spracherkennungssysteme (SES1, ..., SESm) bei der Anmeldung eines Zielsystems an das System automatisch an die Eigenschaften eines zu bedienenden oder zu steuernden Zielsystems angepasst wird bzw. werden. Dieser Vorgang der Anmeldung kann dabei einmalig bei der erstmaligen Integration eines neuen Zielsystems in das System oder bei jedem Neustart eines Zielsystems oder nach einer Veränderung der Eigenschaften eines Zielsystems, beispielsweise durch eine Aktualisierung der Betriebssoft- oder Hardware eines Zielsystems, erfolgen.
Die Erfassung der gesprochenen Befehle erfolgt dabei vorzugsweise über Steuergeräte, die nicht spezifisch für eines der Zielsysteme sind, sondern – ähnlich wie Diktiergeräte – vorzugsweise einzelnen Benutzern des Systems individuell zugeordnet sind. Diese Steuergeräte (SG1, ..., SGm) verfügen dazu über Mikrofone (MP1, ..., MPm), die die akustischen Sprachsignale aufnehmen und in elektrische Sprachsignale umwandeln.
Im Falle eines zentralen Spracherkennungssystems (SES) stehen diese Schnittstelleninformationen danach allen Anwendern zur Verfügung, wogegen bei Verwendung dezentraler, beispielsweise den einzelnen Steuergeräten zugeordneten Spracherkennungssystemen (SES1, ..., SESm) einem Benutzer nur die Schnittstelleninformationen derjenigen Zielsysteme zur Verfügung stehen, die bereits an seinem Spracherkennungssystem angemeldet sind.
Wie in 1 schematisch dargestellt, leiten bei der Verwendung eines zentralen Spracherkennungssystems (SES) die Steuergeräte (SG1, ..., SGm) diese elektrischen Sprachsignale an das zentrale Spracherkennungssystem weiter, welches in diesen Sprachsignalen die vom Benutzer gesprochenen Befehle zur Steuerung oder Bedienung des jeweils zu steuernden oder zu bedienenden Zielsystems erkennt.
Diese Erkennung besteht letztlich in der Zuordnung der zugehörigen zielsystemspezifischen Steuerbefehlsdaten zu dem jeweils gesprochenen Befehl. Sie wird erheblich erleichtert und verbessert, wenn das Spracherkennungssystem das Vokabular der möglichen Befehle zu einem zu steuernden oder zu bedienenden Zielsystem kennt. Ein solches Vokabular ist folglich ein zweckmäßiger und bevorzugter Bestandteil der Schnittstelleninformation (SI).
Um die aufgabengerechte Zuordnung eines Steuergerätes zu einem Zielsystem, welches momentan von diesem Steuergerät gesteuert wird, zu erleichtern, ist es vorteilhaft, wenn jedes portable Steuergerät mit Hilfe einer eindeutigen Geräteidentität (UID) identifizierbar ist.
Mit einer solchen eindeutigen Geräteidentität (UID) ist es möglich und vorteilhaft, das System so auszulegen, dass ein zu steuerndes oder zu bedienendes Zielsystem dasjenige Steuergerät, über welches es momentan gesteuert oder bedient wird, an dessen Geräteidentität (UID) erkennen kann.
In manchen Anwendungsfällen ist es außerdem vorteilhaft, wenn ein Steuergerät durch Annäherung an ein zu steuerndes oder zu bedienendes Zielsystem die Steuerung oder Bedienung dieses Zielsystems übernimmt. Dies kann beispielsweise durch den Einsatz kurzreichweitiger drahtloser Übertragungstechnologien wie z. B. Infrarot oder Bluetooth erreicht werden, wenn die Reichweite so gewählt wird, dass im Allgemeinen nur zwischen einem Steuergerät und einem Zielsystem Funkkontakt besteht. Eine andere Möglichkeit besteht im Einsatz von RFID-Chips in den Steuergeräten, wobei diese RFID-Chips mit einer Funktechnologie geeigneter Reichweite arbeiten.
In diesem Zusammenhang oder in anderen Fällen kann es vorteilhaft sein, wenn die momentane Position eines Steuergerätes ermittelt und zur zweckentsprechenden Zuordnung eines Steuergerätes zu einem durch dieses Steuergerät zu steuerndes oder zu bedienendes Zielsystem verwendet wird. Die Ermittelung der Position des Steuergerätes kann dabei auf verschiedenen Arten realisiert werden, beispielsweise durch Laufzeitmessungen, Triangulation, Messung der Intensitäten verschiedener Sender mit bekannter Position, oder durch den Einsatz von RFID-Chips in den Steuergeräten, die beispielsweise durch Lesegeräte in den Tür-Konsolen der Räume untergebracht sein können.
Die vorliegende Erfindung kann bevorzugt mit Hilfe eines Steuergerätes (SG) zur Steuerung oder Bedienung einer Mehrzahl von Zielsystemen, insbesondere von Zielprozessen oder Zielgeräten, über gesprochene Befehle realisiert werden, wobei dieses Steuergerät mit einem Mikrofon (MP) zur Aufzeichnung akustischer Signale in der Umgebung des Steuergerätes und einer Einrichtung (TD) zur Übertragung dieser Signale oder davon abgeleiteter Signale an ein Spracherkennungssystem (SES) ausgestattet ist, welches im Hinblick auf ein momentan zu steuerndes oder zu bedienendes Zielsystem über eine für dieses Zielsystem oder für eine Gruppe von Zielsystemen spezifische Schnittstelleninformation (SI) verfügt, die vom Spracherkennungssystem ausgewertet werden, um gesprochene Befehle zu erkennen, die zur Steuerung oder Bedienung dieses Zielsystems gesprochen werden.
Das Spracherkennungssystem kann in das Steuergerät integriert sein, wie dies beispielsweise in 5 dargestellt ist. In manchen Fällen, insbesondere dann, wenn die zur Spracherkennung verwendeten Algorithmen aufwendiger und/oder der zum Ablauf dieser Algorithmen oder zur Speicherung von anwendungsspezifischen Vokabularen benötigte Speicherplatz größer wird, kann es vorteilhaft sein, das Spracherkennungssystem – ganz oder teilweise – außerhalb des Steuergerätes unterzubringen (3). Für die Entscheidung, ob das Spracherkennungssystem – bzw. welche seiner Teile – im Steuergerät vorteilhaft unterzubringen sind, spielen dabei Gesichtspunkte eine Rolle, die durch den jeweiligen Stand der Halbleitertechnologie, der Spracherkennungsalgorithmen, der Funkübertragungstechnik, der Sprachkodierungsalgorithmen und ähnlicher Technikgebiete maßgebend beeinflusst werden. Der Fachmann kann diese Überlegungen jedoch anhand seiner jeweiligen Kenntnis dieser Technikgebiete und der hier vorliegenden Beschreibung zweckentsprechend anstellen.
In 2 ist ein System dargestellt, bei dem jedes Steuergerät (SG1, ..., SGm) über ein dediziertes Spracherkennungssystem (SES1, ..., SESm) verfügt, das vorzugsweise in das jeweilige Steuergerät integriert ist. Bei dieser Ausführungsform benötigt jedes einzelne Spracherkennungssystem (SESj) jeweils nur die für das momentan zu steuernde Zielsystem (ZSj) spezifische Schnittstelleninformation (SIj), um seine Erkennungsaufgabe leisten zu können. Bei der in 1 dargestellten Lösung, wonach ein einziges zentrales Spracherkennungssystem die Spracherkennungsleistung für eine Mehrzahl von Steuergeräten (SG1, ..., SGm) gleichzeitig zu erbringen hat, müssen die spezifischen Schnittstelleninformationen (SI) zu einem bestimmten Zeitpunkt für alle Zielsysteme (ZS) in diesem Spracherkennungssystem (SES) vorhanden sein, die zu diesem Zeitpunkt von wenigstens einem dieser Steuergeräte gesteuert oder bedient werden sollen.
3 zeigt eine gemischte Konfiguration, bei der beispielsweise ein Steuergerät (SG1) über ein dediziertes Spracherkennungssystem (SES1) verfügt, wogegen die anderen Steuergeräte sich die Erkennungsleistung eines zentralen Spracherkennungssystems (SES) teilen müssen. Welche Lösung in einem bestimmten Anwendungsfall vorzuziehen ist, entscheidet der Fachmann anhand seiner Kenntnis der anwendungsspezifischen Anforderungen an die Spracherkennungsleistung oder der anwendungsspezifischen Umstände im Hinblick auf verfügbare Funkkanäle oder ähnlichen Kriterien.
Gemäß einer bevorzugten Ausführungsform der Erfindung ist das Steuergerät mit einem lokalen Energiespeicher (ES oder Acc), einer drahtlosen Kommunikationsschnittstelle (LPF, BTM) und einer Einrichtung (ECU) zur Minimierung des Energieverbrauchs der Funktionselemente des Steuergeräts ausgestattet.
Ferner ist es vorteilhaft, wenn das Steuergerät mit einer Beschleunigungssensorik (BS), insbesondere zur Gestikerkennung oder zur Beeinflussung der Einrichtung (ECU) zur Minimierung des Energieverbrauchs ausgestattet ist. Wie auch in 7 gezeigt, kann die Beschleunigungssensorik (BS) mit der Einrichtung (ECU) zur Minimierung des Energieverbrauchs zusammenarbeiten, um den Energieverbrauch situationsgerecht zu steuern.
In 8 ist eine etwas speziellere Ausführungsvariante des erfindungsgemäßen Steuergeräts (SG) dargestellt, mit einem integrierten Energiespeicher (Acc), einer integrierten Beschleunigungssensorik (BS), einem integrierten Laderegler (LR), einem Flash-Memory (FM), einem Ultra-Low-Power-Mikro-Controller (ULPμC), einem Digitalen Signalprozessor (DSP) mit Steuer- und Spracherkennungssoftware, einem Low-Power-Funk-Chip (LPF), einem Infrarot-Transceiver (IRT), einem Display (DP) und einem Bluetooth-Modul (BTM). Die Funkmodule (LPF) bzw. (BTM) und auch der Infrarot-Transceiver (IRT) sorgen für die drahtlose Kommunikation des Steuergeräts (SG) mit anderen Komponenten des Systems, also insbesondere mit einer externen Spracherkennungseinrichtung (SES) oder unmittelbar mit den zu steuernden Zielssystemen. Über das Mikrofon (MP) werden die Sprachsignale aufgenommen. Über das Display (DP) kann der Anwender Meldungen des Steuergeräts ablesen.
Auf dem digitalen Signalprozessor DSP läuft vorzugsweise die Spracherkennung ab, oder – im Fall einer externen Spracherkennung – die Kodierung der Sprachsignale zu Audiodaten, welche in dieser Form über eine der Funkschnittstellen an das Spracherkennungssystem (SES) übertragen werden können. Das Gesamtsystem wird vorzugsweise von einem Strom sparenden Mikrocontroller (ULPμC) gesteuert.
Die vorliegende Erfindung kann auch durch ein System zur Steuerung oder Bedienung einer Mehrzahl von Zielsystemen, insbesondere von Zielprozessen oder Zielgeräten, über gesprochene Befehle, charakterisiert werden. Dieses System umfasst vorzugsweise einer erste Mehrzahl von Zielsystemen und eine zweite Mehrzahl von Steuergeräten zur Steuerung oder Bedienung von Zielsystemen über gesprochene Befehle. Diese Steuergeräte sind vorzugsweise mit einem Mikrofon zur Aufzeichnung akustischer Signale in der Umgebung des Steuergerätes und mit einer Einrichtung zur Übertragung dieser Signale oder davon abgeleiteter Signale an ein Spracherkennungssystem ausgestattet.
Ferner umfasst das System vorzugsweise ein Spracherkennungssystem, welches im Hinblick auf ein momentan zu steuerndes oder zu bedienendes Zielsystem über eine für dieses Zielsystem oder für eine Gruppe von Zielsystemen spezifische Schnittstelleninformation verfügt, die vom Spracherkennungssystem ausgewertet werden, um gesprochene Befehle zu erkennen, die zur Steuerung oder Bedienung dieses Zielsystems gesprochen werden.
Im folgenden Abschnitt wird eine Gruppe von Ausführungsbeispielen und Ausführungsvarianten der Erfindung beschrieben, die eine Sprachgestützte Steuerung von Bedienfunktionen im Haus-, Fertigungs- oder Automatisierungsumfeld oder im Fahrzeugbereich ermöglichen sollen.
Bedingt durch die ständig sinkenden Kosten für Systeme der Hausautomatisierung kommen derartige Systeme immer mehr zum Einsatz und dies nicht nur in Industrie- und Bürobauten, sondern auch im privaten Umfeld.
Dadurch ergibt sich Notwendigkeit dem Anwender/Bewohner eine komfortable Benutzerschnittstelle anzubieten, um eine einfache Steuerung der entsprechenden Funktionen, wie Licht, Heizung, Klimaanlage, Home-Entertainment zu ermöglichen.
Soweit hierfür Lösungen bekannt sind, haben diese häufig den Nachteil, dass die Vielzahl der Geräte, insbesondere im Home-Entertainment-Bereich viele verschiedene Fernbedienungen erforderlich machen. Abhilfe hierfür kann zwar eine programmierbare Fernsteuereinheit schaffen, welche aber meist ein mit Bedienfunktionen überladenes Tastenfeld bzw. Menü-Umschaltungen zur Folge haben. Der Anwender trägt zudem diese Fernbedienung aufgrund der mechanischen Abmessung nicht ständig bei sich und kann somit nicht jederzeit von jedem beliebigen Ort aus die Bedienfunktion auslösen.
Bisher erfolgt dies über entsprechende Fernbediensysteme, welche eine Anzahl von Bedienelementen enthalten, die vom Anwender bei Bedarf betätigt werden. Über Infrarot bzw. Funk werden die angewählten Bedienfunktionen an eine zentrale oder dezentrale Steuereinheit weitergeleitet, welche wiederum die gewünschte Systemreaktion einleitet.
Als dieser Aufgabenstellung angepasste mögliche Ausführungsform der vorliegenden Erfindung wird ein, am Körper tragbares, kleinformatiges, batteriebetriebenes Steuergerät vorgeschlagen, welches eine Spracherkennungseinheit, diverse Kommunikationsschnittstellen und eine auf ein Minimum reduzierte Benutzerschnittstelle – beispielsweise ein LCD- oder OLED-Display und eine sogenannte Push-to-talk-Taste (im folgenden auch „PTT-Taste") – enthält. Der Ausdruck „Push-to-Talk" (Abk. PTT, engl. für Drücke um zu sprechen) bezeichnet im Allgemeinen bei Funkgeräten die Taste für die Einschaltung des Senders oder die Umschaltung von Empfang auf Senden oder ähnliches (http://de.wikipedia.org/wiki/Push-to-talk). Das Gerät kann beispielsweise in Form einer Armbanduhr ausgeführt sein oder als eines an einer Umhängeband angebrachtes, amulett-ähnliches Gerät oder auch als ein Headset.
Die Fernbedieneinheit wird per Knopfdruck (Push-To-Talk) aus dem Strom sparenden Ruhestand heraus aktiviert, womit der Anwender nachfolgend etwa 10..15 sec. Zeit hat ein entsprechendes Steuerkommando einzusprechen, wie z. B. „Licht ein", „Rollo hoch", „CD abspielen", etc. Das erkannte Kommando wird dann entweder per Infrarot-Signal oder – weitaus komfortabler – über eine Funkschnittstelle in das Hausautomatisierungssystem übertragen. Dieses System ist mit Vorteil als ein Meshed-Network-System, ausgelegt (http://en.wikipedia.org/wiki/Wireless mesh network). Dadurch sind immer Netzwerkknoten für das mobile Sendeteil erreichbar. Durch entsprechendes Routing des Funkkommandos erhält der „angesprochene" Netzwerkteilnehmer, wie Licht- oder Rollo-Steuerung oder Home-Entertainment-System den gewünschten Bedienbefehl.
Zur einfachen Integration von bisher per Infrarot gesteuerter Geräte, insbesondere im Home-Entertainment, werden in das Meshed-Network (http://en.wikipedia.org/wiki/Wireless mesh network) sogenannte Funk- oder Infrarot-Gateways integriert. Dieses Gateway wird nahe dem Infrarot-Empfängers das Home-Entertainment-Gerät angebracht und ermöglicht somit auch die Steuerung dieser Geräte. Dabei sind kabelgebundene oder auch kabellose, batteriebetriebene Gateways möglich.
Eine weitere, vorteilhafte Ausführung besteht darin, dass die mobile Fernsteuereinheit eine Bluetooth-basierte Freisprecheinrichtung enthält. Damit kann der Anwender bei entsprechender Konfiguration und Nähe seines Mobilfunkgerät auch Telefoniefunktionen über das Armband-basierte Steuergerät führen.
Eine weitere vorteilhafte Ausprägung dieser Ausführungsformen stellt eine vom Armband trennbare Freisprecheinheit dar, wel che bei Bedarf direkt am Gehöreingang des Anwenders mittels entsprechender ausklappbarer Bügel befestigt werden kann. Damit ist es dem Anwender möglich auch vertrauliche Gespräche zu führen. Durch die integrierte Spracherkennung sind natürlich auch Sprachwahl-Bedienung möglich.
Durch Auswertung von Feldstärke und Signallaufzeit-Pfaden kann das Hausautomatisierungssystem erkennen in welchen Raum sich der Anwender aufhält. Daraus abgeleitet werden z. B. nichtadressierte, allgemeine Kommandos, wie „Licht heller", „Musik lauter" etc., die auf dieses Weise dem Raum zugeordnet werden, in welchem sich der Anwender aufhält.
Besteht beispielsweise das Home-Entertainment-System (http://www.sfs.unituebingen.de/~lothar/nw/Archiv/Datum/d050905.html#w5)aus einem leistungsfähigen Multimedia-PC, so können einfache Bedienfunktionen bereits auf dem mobilen Spracherkenner ausgewertet werden und zur Ausführung an den PC gesendet werden (Laut, Leise, nächster Titel, ...). Damit kann weiterhin der stromsparende Push-to-Talk (PTT) Betrieb des mobilen Bedienteils beibehalten werden. Möchte der Anwender hingegen komplexe Bedienfunktionen, wie Suchmaschinenanfragen, Internet-Surfen etc ausführen, so würde die mobile Spracherkenner-Platform nicht die erforderliche Rechenleistung oder den erforderlichen Speicher aufweisen. In diesem Fall kann sprachgesteuert, beispielsweise über die integrierte Bluetooth-Funkverbindung entweder eine einfache Sprachübertragung (Headset-Profil) oder auch eine hochwertige Audio-Übertragung (A2DP-Profil) zum PC aufgebaut werden. Über diese direkte Sprachverbindung kann nun ein hochwertiger PC-basierter Spracherkenner bzw. ggf. ein Diktiersystem adressiert werden und eine komplexe Bedienung des Multimedia-Systems erfolgen. Die kontinuierliche Funkübertrag kann hierbei eine höhere Stromaufnahme zur Folge haben.
Wird die PTT-Taste als 4–18-Weg-Joystick ausgeführt, so kann über das Bluetooth HID-Profil („Human-Interface-Device-Profil") (http://www.heise.de/newsticker/result.xhtml?url=/newsticker/ meldung/39730&words=Widcomm%20WidComm&T=Widcomm) eine Mauszeigerfunktion realisiert werden.
Ein weiteres Anwendungsszenario stellt die Verwendung im KFZ dar. Zum einem dient es als Freisprecheinrichtung, welche fahrzeugunabhängig mit dem Anwender „wandert". Zum anderen können auch die Fahrzeugfunktion (Licht, Klima, ...) und Car-Entertainment-Features damit gesteuert werden, wenn entsprechende Funk-Gateways im Fahrzeug vorgehalten werden. Eine „Keyless Entry" Funktion wäre ebenso möglich (z. B. bei Annäherung an das Fahrzeug wird eine Funkverbindung zwischen Mobilteil und KFZ aufgebaut und bei Betätigung der PTT-Taste wird direkt das Fahrzeug geöffnet).
Eine weitere, vorteilhafte Ausprägung besteht darin, dass das Mobilteil einen RFID-Tag enthält. Somit ist eine Integration in das Hausautomatisierungssystem auch mittels RFID-Leser möglich, z. B. an den Türdurchgängen.
Es wäre möglich, dass z. B. das Raumlicht automatisch eingeschaltet wird, sobald der Anwender den Raum betritt. Durch das Erkennen des RFID-Tags würde zudem ein weiteres Kriterium für die o. a. funkbasierte „Location Awareness" gegeben (erhöhte Aussagewahrscheinlichkeit zum Aufenthaltsort im Haus). Des Weiteren sind mit dem RFID-Tag auch Zutrittskontrollen realisierbar. Sowohl über den integrierten RFID, als auch per Sprachkommando ist es möglich, damit Türöffner-Funktionen zu realisieren.
Da das Mobilteil akku-betrieben ist, wird eine einfache Ladestation/Dockingstation vorgehalten, welche entweder über galvanische Kontakte oder induktiv ein Nachladen des Akkus ermöglicht. Optional wäre es möglich, einen hochkapazitiven UltraCap-Kondensator zu verwenden, welche innerhalb von Sekunden geladen werden könnte.
Der stromsparende Betrieb mit der PTT-Funktion ermöglicht bei aktuellem Technologiestand und bei der Bauform einer Armbanduhr einen Einsatz von mehreren Tagen ohne Nachladen (vergleichbar mit Handy).
Des Weiteren wäre es möglich, den Energiespeicher als Li-Polymer-Folien-Akku in Form eines Armbandes auszuführen, um eine kleinere Bauform des Uhrengehäuses bzw. eine längere Betriebszeit zu ermöglichen.
Das Mobilteil kann auch mit einem stromsparenden LCD- oder OLED-Display ausgestattet sein. welches dem Anwender im Ruhezustand eine Zeitanzeige (Uhrenfunktion) bietet. Im PTT-Betrieb zeigt es das erkannte Kommando an und visualisiert, ob die gewünschte Funktion erfolgreich ausgeführt wurde (Rückmeldung via Funk vom Aktor-Netzwerkknoten).
Optional kann es auch zur Anzeige von SMS-Nachrichten dienen, welche via Bluetooth vom Handy an das Mobilteil übertragen werden könnten.
Über ein PC-basiertes Konfigurationstool kann der Wortschatz beliebig definiert und mittels der integrierten Bluetooth-Schnittstelle berührungslos übertragen werden.
Das spracherkennungsbasierte Fernsteuergerät stellt somit eine "Einknopfbedienung" für eine Vielzahl von Bedienfunktionen im Haus bzw. Fahrzeug mit folgenden möglichen Merkmalen dar:

– intuitive Bedienung jederzeit von jedem Ort innerhalb des Hauses und im KFZ;
– Wortschatz flexibel definierbar und downloadbar;
– beliebige Zuordnung der Sprachkommandos auf die jeweilige Ziel-HW/Aktor mittels PC-basiertem Konfigurationstool;
– sehr geringer Energieverbrauch, da über PTT die Aktivierung erfolgt;
– minimierter Energieverbrauch im aktiven Zustand durch Verwendung von Low-Power Funktechnologien;
– hohe Konnektivität durch Einsatz standardisierter Funkschnittstellen (8681915 MHz, Bluetooth, Z-Wave, ZigBee, etc);
– kostengünstig, da Spracherkennung im integrierten DSP des Bluetooth-Chips (z. B. CSR-Chipsatz BC05) enthalten sein kann;
– einfache, intuitive „Einknopfbedienung" für eine Vielzahl steuerbarer Bedienfunktionen;
– hohe Erkennungsrate und sehr geringe Fehlerkennungsrate durch PTT-Aktivierung des Spracherkenners;
– hohe Erkennungsrate durch kurze akustische Übertragungsstrecke (ca. 10..30 cm);
– geringer, technischer Aufwand im Vergleich zu festinstallierten Mikrofon-Array-Ansätzen zur Sprachsteuerung im Heim-Umfeld;
– durch Kombination der weitverbreiteten Funktechnik Bluetooth mit einer Ultra-low-power Funktechnologie sind Komfortfunktionen möglich, wie beispielsweise Freisprechen, als auch ein stromsparender Betrieb im Hausautomatisierungssystem;
– sowohl im Haushalt als auch im Fahrzeug einsetzbar;
– Anwendungsszenarien auch in Produktionshallen und Bürogebäuden möglich.

9 verdeutlicht ein derartiges Szenario, bei dem ein Meshed Network mit Sendern geringer Leistung (Low Power RF) verwendet wird, um mit einem persönlichen mobilen Steuergerät (1) ein komplettes Gebäude einschließlich PK zu steuern.
Hierzu besteht beispielsweise eine Bluetooth-Verbindung zum Personal Computer (4) und zum Telefon, und möglicherweise andere Funkverbindungen oder eine IR-Verbindung zur Heizung (2), zur Rolladensteuerung (3), und zur Unterhaltungselektronik (5). Der Transceiver an der Heizung könnte als Relais oder Repeater zur Tür (6) dienen, deren Transceiver ihrerseits die Verbindung zum Fahrzeug (7) herstellen könnte.
Führt man beispielsweise den Transceiver an der Rolladensteuerung (3) als Brücke zur Raumbeleuchtung (8) aus, dann könnte von hier aus die Verbindung zu Einrichtungen im oberen Stock werk – Heizung (9), Rolladensteuerung (11), Beleuchtung (12) und Küchenzeile (10) – hergestellt werden.
Spricht der Träger des Steuergerätes nun Befehl wie z. B. „Haustür öffnen" oder „Licht ein", dann würden diese Sprachsignale als Befehle an die jeweils nächstliegenden Einrichtungen interpretiert, an welche diese Befehle ihrem Inhalt nach adressiert sind, also am die Haustür – nicht an die nächstgelegene Tür – und an die nächstgelegene Beleuchtung im Haus. Spricht der Anwender Befehle wie „Radio ein", „Lauter", „nächster Titel" oder „CD abspielen", dann werden diese befehle vom nächstliegenden Baustein der hausinternen Unterhaltungselektronik ausgeführt, welche diesen Befehl sinnvoll ausführen kann. Will der Anwender dies nicht, kann er die Befehle durch Anfügung eines Gerätenamens oder Lagebezeichnungen wie z. B. „Autoradio" oder „Wohnzimmer" eindeutig einem Baustein zuordnen.
Im folgenden Abschnitt wird eine Gruppe von Ausführungsbeispielen und Ausführungsvarianten der vorliegenden Erfindung beschrieben, die eine Aktivierung eines Spracherkenners durch Gestik-Auswertung mittels Beschleunigungssensoren beinhalten.
Bei einer Sprachsteuerung ist es im Allgemeinen erstrebenswert, dass nur die definierten Sprachkommandos erkannt werden, wogegen der sonstige Redefluss im Umfeld eines Sprachsteuerungssystems nicht zu Fehlerkennungen führen soll. Dies kann man beispielsweise durch das gezielte kurzzeitige Aktivieren des Spracherkenners mittels einer sogenannten Push-To-Talk-Taste erreichen oder zumindest fördern. Das Spracherkennungssystem wertet sodann nur die Signalsequenz der nachfolgenden 10..15 sec. aus und kann somit eine hohe Erkennungsrate erzielen. Bei dieser Methode ist aber immer eine manuelle Interaktion des Anwenders erforderlich.
Um diese manuelle Interaktion zu vermeiden, kann ein Spracherkennungssystem auch in einem kontinuierlichen Erkennungsmodus arbeiten. Durch entsprechend geschickte, meist sehr auf wändige Algorithmen ist es möglich aus dem Redefluss die gewollten Sprachkommandos herauszufiltern und Fehlerkennungen gering zu halten. Dabei wird das Spracherkennungssystem ständig oder oft mit hoher oder gar voller Rechenleistung den Redefluss analysieren und folglich einen dementsprechend hohen Energieverbrauch aufweisen. Bei mobilen Anwendungen kann dies als störend empfunden werden.
Bei der hier beschriebenen Gruppe von Ausführungsbeispielen und Ausführungsvarianten der vorliegenden Erfindung wird ein, am Körper tragbares, kleinformatiges, batteriebetriebenes Spracherkennungssystem vorgeschlagen, welches beispielsweise die Form einer Armbanduhr aufweist. Das System beinhaltet neben dem Spracherkennungseinheit noch diverse, kabellose Kommunikationsschnittstellen z. B. 868 MHz, Bluetooth, Infrarot) und eine auf ein Minimum reduzierte Benutzerschnittstelle, wie beispielsweise LCD- oder OLED-Display und eine PTT-Taste („Push-to-talk"-Taste). Zusätzlich ist das Gerät mit einer 3- oder optional 6-Achsen Beschleunigungserfassungssensorik in stromsparender MEMS-Bauweise ausgerüstet und mit einem stromsparenden Auswerterechner.
Mit der vorgesehenen PTT-Taste kann die Spracherkennungseinheit aus dem stromsparenden Ruhezustand heraus aktiviert werden, entsprechende Sprachkommandos erfassen und die entsprechenden Systemreaktionen über die vorhandenen Kommunikationsschnittstellen versenden.
Alternativ kann aber auch ein Gestikerkennungsmodus angewählt werden, im welchem das Heben des Armes vor das Gesicht des Sprechers ausgewertet wird. Diese typische Armbewegung und -lage (Uhrzeitablesen an Armbanduhr) kann durch entsprechende Auswertealgorithmen detektiert werden und als Absicht erkannt werden, dass nachfolgend ein Sprachkommando eingesprochen werden soll.
Statt einer Betätigung der PTT-Taste wird nun der Spracherkennungs- und Kommunikationsteil des Gerätes für die PTT-Zeit von 10..15 sec. durch den Gestikerkenner aktiviert. Um eine höhere Erkennungssicherheit der Gestik zu ermöglichen, kann z. B. noch eine kurze, schnelle Drehbewegung des Handgelenks als weiteres Erkennungsmerkmal vorgesehen werden (Shake-To-Talk statt Push-To-Talk).
Die Gestikauswerteinheit und Beschleunigungssensorik ist dabei vorzugsweise in Ultra-Low-Power-Technologie realisiert (Stromaufnahme 500 FA). Der Teil des Gerätes, welcher eine hohe Leistungsaufnahme aufweist, nämlich der Spracherkennungsteil (DSP) wird also nur für kurze PTT-Zeit aktiviert. Somit kann eine verhältnismäßig lange Betriebszeit des Sprachsteuerungssystems erreicht werden.
Diese Gruppe von Ausführungsformen der vorliegenden Erfindung ist charakterisiert durch folgende mögliche Merkmale:

– die manuelle PTT-Betätigung wird durch Gestikerkennung ersetzt, d. h. es sind geringere Benutzerinteraktionen erforderlich, da eine Gestikbewegung sowieso vor dem Einsprechen eines Sprachkommandos ausgeführt wird;
– der Energieverbrauch kann sehr gering sein, da Gestikauswertung in Ultra-LowPower-Technologie ausgeführt werden kann;
– eine hohe Erkennungsrate und sehr geringe Fehlerkennungsrate durch eine PTT-vergleichbare Aktivierung des Spracherkenners;
– eine Einhandbedienung ist möglich.

Im folgenden Abschnitt wird eine Gruppe von Ausführungsbeispielen und Ausführungsvarianten der Erfindung beschrieben, die eine Sprachgestützte Steuerung von medizinischen Diagnostik- oder Therapiesystemen ermöglichen sollen.
In Kliniken oder größeren Radiologischen Praxen sind meist verschiedene Diagnostik- und/oder Therapiesysteme eines Herstellers vertreten, wie z. B. klassische Röntgenarbeitsplätze, Computer-Tomographie-Systeme, MR-Geräte (Magnetresonanzgeräte), diverse Ultraschallgeräte etc. Insbesondere bei den eigenen bildgebenden Systemen wurde in den letzten Jahren eine Vereinheitlichung des Bedienkonzeptes umgesetzt (SYNGO), die sich teilweise auf das graphische User-Interface beschränkt hat. Somit konnte sich der Anwender schnell in die Bedienung des jeweiligen Gerätes einarbeiten.
Als alternative Mensch-Maschine-Schnittstelle kommt der Steuerung des Gerätes mit Hilfe von Sprachbefehlen in Zukunft mehr Bedeutung zu. Sprachsteuerungsoptionen an medizinischen Geräten waren bisher singuläre Lösungsansätze. Eine Vereinheitlichung des Bedienkonzepts unterblieb bisher weitgehend. Insbesondere gibt es bisher kein modalitäten-übergreifendes, einheitliches Sprachsteuerungskonzept.
Als dieser Aufgabenstellung angepasste mögliche Ausführungsform der vorliegenden Erfindung wird ein am Körper tragbares, kleinformatiges, batteriebetriebenes Steuergerät vorgeschlagen, welches eine Spracherkennungseinheit, diverse Kommunikationsschnittstellen und ein auf ein Minimum reduzierte Benutzerschnittstelle (LCD- oder OLED-Display und eine PTT-Taste) enthält. Das Gerät kann beispielsweise in Form einer Armbanduhr ausgeführt sein oder als eines an einem Umhängeband angebrachtes, amulett-ähnliches Gerät oder auch als ein Headset (u. U. auch als handelsüblicher PDA).
Die Fernbedieneinheit wird per Knopfdruck (Push-To-Talk) aus dem stromsparenden Ruhestand heraus aktiviert, womit der Anwender nachfolgend etwa 10..15 sec. Zeit hat, ein entsprechendes Steuerkommando einzusprechen, wie z. B. „Bild vor", „Aufnahmeprogramm I", „Zoom ein", etc. Das erkannte Kommando wird dann entweder per Infrarot-Signal oder – weitaus komfortabler – über eine Funkschnittstelle zu dem medizinischen Gerät übertragen.
Statt dem Betätigen einer PTT-Taste kann auch eine Gestikerkennung per integrierter Beschleunigungssensorik verwendet werden, um die Spracherkennung zu aktivieren. Überhaupt sind viele Details vorher beschriebener Ausführungsbeispiele in Abhängigkeit von der jeweiligen Anwendungssituation in vor teilhafter Weise mit den hier beschriebenen Merkmalen kombinierbar. Insofern können die drei hier etwas ausführlicher dargestellten Anwendungs- und Ausführungsbeispiele dem fachmännischen Leser eine Vielzahl von Anregungen für derartige Kombinationen oder Abwandlungen geben, deren vollständige Darstellung sich hier aus Platzgründen verbietet, die aber auch nicht nötig ist, um den Fachmann entsprechend anzuleiten.
Des Weiteren kann das tragbare Gerät beispielsweise auch vom Armband oder Halsband einfach abgetrennt werden und in eine, am Gerät vorgehaltene, spezielle, mit Ladekontakten versehene Aufnahmefassung eingesetzt werden. Per Sprachkommando oder durch Tastenbetätigung kann dann auf einen kontinuierlichen Erkennungsmodus umgeschaltet werden, um eine freie, gestikunabhängige Spracherkennung zu ermöglichen (z. B. bei interventionellen Arbeiten am Patienten).
Die Sprachsteuerungseinheit ist mittels einer eindeutigen ID (UID) identifizierbar. Die einzelnen Modalitäten werden bei der Inbetriebnahme in einem speziellen Service-Modus auf diese UID programmiert, dem so genannten „Check-in". Dies kann durch Aufsuchen jeden einzelnen Gerätes und dem jeweiligen bilateralen Einchecken der Sprachsteuerungseinheit mit dem Gerät erfolgen. Vorteilhafterweise kann die Gerätefamilie eines Herstellers diese „Eincheck-Information" auch über das meist vorhandene Klinik-Netzwerk selbsttätig verteilen, d. h. das Einchecken hat nur noch an einem Gerät zu erfolgen und wird von diesem Gerät aus an die anderen Modalitäten per Netzwerk übermittelt.
Der Eincheck-Vorgang wird nur einmalig bei der Inbetriebnahme der Sprachsteuerung durchgeführt und bleibt dann in den jeweiligen Systemen als Konfiguration gespeichert. Bei diesem Check-in werden zur Sprachsteuerungseinheit auch die UID's der jeweiligen Geräte (z. B. MR-012345, CT-098765, ..., etc.) und das zugehörige Erkenner-Vokabular übertragen.
Der Anwender kann nach erfolgter Konfiguration nun von einem Gerät zum nächsten gehen und, sofern eine Erlaubnis bzw. ein freier Kanal für einen Verbindungsaufbau zu dem Gerät gegeben ist, sich automatisch oder auch per Sprach- oder Tastenbefehl gezielt mit dem Gerät verbinden. Über die jeweiligen UID's wird dabei automatisch das, an dem Gerät verfügbare Vokabular in der Spracherkennungseinheit angewählt.
Durch die geringe Sendeleistung des Mobilteils ergibt sich keine, die Bediensicherheit mindernde Überreichweite (max. Reichweite ca. 5.8 m Radius um das Gerät). Zudem können die Bedienfunktionen auf nicht sicherheitsrelevante Funktionen beschränkt sein.
Die Modalität bzw. das Zielsystem verfügt für diese Kommunikation über eine entsprechende Empfangseinheit. Diese Empfangseinheit kann zusätzlich mit einem Gateway zum Hausautomatisierungssystem des Klinikums ausgestattet sein.
Somit ist es auf einfache Art und Weise möglich Raumfunktionen, wie Licht, Rollo, Lüftung, etc. per Sprache mitzusteuern (nach Anwenderwunsch programmierbar).
Durch zusätzliche, spezifische Gateway-Module wäre es auch vorstellbar. Bedienfunktionen von Fremdgeräten mit einzubinden. Insbesondere mittels eines programmierbaren Infrarot-Gateway können Fremdgeräte, welche bereits über eine Infrarot-Fernbedienung verfügen auf sehr einfache Weise eingebunden werden. Dabei sind kabelgebundene, als auch kabellose, batteriebetriebene Gateways vorstellbar.
Möchte der Anwender komplexere Systemfunktionen, wie ein Befunddiktat, eine Bildbeschriftung mit medizinischen Fachausdrücken, o. ä. ausführen, so würde die mobile Spracherkenner-Platform möglicherweise nicht die erforderliche Rechenleistung oder den erforderlichen Speicher aufweisen. In diesem Fall kann sprachgesteuert, beispielsweise über eine zusätzliche, integrierte Bluetooth-Funkübertragung entweder eine ein fache Sprachübertragung (Headset-Profil) oder auch eine hochwertige Audio-Übertragung (A2DP-Profil) zu einer Workstation aufgebaut werden.
Über diese direkte Sprachverbindung kann nun ein hochwertiger PC-basierter Spracherkenner bzw. ggf. ein Diktiersystem adressiert werden und eine komplexe Bedienung des medizinischen Gerätes erfolgen. Möglicherweise könnte in einigen Fällen eine kontinuierliche Funkübertrag eine höhere Stromaufnahme zur Folge haben.
Wird die PTT-Taste als 4–18-Weg-Joystick ausgeführt, so kann über das Bluetooth HID-Profil eine Mauszeigerfunktion realisiert werden.
Eine weitere, vorteilhafte Ausführung besteht darin, dass die mobile Fernsteuereinheit eine Bluetooth-basierte Freisprecheinrichtung enthält. Damit kann der Anwender bei entsprechender Konfiguration und Nähe seines Mobilfunkgerätes auch Telefoniefunktionen über das armband-basierte Steuergerät führen.
Eine weitere vorteilhafte Ausprägung stellt die vom Armband trennbare Freisprecheinheit dar, welche bei Bedarf direkt am Gehöreingang des Anwenders mittels entsprechender ausklappbarer Bügel befestigt werden kann.
Damit ist es dem Anwender möglich auch vertrauliche Gespräche zu führen. Durch die integrierte Spracherkennung sind natürlich auch Sprachwahl oder Bedienung möglich.
Als eine Alternative zu einem automatischen Verbindungsaufbau bei Annäherung an ein medizinisches Gerät wäre es auch vorstellbar, dass das mobile Spracherkennungssystem einen RFID-Chip enthält. Damit kann erreicht werden, dass nur dann das Mobilteil am Medizingerät angemeldet wird, wenn der Anwender den RFID-chip nahe genug an ein Lesegerät bringt.
Da das Mobilteil akku-betrieben ist, wird vorzugsweise eine einfache Ladestation oder Dockingstation vorgehalten, welche entweder über galvanische Kontakte oder induktiv ein Nachladen des Akkus ermöglicht. Optional wäre es möglich einen hochkapazitiven UltraCap-Kondensator zu verwenden, welche innerhalb von Sekunden geladen werden könnte.
Der stromsparende Betrieb mit der PTT- bzw. Gestik-Funktion ermöglicht bei aktuellem Technologiestand und bei der Bauform einer Armbanduhr einen Einsatz von mehreren Tagen ohne Nachladen (vergleichbar mit Handy). Des Weiteren wäre es möglich, den Energiespeicher als Li-Polymer-Folien-Akku in Form eines Armbandes auszuführen, um eine kleinere Bauform des Uhrengehäuses oder eine längere Betriebszeit zu ermöglichen.
Das Mobilteil kann auch mit einen stromsparenden LCD- oder OLED-Display ausgestattet sein, welches dem Anwender im Ruhezustand eine Zeitanzeige (Uhrenfunktion) bietet. Im PTT-Betrieb zeigt es das erkannte Kommando an und visualisiert, ob die gewünschte Funktion erfolgreich ausgeführt wurde (eine Rückmeldung erfolgt also via Funk).
Optional kann es auch zur Anzeige von SMS-Nachrichten dienen, welche via Bluetooth vom Handy an das Mobilteil übertragen werden könnten.
Das spracherkennungsbasierte Fernsteuergerät stellt somit eine universelle, modalitäten-übergreifende, einfache „Einknopfbedienung" für die verschiedensten medizinischen Diagnostik- und/oder Therapiesysteme dar.
Das hier dargestellte einheitliche Bedienkonzept der multimodalen Sprachsteuerung sorgt für kurze Einarbeitungszeiten und steigert den die Effizienz von Arbeitsabläufen („Workflow"). Ein „Bilaterales Check-In" ist als auch „Network-based Check-In” möglich. „Network based Check-in" reduziert den Aufwand für die Inbetriebnahme erheblich. Eine automatische Wortschatz-Umschaltung je nach Medizingerät er leichtert die Bedienung. Andererseits lässt sich eine hohe Erkennungsrate durch umschaltbare Wortschätze (nur eingeschränktes Vokabular je Gerät) erreichen. Ein solcher Wortschatz (Vokabular) könnte dabei flexibel definierbar und beispielsweise von einem Server ladbar ("downloadbar") sein.
Ein integriertes Gateway zur Hausautomatisierung verringert den Verkabelungsaufwand und bietet eine komfortable Steuerung von Raumfunktionen.
Dabei ergibt sich je nach gewählter Ausführungsvariante

– ein hoher Bedienkomfort (intuitive Bedienung) für eine Vielzahl von Funktionen;
– ein sehr geringer Energieverbrauch, insbesondere wenn über eine PTT-Taste oder per Gestikerkennung die Aktivierung erfolgt;
– ein minimierter Energieverbrauch im aktiven Zustand durch Verwendung von Low-Power Funktechnologien;
– eine kostengünstige Lösung, da Spracherkennung u. U. auch im integrierten DSP des Bluetooth-Chips (z. B. CSRChipsatz BC05) enthalten sein kann;
– eine einfache, intuitive „Einknopfbedienung" für eine Vielzahl steuerbarer Bedienfunktionen;
– eine hohe Erkennungsrate und sehr geringe Fehlerkennungsrate durch PTT-Aktivierung des Spracherkenners und eine hohe Erkennungsrate durch die kurze akustische Übertragungsstrecke (ca. 10..30 cm);
– ein geringer technischer Aufwand im Vergleich zu festinstallierten Mikrofon-Array-Ansätzen zur Sprachsteuerung.

Die Kombination der weitverbreiteten Funktechnik Bluetooth mit einer Ultra-low-power Funktechnologie ermöglicht zum einen Komfortfunktionen, wie Freisprechen, als auch einen stromsparenden Betrieb.
Die Spracherkennung ist beispielsweise durch einen Bluetooth-Sprachkanal beliebig erweiterbar, beispielsweise zu einer Freisprecheinrichtung, einem Diktiersystem, oder ähnlichen Anwendungen. Infrarot-Gateways und weitere spezifische Gateways bieten flexible Erweiterungen.
Durch eine geeignete Standardisierung der Schnittstelle(n) ist die beschriebene Lösung auch für Fremdanbieter nutzbar.
10 zeigt ein derartiges Szenario in einer Klinik. In jedem Raum dieser Beispielklinik- also beispielsweise in der Abteilung für Magnetresonanztomographie (MR) oder in der Ultraschallabteilung (US) oder im Raum für Dokumentation und Reporting (Rep) befinden sich ein „Voice Control Receiver", also ein Funk-Empfänger für die Steuerung über Sprachsignale, und eine Systemsteuereinheit (SC). Diese Steuereinheiten sind vorzugsweise untereinander zum Kliniknetzwerk vernetzt. Jede Systemsteuereinheit steuert ein Zielsystem. In der Abteilung für Magnetresonanztomographie (MR) wird dieses Zielsystem ein Magnetresonanztomograph sein. In anderen Abteilungen werden entsprechende Medizintechnische Geräte durch ihre Systemsteuereinheit gesteuert. Bei Bedarf kann die Lichtsteuerung oder die Klimaanlage durch ein sogenanntes Gateway angesteuert werden.
Der Träger des Steuergerätes (SG) wandert nun zwischen den Räumen hin und her und steuert über Sprachbefehle, die von seinem Steuergerät aufgenommen werden, die jeweiligen Zielsysteme.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Nicht-Patentliteratur

- http://de.wikipedia.org/wiki/Push-to-talk [0041]
- http://en.wikipedia.org/wiki/Wireless mesh network [0042]
- http://en.wikipedia.org/wiki/Wireless mesh network [0043]
- http://www.sfs.unituebingen.de/~lothar/nw/Archiv/Datum/d050905.html#w5 [0047]
- http://www.heise.de/newsticker/result.xhtml?url=/newsticker/ meldung/39730&words=Widcomm%20WidComm&T=Widcomm [0048]

Claims

Verfahren zur Steuerung oder Bedienung einer Mehrzahl von Zielsystemen, insbesondere von Zielprozessen oder Zielgeräten, über gesprochene Befehle mit folgenden Merkmalen: a) jedem Zielsystem oder Gruppen von Zielsystemen ist eine für dieses Zielsystem oder für diese Gruppe spezifische Schnittstelleninformation zugeordnet; b) diese Schnittstelleninformation wird zur Anmeldung eines Zielsystems an ein Spracherkennungssystem vom Zielsystem auf das Spracherkennungssystem übertragen, sofern sie noch nicht auf diesem Spracherkennungssystem gespeichert sind; c) das Spracherkennungssystem wertet bei der Steuerung oder Bedienung eines Zielsystems die für dieses Zielsystem spezifische Schnittstelleninformation oder die für die Gruppe, welcher dieses Zielsystem angehört, spezifische Schnittstelleninformation aus, um gesprochene Befehle zu erkennen, die zur Steuerung oder Bedienung dieses Zielsystems gesprochen werden.
Verfahren nach Anspruch 1, bei dem die für wenigstens ein Zielsystem oder wenigstens eine Gruppe von Zielsystemen spezifische Schnittstelleninformation ein für dieses Zielsystem oder für diese Gruppe von Zielsystemen spezifisches Vokabular umfasst.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem die Steuerung oder Bedienung über ein portables Steuergerät erfolgt, welches die gesprochenen Befehle aufnimmt und an eine Spracherkennungseinheit weiterleitet.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem jedes portable Steuergerät mit Hilfe einer eindeutigen Geräteidentität (UID) identifizierbar ist.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem ein zu steuerndes oder zu bedienendes Zielsystem dasjenige Steuergerät, über welches es momentan gesteuert oder bedient wird, an dessen Geräteidentität (UID) erkennt.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem ein Steuergerät durch Annäherung an ein zu steuerndes oder zu bedienendes Zielsystem die Steuerung oder Bedienung dieses Zielsystems übernimmt.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem die momentane Position eines Steuergerätes ermittelt und zur zweckentsprechenden Zuordnung eines Steuergerätes zu einem durch dieses Steuergerät zu steuerndes oder zu bedienendes Zielsystem verwendet wird.
Steuergerät zur Steuerung oder Bedienung einer Mehrzahl von Zielsystemen, insbesondere von Zielprozessen oder Zielgeräten, über gesprochene Befehle mit a) einem Mikrofon zur Aufzeichnung akustischer Signale in der Umgebung des Steuergerätes und b) einer Einrichtung zur Übertragung dieser Signale oder davon abgeleiteter Signale an ein Spracherkennungssystem, welches im Hinblick auf ein momentan zu steuerndes oder zu bedienendes Zielsystem über eine für dieses Zielsystem oder für eine Gruppe von Zielsystemen spezifische Schnittstelleninformation verfügt, die vom Spracherkennungssystem ausgewertet werden, um gesprochene Befehle zu erkennen, die zur Steuerung oder Bedienung dieses Zielsystems gesprochen werden.
Steuergerät nach Anspruch 8 mit einem lokalen Energiespeicher, einer drahtlosen Kommunikationsschnittstelle und einer Einrichtung zur Steuerung oder Minimierung des Energieverbrauchs von Funktionselementen des Steuergeräts.
Steuergerät nach Anspruch 9 mit einer Beschleunigungssensorik zur Beeinflussung der Einrichtung zur Steuerung oder Minimierung des Energieverbrauchs.
System zur Steuerung oder Bedienung einer Mehrzahl von Zielsystemen, insbesondere von Zielprozessen oder Zielgeräten, über gesprochene Befehle, umfassend a) einer erste Mehrzahl von Zielsystemen, b) eine zweite Mehrzahl von Steuergeräten zur Steuerung oder Bedienung von Zielsystemen über gesprochene Befehle mit a) einem Mikrofon zur Aufzeichnung akustischer Signale in der Umgebung des Steuergerätes und b) einer Einrichtung zur Übertragung dieser Signale oder davon abgeleiteter Signale an ein Spracherkennungssystem, c) ein Spracherkennungssystem, welches im Hinblick auf ein momentan zu steuerndes oder zu bedienendes Zielsystem über eine für dieses Zielsystem oder für eine Gruppe von Zielsystemen spezifische Schnittstelleninformation verfügt, die vom Spracherkennungssystem ausgewertet werden, um gesprochene Befehle zu erkennen, die zur Steuerung oder Bedienung dieses Zielsystems gesprochen werden.