Prof. Fumio Hara

Face Robotics and Emotional Computing

ZUSAMMENFASSUNG

FORSCHUNGSMOTIVATION

Mein Forschungsinteresse an der Mensch-Maschine-Kommunikation bzw. an der Kommunikation zwischen Menschen und künstlichen Systemen wurde ursprünglich durch die technische Beteiligung an der Analyse der Ursachen verschiedener schwerer Unfälle in Industrieanlagen wie Erdölraffinerien oder Kernkraftwerken angestoßen. Einer der wesentlichen Faktoren, auf die bei derartigen Analysen von Unfallursachen stets verwiesen wird, ist das so genannte menschliche Versagen oder mit anderen Worten falsche Wahrnehmung/Fehlerkennung, Fehlbeurteilung und/oder falsches Handeln/Fehlbedienung. Die wichtige Technologie zur Verhinderung derartigen menschlichen Versagens sollte meinen Überlegungen nach unter Ausrichtung auf die kognitive Leistungsfähigkeit des Menschen entwickelt werden [1]. So muss beispielsweise die Anzeige des Zustands einer Anlage für die Bedienperson verständlicher gemacht werden, indem man nicht eine große Zahl von digitalen Einzelanzeigen verwendet, sondern analoge Anzeigen, die für die Bedienperson einen globalen Anlagenzustand wiedergeben, da die kognitive Kompetenz stark von den Umgebungsbedingungen abhängt, denen die Bedienperson ausgesetzt ist. Unter diesem Blickwinkel wurden zahlreiche Forschungsarbeiten im Bereich der Technologie von Schnittstellen zwischen Mensch und Maschine ausgeführt. Ausgehend von dieser Sichtweise der Kommunikation zwischen Menschen und technischen Anlagen entwickelte ich eine Technik der schematischen Darstellung eines menschlichen Gesichts in verschiedenen Farben [2] zur Wiedergabe des globalen Zustands einer Industrieanlage. Das farbig dargestellte Gesicht kann den aktuellen Anlagenzustand durch einen karikierten Gesichtsausdruck wie bei einer Comicfigur angeben, z.B. durch ein fortwährendes Lächeln, solange die Anlage ordnungsgemäß arbeitet, und durch einen verwirrten oder angstvollen Ausdruck, wenn ein außerordentlicher Zustand oder eine Fehlfunktion auftritt. Dies ist ein höchst analoger Modus der visuellen Anzeige, der primitiv erscheint; er hängt jedoch mit den folgenden grundlegenden kognitiven Fragen zusammen, die sich im Kontext der Kommunikation und Interaktion zwischen Menschen und technischen Anlagen oder künstlichen Systemen stellen:

(1) Welche Art von "Gesicht" ist für die visuelle Wahrnehmung des Menschen kognitiv angemessen, wenn die grafische Darstellung eines Gesichts für die Anzeige des Zustands eines bestimmten künstlichen Systems verwendet wird? (2) Gibt es ein allgemeines Gesetz für die Zuordnung von Gesichtsteilen (Augen, Mund, Nase usw.) zu physikalisch-chemischen Parametern eines künstlichen Systems? (3) Wie können wir die Richtigkeit der menschlichen Deutung des Ausdrucks einer schematisierten Gesichtsdarstellung garantieren, durch die der Zustand des künstlichen Systems auf nichtlineare Weise transformiert wird?

Ausgehend von Erörterungen dieser Art muss die Schnittstelle zwischen einer Bedienperson oder, allgemeiner, einem menschlichen Anwender und einem künstlichen System sich proaktiv gegenüber der menschlichen Wahrnehmung/Erkennung, Beurteilung und Handlung/Bedienung verhalten. Dies führt zu einem neuen Konzept einer Mensch-Maschine-Schnittstelle, die so konstruiert sein muss, dass sie die kognitive Kompetenz des Menschen verstärkt, d.h. zum Active Human Interface (AHI). Diese aktive Mensch-Maschine-Schnittstelle muss mindestens die drei folgenden Funktionen umfassen:

(1) Erkennungsfunktion, um den geistigen oder emotionalen Zustand des Anwenders oder menschlichen Partners anhand der Informationen zu verstehen, die durch den Partner ausgedrückt und über visuelle und/oder auditorische Kanäle festgestellt werden.

(2) Datenverarbeitung zur Auswahl eines der künstlichen Emotionszustände, der sich am besten eignet, um der kognitiven Kompetenz des Partners proaktiv vorauszugreifen.

(3) Ausdrucksfunktion zur Anzeige des Emotionszustands durch eine geeignete Modalität von Kommunikationskanälen, z.B. Mimik, Prosodie, Gestik.

Wird das Konzept des Active Human Interface auf ein Robotersystem ausgedehnt, das über diese drei Funktionen verfügt, und wird dieses Robotersystem in kommunikativer Interaktion mit einem menschlichen Partner eingesetzt, so ist das Robotersystem nicht Schnittstelle, sondern kann als Medium bezeichnet werden. Wir sind damit zu einem allgemeineren Konzept eines proaktiven künstlichen Systems gelangt, d.h. zum Active Human Media (AHM). Das Robotergesicht, das in diesem Vortrag erläutert wird, ist ein Beispiel für eine mögliche Realisierung eines derartigen Active Human Media. Es verfügt über Funktionen wie automatische Erkennung menschlicher Gesichtsausdrücke in Echtzeit, modellgestützte künstliche Emotion und realistische Gesichtsausdrücke für mindestens sechs grundlegende Gefühle.

An dieser Stelle sollten zwei Begriffe erläutert werden: (1) Virtuelle Kommunikation: Wenn wir über Kommunikation sprechen, wird damit stets Kommunikation zwischen menschlichen Partnern angezeigt, wobei beide Partner eine mentale oder psychologische Ebene gemeinsam haben müssen. Gemäß dieser Definition gibt es zwischen einem künstlichen System und seinem menschlichen Partner auch dann keine Kommunikation, wenn das künstliche System mit seinem menschlichen Partner zusammenarbeitet. Dennoch empfindet der menschliche Partner häufig positive oder negative Gefühle gegenüber dem künstlichen System; z.B. wird ein PC fast immer als "dumm" beschimpft, wenn ein darauf implementiertes Programm fehlerhaft ist. Der menschliche Partner ist also stets auch psychisch an seiner Interaktion mit dem künstlichen System beteiligt. Wir interessieren uns jedoch nicht für den mentalen oder psychischen Anteil des Systems. Fühlt ein menschlicher Partner im Laufe einer Interaktion mit einem künstlichen System eine psychische Gemeinsamkeit mit diesem System, so kann die Interaktion als "virtuelle Kommunikation" bezeichnet werden. (2) Lerngestützte künstliche Emotion: Jede modellgestützte künstliche Emotion oder Auswahl einer bestimmten Emotion durch Datenverarbeitung (Emotional Computing) hat bekanntlich einen wesentlichen Nachteil, der darin besteht, dass das Modell in Situationen nicht greift, die bei der Entwicklung des Modells nicht berücksichtigt wurden. Um dieses Problem teilweise zu lösen, wählen wir einen anderen Ansatz für die Synthetisierung von Emotion, d.h. das als AHM bezeichnete künstliche System kann sowohl mit einem Wertesystem als auch mit einem Lernmechanismus ausgestattet werden. Das künstliche System kann mit dem Erlernen der Koordination zwischen Erkennung und Ausdruck beginnen, indem es die Koordinationsgewichtungen im Lernmechanismus (Verstärkungslernen) im Verlauf der kommunikativen Interaktion mit seinem menschlichen Partner in angemessener Weise ändert. Nach einer bestimmten Zahl von Kommunikationserfahrungen hat das künstliche Emotionssystem die Koordination zwischen Erkennung und Ausdruck auf Grundlage eines Wertesystems dann möglicherweise selbst organisiert. Die Erkennungs-Ausdrucks-Koordination oder Selbstorganisation künstlicher Emotion kann dann in jedem Einzelfall einen bestimmten Emotionszustand auswählen, der stark durch den Charakter des menschlichen Partners beeinflusst ist. Die festgelegte Koordination von Erkennung und Ausdruck kann daher als künstliche Emotion bezeichnet werden, die vielleicht flexibler und stärker von der Einzelperson abhängig ist.

DAS ROBOTERGESICHT UND SEIN AUFGABENUMFELD

Das Robotergesicht soll die Erkennung, Beurteilung und Handlung des menschlichen Partners in der kommunikativen Interaktion "pro-agieren" oder kurz: Das Robotergesicht arbeitet als aktives humanes Medium für seinen Partner. Eine naheliegende Aufgabe ist z.B. die Verstärkung von kognitiven Fähigkeiten des Partners wie Erkennung, Beurteilung und/oder Handlung. Die Umgebung, der das Robotergesicht ausgesetzt wird, muss also stets einen Menschen als Interaktionspartner des Robotergesichts in einem bestimmten Kommunikationskontext enthalten. Der Kommunikationskontext ist hier z.B. die Situation oder Szene, in der das Robotergesicht eine bestimmte psychologische oder Transaktionsinformation mit seinem Partner austauscht. Dabei ist zu beachten, dass die Betonung hier nur auf dem Aspekt des psychologischen Informationsaustausches liegt.

Natürlich sollte der Kommunikationskontext in Abhängigkeit von der technischen Entwicklung der drei oben genannten Komponenten (1. Erkennung des Emotionszustands des menschlichen Partners; 2. Auswahl des Emotionszustands oder Emotionsberechnung; 3) Ausdruck des Emotionszustands) im gegenwärtigen Stadium sehr primitiv sein; in Zukunft könnte das Robotergesicht jedoch durchaus in einer realistischeren oder komplexeren Kommunikationsumgebung arbeiten.

DREI TECHNISCHE KOMPONENTEN DES ROBOTERGESICHTS

Erkennung von Gesichtsausdrücken in Echtzeit
Unter Berücksichtigung der Helligkeitsverteilung über Gesichtsbestandteile wie Augenbrauen, Augen und Mund, die durch Gesichtsausdrücke meist beeinflusst wird, wählten wir 13 vertikale Liniensegmente aus, die Augen, Augenbrauen, Ober- und Unterlippe kreuzen, und ermittelten die Änderung der Helligkeitsverteilung auf dem menschlichen Gesicht beim Wechsel zwischen dem Ausdruck eines bestimmten Gefühlszustands und einem neutralen Ausdruck. Diese Gesichtsdaten wurden in ein geschichtetes neuronales Netz eingegeben, das zuvor schon mit zahlreichen Daten typischer Gesichtsausdrücke für die Erkennung von sechs grundlegenden Gesichtsausdrücken geschult worden war.

Nach Erkennung der Irispositionen in den durch eine CCD-Kamera erfassten Gesichtsbilddaten wurden die normalisierten Gesichtsdaten sofort in das neuronale Netz eingegeben, und das Erkennungsergebnis wurde ausgegeben. Ein Zyklus für die Erkennung eines Gesichtsausdrucks nahm weniger als 100 ms in Anspruch. Dies ist die anwendbare Echtzeit-Skala für die Interaktionsexperimente mit dem Robotergesicht. Die durchschnittliche Rate für die richtige Erkennung von sechs grundlegenden Gesichtsausdrücken wie Überraschung, Angst, Wut, Abscheu, Glücklichkeit und Traurigkeit erreichte den Wert von 85%.

Darwinsches Modell der künstlichen Emotion
Für die Erzeugung eines Emotionszustands als Reaktion auf die Gesichtserkennung führten wir ein generatives Potential für jede der sechs grundlegenden Emotionen (Überraschung, Angst, Abscheu, Wut, Glücklichkeit, Traurigkeit) ein. Dieser Potentialwert schwankt gelegentlich aufgrund des Feedback-Einflusses der zuvor generierten Emotion, und die Potentialwerte der sechs Emotionszustände konkurrieren miteinander. Der höchste Wert "überlebt" den Wettbewerb zur Auswahl des Emotionszustands, der als Gesichtsausdruck gezeigt wird. Wir formulierten ein Flussdiagramm des Darwinschen Agenten der künstlichen Emotion, in dem das generative Potential durch Einflussgewichte modifiziert wird und die früheren Potentialwerte in linearer Form. Die Gewichtungswerte und die Schwellen wurden im Trial-and-Error-Verfahren bestimmt, um die wahrscheinlichsten Emotionsreaktionen menschlicher Versuchspersonen zu reproduzieren. Dieses Modell deckte 84 Fälle von Gesichtsausdrucksreaktionen auf Änderungen des Emotionszustands des menschlichen Partners ab.

Emotionsausdruck auf Robotergesicht
Die Robotergesichter Mark I und Mark II wurden durch unser Labor entwickelt. Der Gesichtsausdruck auf beiden Robotern wird anhand von anatomischen und psychologischen Kenntnissen über menschliche Gesichtsausdrücke gestaltet. Nach Eckman und Friesen [3] setzen sich nahezu alle Gesichtsausdrücke aus einer bestimmten Kombination von 44 Aktionseinheiten zusammen. Die Aktionseinheiten sind Bestandteile eines Codierungssystems für die Beschreibung des Gesichtsausdrucks. Ein Gesichtsausdruck wird daher durch eine bestimmte Kombination von Gesichtsteilsegmenten gestaltet, die sich beim Erzeugen des Gesichtsausdrucks bewegen. Für sechs grundlegende Gesichtsausdrücke werden die 14 in Tabelle 1 aufgeführten Aktionseinheiten ausgewählt; die Kombinationen dieser Aktionseinheiten für die sechs Gesichtsausdrücke sind ebenfalls angegeben (Tabelle 2). Die Größenordnung der Verschiebung jeder Aktionseinheit wird experimentell bestimmt.

Gesichtsausdruck Aktionseinheiten (AU)
ÜberraschungAngstAbscheuWutGlücklichkeitTraurigkeit 1+2+5+261+2+4+5+7+20+25,264+9+174+5+7+10+25,266+12 (+26)1+4+15

Robotergesicht Mark I: Die Mikro-Aktuatoren zum Ziehen der Steuerpunkte (siehe Abb. 3) auf der Gesichtshaut des Roboters sind vom pneumatischen Typ mit einem Kolben und zwei Kammern; die Kraft zum Ziehen der Gesichtshaut-Steuerpunkte wird durch die Öffnungszeit des Mikro-Luftventils zwischen dem Aktuator und einer Luftdruckquelle gesteuert. Robotergesicht Mark I erzielte gute Ergebnisse beim Erzeugen realistischer Gesichtsausdrücke für die sechs grundlegenden Emotionszustände (Durchschnittsrate korrekter Ausdrücke 83%), wobei sich jedoch beim angstvollen Gesicht Schwierigkeiten ergaben. Hinweis: Die verwendeten Mikro-Aktuatoren des Luftzylindertyps können nur begrenzt miniaturisiert werden, so dass das Robotergesicht 20%

Robotergesicht Mark II: Hier wurde ein feiner Draht aus einer Memory-Legierung (SMA) verwendet, um die Gesichtshaut-Steuerpunkte auf einer speziell angefertigten Gesichtshaut-Maske zu betätigen, und die Kraft zum Ziehen der Steuerpunkte, deren Lage im Vergleich zu Robotergesicht Mark I etwas verändert wurde, wird durch elektrischen Strom gesteuert, der an den SMA-Draht angelegt wird. Die Reaktionszeit beim Erzeugen von Gesichtsausdrücken ist zufrieden stellend. Die visuelle Auswertung der Rate korrekt erzeugter Gesichtsausdrücke für die sechs grundlegenden Gesichtsausdrücke ergab den Durchschnittswert 83%.

INTERAKTIVE KOMMUNIKATION

Spiegelung von Gesichtsausdrücken
Wenn der menschliche Partner beginnt, einen der sechs Gesichtsausdrücke zu bilden, beginnt das Robotergesicht gleichzeitig mit der Erfassung des Gesichtsabbilds des menschlichen Partners. Anhand der Helligkeitsverteilung auf dem Gesicht bestimmt der Roboter zunächst die Irispositionen und erfasst dann die Helligkeitsverteilung entlang der 13 vertikalen Linien. Die normalisierten Gesichtsdaten werden in das geschulte neuronale Netz eingegeben. Die Erkennung eines Gesichtsausdruck geht sukzessive vor sich. Erzielt der Roboter drei Mal das gleiche Erkennungsergebnis, entscheidet er, dass der Gesichtsausdruck des Partners dem ermittelten Gesichtsausdruck entspricht. Das Erkennungsergebnis wird daraufhin zum Computer übertragen, der die für den Gesichtsausdruck notwendige Auslenkung der Steuerpunkte bestimmt. Anschließend werden die Mikro-Aktuatoren angetrieben, um die Gesichtshaut-Steuerpunkte so zu ziehen, wie es für den Gesichtsausdruck erforderlich ist. Das Robotergesicht spiegelt in diesem Fall einfach den vom Partner gezeigten Gesichtsausdruck. Erlernen eines bevorzugten lächelnden Gesichtausdrucks Der menschliche Partner sitzt vor dem Robotergesicht und bewertet den Ausdruck des Robotergesichts. Er gibt seine Bewertung (Belohnung) in den Q-Lernalgorithmus ein, der im Computer des Robotergesichts implementiert ist. Der Computer berechnet daraufhin die Wertfunktion anhand der Belohnung. Entsprechend der Wahrscheinlichkeit, die die Wertfunktion ergibt, nimmt das Robotergesicht einen ausgewählten Gesichtsausdruck an oder ändert seinen Gesichtsausdruck. Das gleiche Verfahren wie oben wird wiederholt, bis der menschliche Partner mit der Qualität des angegebenen Gesichtsausdrucks zufrieden ist. Dieses interaktive Lernexperiment wurde für einen glücklichen Gesichtsausdruck ausgeführt.

Generieren einer Persönlichkeit
Im Computer des Robotergesichts wird der Algorithmus für Bestätigungslernen (Q-Lernen) implementiert. Die beim Bestätigungslernen unbedingt erforderliche Belohnung wird durch den Partner des Robotergesichts gegeben. Bevorzugt der Partner eine bestimmte Reaktion des Robotergesichts, so gibt er dem Lernalgorithmus eine positive Belohnung; wird die Reaktion nicht bevorzugt, so erhält der Algorithmus eine negative "Belohnung". Nach einer Reihe von Lerninteraktionen hat der Roboter eine sich unterordnende, "folgende" Persönlichkeit organisiert. Hinweis: Ursprünglich war die Persönlichkeit des Robotergesichts auf "egoistisch" eingestellt.

WERTESYSTEM UND KÜNSTLICHE EMOTION
Wir nehmen an, dass die kommunikative Interaktion des Robotergesichts mit seinem menschlichen Partner schematisch wie in Abb. 6 dargestellt werden kann. Beeinflusst durch den Ausdruck des Emotionszustands des Partners { bi} und seiner selbst {ai} kann das Robotergesicht den nächsten Gesichtsausdruck ai+1 annehmen, um den Partner am Ende einer Abfolge von Ereignissen {Ei (ai, bi) } im gegebenen Kommunikationskontext zufrieden zu stellen. Das Robotergesicht muss also eine bestimmte Folge von Gesichtsausdrücken {ai} auswählen. Kann das Robotergesicht in einem bestimmten Stadium selbst angeben, dass es ai den Vorzug vor aj gibt, sollten wir sagen, dass das Robotergesicht möglicherweise ein Wertesystem hat, in dem ai tendenziell stärker bevorzugt wird als andere Gesichtsausdrücke. Kann das Robotergesicht diese Neigung (Bias) im Laufe der Gesichtsreaktion auf die Handlungen oder Gesichtsausdrücke des Partners {bi} erlernen, so sieht es möglicherweise so aus, als ob der Roboter eine Emotionsberechnung ausführt oder eine künstliche Emotion hat.