Prof. Dr. Helge Ritter

Die Evolution der Künstlichen Intelligenz

Der Prozessorchip eines heutigen Schreibtischcomputers kann in jeder Sekunde mehrere hundert Millionen Rechenoperationen ausführen. Würden dabei alle Zwischenergebnisse ausgedruckt, so müßte das Ende der entstehenden Ziffernkolonne mit mehrfacher Schallgeschwindigkeit über das Papier eilen, um mit der Ausgabe Schritt zu halten. Der Prozessor kann damit in nur wenigen Sekunden die Lebensleistung eines selbst flinken menschlichen Kopfrechners erbringen, auch wenn dieser jede Sekunde seines Lebens ausschließlich dem Zahlenrechnen widmen würde. Im Gegensatz zum Menschen ist das abgelieferte Ergebnis dabei auch noch fehlerfrei.

Die Festplatte desselben Computers bietet mühelos Platz, den Volltext sämtlicher Gespräche zu speichern, die ein Mensch während eines ganzen Lebens führen kann. In wenigen Jahren wird dies auch für die Bilder gelten, die wir in unserer Lebenszeit sehen können.

Bedarf es daher nur noch eines hinreichend ausgeklügelten Programms, um heutige Computer so intelligent wie menschliche Gehirne (oder gar noch intelligenter!) zu machen, oder fehlen doch noch wichtige Dinge?

Einiges von der Antwort hängt davon ab, welche Ansprüche wir an künstliche Intelligenz stellen. Bereits in den 60iger Jahren schrieb Joseph Weizenbaum das Programm Eliza, mit dem ein Mensch über eine Tastatur einen Dialog führen konnte. Eliza schlüpfte dabei in die Rolle eines Psychiaters, der mit einem schizophrenen Patienten ein Interview führt. Das Programm generierte seine Sätze, indem es Teile vorangegangener Eingaben des Menschen mit Satzschablonen und allgemeinen Feststellungen aus einem gespeicherten Vorrat kombinierte und als Antworten zurückgab. Eliza hatte dabei nicht den geringsten Schimmer von der Bedeutung seiner Sätze. Dennoch gelang es dem Programm kritikloseren Benutzern durchaus eine Zeitlang den Eindruck eines verständnisfähigen Dialogpartners vorzugaukeln.

Anstoß für Eliza und zahlreiche danach entwickelte Programme war ein Vorschlag des britischen Mathematikers Alan Turing aus dem Jahre 1950: wenn ein Mensch während eines per Tastatur geführten, längeren Dialogs keinen Unterschied zu einem menschlichen Partner feststellen kann, so sollte man dem Computer künstliche Intelligenz zusprechen. Bis heute stellt dieser "`Turing Test'' eine berühmte Meßlatte für den Stand künstlicher Intelligenz dar. 1990 lobte der amerikanische Industrielle und Erfinder Hugh Loebner ein Preisgeld von 100000 US-$ für den Entwickler des ersten Computerprogramms aus, das den Turing Test besteht, sowie ein weiteres Preisgeld von 2000 US-$ für dasjenige Programm, das in einem seither jährlich veranstaltetem, öffentlichen Wettbewerb nach dem Urteil einer Jury einem Bestehen des Tests am nächsten kommt.

Die bisher erfolgreichsten Programme bedienen sich dabei Strategien, die dem Ansatz von Eliza immer noch sehr stark ähneln: sie verwalten einen großen Vorrat an Satzfragmenten, die vom Auftreten bestimmter bedeutungstragender Stichworte im Eingabetext aktiviert werden. Die Regeln für die Aktivierung sind dabei gegenüber Eliza stark verfeinert, die Anzahl gespeicherter Satzfragmente erheblich erhöht. Die Qualität der damit möglichen Dialoge reicht inzwischen aus, um einfache Auskunftsdienste zu ermöglichen, oder dialogfähige "`virtuelle Charaktere'' in Computerspielen zu verwirklichen.

Besonders gut funktionieren derartige Ansätze, wenn die vorgesehene Anwendung nur einen engen Weltausschnitt betrifft. Beispiele sind etwa natürlichsprachliche Fahrplanauskunftssysteme, oder Expertensysteme für bestimmte, engumgrenzbare Wissensgebiete. Der Sieg des Schachprogramms "`Deep Blue'' über den Weltmeister Gari Kasparov im Jahre 1997 hat gezeigt, daß innerhalb engumgrenzter Gebiete heutige Computerprogramme mit den besten menschlichen Experten konkurrieren können. Auf das Gebiet des Schachspiels eingeschränkt, kann auch der Turingtest als gelöst gelten: so ist es heute einem Schachspieler nicht mehr zuverlässig möglich, in einer Fernpartie zu entscheiden, ob er es mit einem menschlichen Gegner oder einem Computerprogramm zu tun hat.

Obwohl die Krone des Schachs damit bei einem Computer liegt, hat sich die Nachbildung vergleichsweise profaner erscheinender Intelligenzfähigkeiten durch Computer oder Roboter bis heute als in vielen Fällen außerordentlich harte Nuß erwiesen. Ein besonders eklatantes Beispiel ist die Ausstattung eines Computers mit einfachem Alltagswissen. Wie bereits eingangs bemerkt, liegt die Schwierigkeit dabei nicht etwa an mangelndem Speicherplatz, sondern darin, das abgespeicherte Wissen so zu vernetzen, wie es unseren Gedankenverbindungen entspricht. Aufgrund ihrer sehr großen praktischen Bedeutung wird an Lösungen dieser Aufgabe weltweit gearbeitet. Eines der aufwendigsten Projekte wurde bereits im Jahre 1984 von dem amerikanischen KI-Forscher Douglas Lenat unter dem Projektname Cyc initiiert. Ziel von Cyc ist es, einen Computer mit soviel Alltagswissen auszustatten, daß er neue Texte verstehen und sich durch Lesen selbständig "`weiterbilden'' kann. Auch heute, nach über 100 Personenjahre investierter Arbeit, ist dieses Ziel immer noch in weiter Ferne (Douglas Lenat rechnet damit, daß Cyc im Jahre 2025 diesen "`kritischen Punkt'' erreichen kann). Dafür haben die Erfahrungen aus dem Projekt sehr zu einer besseren Einschätzung der mit der Aufgabe verbunden Schwierigkeiten beigetragen. Während eines Tests kam das System beispielsweise zu dem Schluß "`Alle Menschen sind berühmt''. Als Ursache stellte sich heraus, daß in der Wissensbasis bis dato nur Personen enthalten waren, deren Namen auch in einem Konversationslexikon vorkommen. Daher hatte das System nur Daten über Personen, die tatsächlich alle berühmt waren, und gelangte durchaus folgerichtig zu seinem Ergebnis.

Das Beispiel beleuchtet die Art von Schwierigkeiten, die eine einseitig auf Logik gegründete künstliche Intelligenz antrifft: logische Schlußketten sind außerordentlich leicht verwundbar. Eine einzige Inkonsistenz in den verwendeten Daten entzieht logischen Schlüssen sehr schnell ihre Tragfähigkeit, da mit einem Widerspruch sofort auch jede beliebig unsinnige Schlußfolgerung formal herleitbar wird. Menschliches Wissen ist aber auf allen Ebenen unvermeidlich von Ungenauigkeiten und Fehlern durchzogen; dennoch können wir in der Regel sehr flexibel und mühelos mit solchem Wissen umgehen. So ist uns etwa klar, daß es keine Gespenster gibt. Dennoch wird unser Denkapparat keineswegs in unauflösliche Widersprüche verwickelt, wenn wir in einer Spukgeschichte von einem Gespenst erfahren. Logisches Schließen ist daher zumindest für menschliche Intelligenz von begrenzterer Bedeutung, als uns unser gelegentlicher (auch kulturell bedingter) Stolz auf die Fähigkeit zu logischem Denken nahelegt.

Ein Teil der Verwundbarkeit von Logik liegt in ihrer Unfähigkeit, zwischen Wahr und Falsch abgestuftere Zwischenurteile zu bilden. Viele unserer Einschätzungen sind jedoch von der Art "`wahrscheinlich regnet es morgen'', ohne daß wir dabei jedoch ganz sicher sein könnten. Erst mit der Formulierbarkeit derartiger, gradueller Einschätzungen werden die meisten Intelligenzleistungen möglich und im Rechner abbildbar. So beruht der Erfolg des Deep Blue Schachprogramms auf einer ausgeklügelten Bewertungsfunktion für die "`Qualität'' einer erreichten Schachstellung (dabei fließen Faktoren wie das noch vorhandene Figurenmaterial oder die Anzahl und Lage der von eigenen bzw. gegnerischen Figuren bedrohten Felder ein). Die immense Geschwindigkeit von 256 für diese Aufgabe eingesetzten Prozessoren ermöglichte es dem Programm damit, in der Zeit zwischen zwei Zügen einige Dutzend Milliarden Spielstellungen zu bewerten und damit den weiteren Spielverlauf um etwa 14 Halbzüge im voraus überblicken zu können.

Kern des Verfahrens ist dabei die Anordnung aller Entscheidungsmöglichkeiten in Form eines "`Entscheidungsbaums'' (Die nebenstehende Abbildung zeigt ein Beispiel eines - sehr kleinen - Suchbaums, bei dem an jeder Gabelung nur zwei Entscheidungsmöglichkeiten existieren). Die Wurzel des Baums stellt die Anfangssituation dar. Von dort führt jede Entscheidung entlang eines neuen Zweigs, bis der gewählte Weg an einer "`Blattspitze'' endet (beim Schach wäre jeder Blattspitze eine der beiden Bewertungen "`Sieg'' oder "`Niederlage'' zugeordnet). Ziel dies Programms ist die Suche nach einer Entscheidungsfolge, die in eine möglichst erfolgreiche Blattspitze ("`Sieg'') führt.

Der Erfolg dieses Verfahrens beruht dabei entscheidend auf einem schnellen Durchsuchen möglichst weiter Teile des Entscheidungsbaums in Verbindung mit einer "`Bewertungsfunktion'' für den Erfolg eines eingeschlagenen Weges. Diese Strategie ist typisch für sehr viele der heutigen KI-Ansätze. Sie ist zugleich die Ursache, warum die bisherigen Erfolge auf vergleichsweise enge Weltausschnitte begrenzt sind. In aller Regel nimmt der Suchaufwand nämlich überaus schnell mit der Komplexität des zu behandelnden Weltausschnitts zu. Das Beispiel Computerschach kann dies verdeutlichen: hier gibt im Mittel aus jeder Position sechs Fortsetzungszüge, die in Betracht zu ziehen sind. Eine vollständige Vorausschau des Spielverlaufs für die nächsten 14 Halbzüge erfordert daher die Betrachtung eines Entscheidungsbaums mit etwa 614 oder ca. 80 Milliarden Spielstellungen, eine Anzahl, die Deep Blue in gut drei Minuten bewältigt. Wenn das Spiel komplexer wird, wie etwa beim japanischen Brettspiel Go mit etwa 30 Fortsetzungszügen je Stellung, wächst der Suchaufwand geradezu explosiv an: dieselbe Vorausschautiefe erfordert jetzt ein Durchsuchen von 3014 oder 480 Millionen Billionen Spielstellungen. Diese Zahl ist mehr als 6 Milliarden mal so groß wie beim Schach und würde auch für Deep Blue zu geradezu geologisch langen Antwortzeiten führen.

Diese extrem rasche Anwachsen des Suchaufwands ist als "`kombinatorische Explosion'' bekannt (Die rote Kurve in nebenstehenden Abbildung veranschaulicht das Anwachsen des Rechenaufwands unter einer kombinatorischen Exploration mit der Problemgröße; die blaue Kurve entspricht einer Aufgabe, die ohne kombinatorische Explosion lösbar ist). Sie läßt alle absehbaren Geschwindigkeitssteigerungen künftiger Computergenerationen nahezu wirkungslos verpuffen, da für viele praktisch interessante Situationen die Anzahl erforderlicher Rechenoperationen mühelos die seit dem Urknall des Universums verstrichene Anzahl an Mikrosekunden (etwa 3 x 1023; für Go wird diese Zahl bereits für 16 Halbzüge überschritten) übersteigt und damit für immer jenseits technischer Erreichbarkeit liegt.

Diese einfachen Zahlenbetrachtungen verdeutlichen, daß allein von einer bloßen Steigerung der Verarbeitungsgeschwindigkeit heutiger Computer - auch wenn diese Steigerungen noch vieltausend oder gar millionenfach sein sollten - keine revolutionäre Steigerung der Reichweite der meisten heutigen KI-Ansätze einhergehen wird. Die Situation läßt sich vielleicht so charakterisieren: die enorme Fähigkeit heutiger Prozessoren, eine sehr große Anzahl von Rechenoperationen seriell auszuführen, hat uns zur Entwicklung von Verfahren geführt, die diese Fähigkeit sehr einseitig ausnutzen, die aber nur sehr begrenzt auf größere Aufgabenbereiche "`skalierbar'' sind. Diese Verfahren bringen künstliche Intelligenz auf Wegen zustande, die sich von denen biologischer Gehirne nahezu gänzlich unterscheiden.

Das Beispiel Computerschach läßt diesen Unterschied sehr deutlich hervortreten: auch ein Schachgroßmeister kann nur wenige Stellungen pro Sekunde bewerten. Er muß daher eine ungleich größere Selektivität für aussichtsreiche Situationen aufbringen, da er nur so mit einer gegenüber dem Computer geradezu verschwindend kleinen Anzahl durchdachter Spielfortsetzungen die richtige Wahl treffen kann. Wie er dieses "`Gespür'' aufbringt, ist bis heute noch weitgehend ein Geheimnis. Wir sehen daran aber, daß anstelle einer Geschwindigkeitssteigerung es wesentlich eher auf die Entwicklung besserer Methoden ankommen wird, als den in erster Linie auf schnelle, kombinatorische Suche gegründeten Verfahren. Die Erforschung kognitiver Prozesse und der ihnen zugrundeliegenden neuronalen Geschehnisse im Gehirn dazu möglicherweise wesentliche Anstöße liefern.

Im Geschwindigkeitsvergleich mit Transistoren, den Bauelementen heutiger Computerprozessoren, wirken die Nervenzellen des Gehirns, die Neuronen, geradezu phlegmatisch. Während ein schneller Transistor mühelos eine Million Schaltvorgänge in jeder Millisekunde (tausendstel Sekunde) bewältigt, brauchen auch die schnellsten Neuronen im Gehirn (sie steuern die Muskeln des Augapfels) ein Mehrfaches einer Millisekunde als Erholungspause nach einem einzigen Schaltvorgang. Dennoch gelingt es den Neuronen eines Spatzenhirns, trotz ihrer geringen Arbeitsgeschwindigkeit den Vogel mit einem sehr raschen Reaktionsvermögen auszustatten, so daß er mit hoher Geschwindigkeit unter der Orientierung seines Sehsinnes in ein Geäst einfliegen und dort auf einem visuell selbst noch bei Dämmerung identifizierten Zweig sicher landen kann. Trotz unserer um ein Millionenfaches schnelleren Computerprozessoren können wir heute noch keine Maschine mit einem auch nur annähernd vergleichbaren visuomotorischen Reaktionsvermögen ausstatten.

Welche Tricks ermöglichen es der Natur, mit ihren langsamen Bauelementen derart schnelle Verarbeitungsleistungen zu erzielen? Im Unterschied zum Computer, der in der Regel nur einen oder wenige Prozessoren besitzt, arbeiten im Gehirn sehr viele Neuronen gleichzeitig (das menschliche Gehirn besitzt schätzungsweise 10 Millarden Neuronen, von denen zu jedem Zeitpunkt ungefähr ein Prozent aktiv ist). Ein weiterer großer Unterschied ist die sehr enge Vernetzung der Neuronen untereinander. In der Gehirnrinde enden auf jedem Neuron die "`Kontakte'' von mehreren Tausend Nervenfasern, die von anderen Neuronen heranführen (für gewisse Neuronen des Kleinhirns ist diese Zahl noch um ein hunderfaches größer). Die Grundoperation der meisten Neuronen ist dabei vergleichsweise einfach: sie sammeln die von den Nervenfasern der anderen Neuronen herangetragenen elektrischen Signale und senden ihrerseits ein Signal aus (das Neuron "`feuert'' einen Nadelimpuls), wenn die Summe der herangetragenen Signale eine bestimmte Schwelle überschreitet. Wie stark ein einlaufendes Signal zur Erreichung des Schwellwerts beiträgt, hängt dabei von der Stärke des "`synaptischen Kontakts'' zwischen der herantragenden Nervenfaser und dem Bestimmungsneuron ab. Signale können dabei auch über "`hemmende Verbindungen'' einlaufen und führen in diesem Falle dazu daß sich das Neuron von seiner "`Feuerschwelle'' wieder weiter entfernt.

Dieses Verhalten von Neuronen und ihre Verschaltung läßt sich im Computer simulativ nachbilden. Auch wenn damit in der Regel oft sehr große Vereinfachungen - insbesondere aus der Sicht der Biologie - einhergehen, besteht doch die Hoffnung, daß derartige Künstliche neuronale Netze wichtige Verarbeitungsprinzipien realer Neuronennetze in ausreichendem Maße erfassen, um Hypothesen über den Ablauf von Informationsprozessen im Gehirn simulativ erforschen zu können und gleichzeitig die Möglichkeiten neuronaler Informationsverarbeitung für technische Anwendungsaufgaben, wie beispielsweise die Mustererkennung oder die Steuerung von Robotern, zu erschließen.

Wie unterscheidet sich die Verarbeitung von Information in neuronalen Netzen von derjenigen herkömmlicher Computeralgorithmen? Während ein Computeralgorithmus aus einer langen Anweisungskette besteht, die der Reihe nach abgearbeitet werden muß, kommt ein neuronales Netz völlig ohne Anweisungen aus.

Stattdessen wiederholen alle Neuronen gleichzeitig immer wieder dieselbe einfache Grundoperation: sie summieren die von anderen Neuronen einlaufenden Nervenimpulse und "`feuern'' selbst einen Impuls, wenn ihre Summe eine Schwelle erreicht. Nach einer kurzen Ruhepause kann sich der Vorgang wiederholen. Aus diesem einfachen Grundprinzip kann sich ein raumzeitliches Aktivitätsgeschehen beträchtlicher Komplexität entfalten. Auf diesem Geschehen beruht die Fähigkeit des neuronalen Netzes zur Informationsverarbeitung: eine Dateneingabe erfolgt, indem einzelnen Neuronen die Rolle von Eingabeelementen zugewiesen wird. Die Aktivitäten dieser "`Sensorneuronen'' werden direkt von den Eingabedaten der beabsichtigten Berechnung gesteuert. Andere Neuronen werden zu Ausgabeelementen und ihre Aktivität wird als "`Ergebnis'' der "`Berechnung'' interpretiert.

Die Berechnung selbst ergibt sich dabei durch die Steuerung des Aktivitätsgeschehens über die Eingabeneuronen und das Auslesen der Auswirkung auf die Ausgabeneuronaktivitäten. Der "`Algorithmus'' ist daher nicht mehr explizit in Form von Anweisungen formuliert, sondern ergibt sich indirekt aus der Struktur der Verknüpfungen zwischen den Neuronen, denn diese bestimmen, wie sich Eingabeaktivitäten von den Sensorneuronen im Netz zu den Ausgabeneuronen ausbreiten und wie sich die Aktivitätsmuster dabei transformieren.

Auf den ersten Blick mag diese Art der Informationsverarbeitung recht umständlich erscheinen. In Wirklichkeit stellen sich jedoch viele Vorteile heraus: Statt eines komplexen, zentralen Prozessors sind nur zahlreiche, vergleichsweise einfach aufgebaute Rechenelemente erforderlich, die alle parallel arbeiten können und die für die Koordinierung ihrer Aktivitäten keine zentrale Instanz mehr benötigen. Diese Parallelität macht das System zugleich sehr schnell: während die lange Anweisungskette des seriellen Programms einen außerordentlich flinken Prozessor erfordert, kann das neuronale Netz dank seiner parallelen Verarbeitung auch mit langsamen Bauelementen rasch zu seinem Ergebnis finden. Dieses wird darüberhinaus vom Ausfall einiger Neuronen nur wenig beeinflußt: das System ist in hohem Maße fehlertolerant, während ein einziger Verarbeitungsfehler in einer langen Anweisungskette als Ursache zum bekannten "`Absturz'' des gesamten Prozesses ausreichen kann.

Die nebenstehenden Bilder illustrieren die geschilderte Arbeitsweise anhand eines künstlichen neuronalen Netzes, das fehlende Teile eines fragmentarischen Eingabemusters vervollständigt. Ein solcher Prozeß bietet ein einfaches Modell für die assoziative Speicherung von Gedächtnisinhalten im Gehirn: auch hier spielt der Abruf einer kompletten "`Erinnerungsbilds'' anhand eines Erinnerungsfragments eine wichtige Rolle. Das zu vervollständigende Muster unseres Beispiels ist in der letzten Teilabbildung zu sehen. Jedem Bildpunkt ist ein künstliches Neuron zugeordnet, dessen Aktivität die Farbe (schwarz = aktiv, weiss = inaktiv) des jeweiligen Bildpunkts anzeigt. Die Verbindungen zwischen den Neuronen sind so gewählt, daß Aktivitäten, die dem in der letzten Teilabbildung gezeigten Bild entsprechen, sich gegenseitig unterstützen. In der ersten Abbildung ist das anfängliche Aktivitätsmuster der Neuronen (die wie die Bildpunkte in Form einer quadratischen 120x120 Matrix angeordet sind) wiedergegeben. Das fragmentarische Anfragemuster wird dabei durch die Neuronen im oberen Bilddrittel repräsentiert: nur ihre Aktivitäten wurden in Einklang mit dem gesuchten Muster gebracht; die Aktivitäten aller übrigen Neuronen sind dagegen zufällig initialisiert (restlicher Bildteil). Die weiteren Bilder zeigen, wie sich die Neuronenaktivitäten unter dem Einfluß der Vernetzung zwischen den Neuronen entwickeln und dabei innerhalb weniger Zeitschritte die fragmentarische Anfangsinformation zum richtigen Muster vervollständigen.

Aufgrund dieses von herkömmlichen Computerprogrammen sehr verschiedenen Arbeitsprinzips bietet die "`Programmierung'' künstlicher neuronaler Netze allerdings eine erhebliche Herausforderung: es gibt kein "`neuronales Programm'', das die Form einer für den Menschen verständlichen Folge von Anweisungen hätte. Stattdessen ist es erforderlich, nach einem in der Regel verwickelten Vernetzungsmuster für die beteiligten Neuronen zu suchen, aus dem die gewünschte Berechnungsfunktion hervorgeht. Für die Natur, für die die Durchschaubarkeit ihrer Lösungen durch den Menschen keine Rolle spielt, ist dieser Umstand ohne Belang. Für die Konstruktion und Verwendung künstlicher neuronaler Netze durch den Menschen bildet die größere Unanschaulichkeit "`neuronaler Programmierung'' allerdings ein nicht unerhebliches Hindernis.

Auch hier stellt sich heraus, daß die Technik wieder von biologischen Lösungen lernen kann. Auch die Natur mußte geeignete Verschaltungsstrukturen für die Gehirne ihrer Lebewesen finden. Ein langsamer Weg dazu war die Evolution, die Erzeugung vieler Generationen von Nachkommen mit geringen Verschaltungsunterschieden ihrer Nervensysteme und einer Auslese der jeweils am besten überlebenden Varianten. Dieser sehr zeit- und ressourcenaufwendige Prozess läßt sich heute auch im Computer simulieren. Auf diese Weise ist es gelungen, künstliche neuronale Netze für die Lösung von zum Teil sehr komplexen Steuerungs- und Regelungsaufgaben gewissermaßen zu "`züchten''. Zwar ist der Aufwand dieser Methode sehr hoch; wenn jedoch am Ende ein geeignetes Netz gefunden ist, so liefert dieses ein Berechnungsschema für die gestellte Aufgabe, dessen Effizienz in vielen Fällen mit anderen Methoden nicht erreichbar ist.

Ein zweiter, gegenüber simulierter Evolution wesentlich schnellerer und in vielen Fällen zugleich sehr attraktiver Weg zur "`Programmierung'' neuronaler Netze bildet der Vorgang des Lernens. Vermutlich war auch für biologische Neuronennetze Evolution als alleiniges Prinzip zur "`Programmierung'' neuer Verhaltensweisen zu langsam. Die meisten Tiere und erst recht der Mensch können neue Verhaltensweisen aus Erfahrung, höhere Tiere auch anhand von aktiver Imitation, erlernen. Die zugrundeliegenden Vorgänge im Gehirn sind dabei in vielen ihrer Details noch unerforscht. Eine wichtige Grundlage ist dabei jedoch die Fähigkeit der meisten neuronalen Verknüpfungen, ihre Stärke in Abhängigkeit von ihrer Benutzung zu verändern. Diese bereits 1950 von dem kanadischen Psychologen Donald Hebb aufgrund theoretischer Überlegungen postulierte Fähigkeit war lange Zeit umstritten und konnte erst mehrere Jahrzehnte später in Experimenten tatsächlich nachgewiesen werden (vgl. Engel und Singer, dieser Band).

Heute kennen wir eine ganze Reihe von "`Lernregeln'', nach denen künstliche neuronale Netze diesen Vorgang des Lernens nachahmen können. Gemessen an der Komplexität von Lernvorgängen im Gehirn handelt es sich dabei um beinahe krude zu nennende Vereinfachungen. Dennoch ermöglichen solche Verfahren, für die Lösung einer breiten Palette von Aufgabenstellungen geeignete künstliche neuronale Netze zu "`trainieren''. Voraussetzung ist meist eine ausreichend große Anzahl von Lösungsbeispielen, die während einer "`Trainingsphase'' der neuronalen Lernregel als Grundlage für die Anpassung der neuronalen Verschaltungsstruktur dienen.

Mit ihrer Fähigkeit, aus Beispielen zu lernen, eröffnen künstliche neuronale Netze einen interessanten und zugleich sehr natürlichen Weg zur Realisierung künstlicher Intelligenz. Anstelle der Notwendigkeit, die erforderlichen Fähigkeiten in Form geeigneter Regeln oder Rechenvorschriften explizit formulieren zu müssen, genügt es, das erforderliche Wissen lediglich implizit, in Form einer ausreichen großen Anzahl von Lösungsbeispielen, zu präsentieren. Diese Anforderung ist häufig wesentlich leichter zu erfüllen, als die Gewinnung einer expliziten Lösungsvorschrift.

Ein sehr anschauliches Beispiel bietet das Sehen. Auch wenn wir Sehen vielleicht nicht als Intelligenzleistung betrachten würden, so stellt der Sehprozeß dennoch eine der komplexesten Leistungen unseres Gehirns dar (beim Menschen sind mehr als drei Dutzend Gehirnareale am Zustandekommen des Sehprozesses maßgeblich beteiligt). Allein der uns sehr elementar erscheinende Prozeß der Erkennung eines Objekts, z.B. eines Spielzeugwürfels, beeinhaltet bereits eine beträchtliche Anzahl komplexer Einzelschritte: zuerst muß das Auge auf den Würfel gerichtet werden, damit wir irgendwelche Details erkennen. Dabei muß unser Sehsystem das Objekt von seinem Hintergrund unterscheiden; häufig treten im Vordergrund zusätzlich Verdeckungen auf, die uns möglichst wenig irritieren sollten. Je nach Lage, Abstand, Beleuchtung und Schattenwurf kann das Bild des Würfels in seiner geometrischen Struktur, Farb- und Helligkeitsverteilung gänzlich unterschiedlich ausfallen (es ist bereits der aktiven Leistung unseres visuellen Systems zu verdanken, daß diese unterschiedlichen Bilder für uns meist sehr ähnlich aus sehen). Darüberhinaus sind wir in der Lage, eine große Anzahl unterschiedlicher Varianten eines Spielzeugwürfels als Beispiele ein und desselben Konzepts zu erkennen.

Die Nachbildung vergleichbarer Erkennungsfähigkeiten für Robotersehsysteme bildet seit vielen Jahrzehnten ein sehr aktives Forschungsgebiet der künstlichen Intelligenz. Die explizite Programmierung aller für die Erkennung eines Objekts erforderlichen Details stellt sich dabei als außerordentlich aufwendig heraus. Viele dieser Details sind - ähnlich wie die Lautfolgen der Worte unserer Sprache - sehr einzelfallspezifisch und bilden zusammen den gewaltigen Fundus unseres "`visuellem Wissens'', den wir im Laufe unseres Lebens durch Sehen sehr vieler verschiedener Dinge erworben haben.

In ganz ähnlicher Weise können künstliche neuronale Netze große Mengen visuellen Wissens aus Beispielbildern erlernen und dadurch bei der Realisierung von Robotersehsystemen die mühsame explizite Programmierung vieler Erkennungsdetails ersparen. Die nebenstehende Abbildung zeigt ein Beispiel der Erkennungsleistung eines in der Arbeitsgruppe des Autors entwickelten neuronalen Erkennungssystems (der neuronale Erkenner "`Nessy'' von Gunther Heidemann, den Sie als Exponat in der Ausstellung kennenlernen können), das mit Bildern von Holzspielzeugteilen trainiert wurde. Die Flexibilität dieses Ansatzes wird deutlich, wenn das System innerhalb eines gänzlich anderen Anwendungsfelds eingesetzt werden soll. Anstelle einer mühsamen Umprogrammierung genügt ein Training mit einer Anzahl von Beispielbildern der neuen Domäne. Die nebenstehende zeigt die Erkennungsleistung von Nessy in seinem neuen Anwendungsfeld, der Erkennung von Blickrichtungen der Augen eines menschlichen Gesichts.

Diese attraktiven Eigenschaften künstlicher neuronaler Netze haben der Erforschung künstlicher Intelligenz und ihrer Anwendung wichtige neue Richtungen eröffnet. Ein großes und wichtiges Anwendungfeld bildet dabei die Erkennung von Mustern vielfältigster Art. Hier werden heutzutage in vielen Fällen künstliche neuronale Netze eingesetzt, weil sie sie besonders kurze und effiziente Rechenwege ermöglichen. Die Anwendungspalette reicht dabei von der Erkennung handschriftlicher Zeichen, gesprochener Sprache, der Diagnose von Materialfehlern anhand optischer oder akustischer Merkmale bis hin zur Klassifikation von Aromen von Nahrungsmitteln, einem Anwendungsfeld in dem eine Programmierung aufgrund expliziter Regeln nahezu unmöglich wäre.

Die rasche und sichere Erkennung von Mustern ist aber nur ein, wenn auch sehr wichtiger, Baustein von Intelligenz. Ein weiteres auf Mustererkennung aufbauendes Merkmal ist die Fähigkeit zur Kommunikation. Trotz Programmen wie Eliza und seiner Nachfolger begegnen uns heutige Computer und Roboter in aller Regel noch als recht "`begriffsstutzige'' Automaten. Dort wo sie vorhanden ist, ist die Kommunikation zwischen Mensch und Maschine meist vergleichsweise einseitig ausgelegt: heutige Multimediacomputer transportieren über ihre schnelle und hochauflösende Graphik und ihre Klangausgabe zwar beträchtliche Datenströme hin zum Menschen, in der umgekehrten Richtung ähneln die verfügbaren Datenpfade jedoch eher schmalen "`Datenrinnsalen'' und bieten nur in Ausnahmefällen Eingabemöglichkeiten, die über Tastatur und Mauszeiger hinausgehen.

Auch heute noch beinhalten robuste Erkennung und Verstehen gesprochener Sprache große Herausforderungen an die Forschung, auch wenn in engen Domänen die ersten praktisch einsetzbaren Spracherkennungssysteme kommerziell erhältlich sind. Ein wichtiger Schritt auf dem Weg hin zu einer natürlicheren und damit "`intelligenteren'' Kommunikation zwischen Mensch und Maschine liegt dabei in einer Verknüpfung von Sprache und Sehen. Erst damit wird es möglich, Computer oder Roboter durch kommentierte Demonstration zu neuen Aufgaben anzuleiten, ähnlich wie wir dies ganz selbstverständlich von Menschen (und in engeren Grenzen sogar bei vielen Tieren) gewohnt sind.

Daher arbeiten an dieser Verbindung weltweit zahlreiche Forschungseinrichtungen, darunter im deutschsprachigen Raum der in Bielefeld ansässige Sonderforschungsbereich 360, in dem mehr als fünfzig Informatiker und Linguisten kooperieren, um die Grundlagen situationsbezogener, auf Sprache und Sehen gegründeter Kommunikation zwischen dem Menschen und einem Robotersystem zu erforschen.

Eine wichtige Rolle spielt dabei die Erkennung und Interpretation von Zeige- und Handgesten. Die menschliche Hand ist dank ihrer enorm vielseitigen Beweglichkeit unser universellstes mechanisches Werkzeug. Dieselbe Beweglichkeit macht sie für heutige Robotersehsysteme zu einem außerordentlich schwierig zu analysierendem Erkennungsobjekt. Aber erst, wenn Computer die Bewegungen menschlicher Hände erkennen und analysieren können, können sie uns zusehen und verstehen, wenn wir ihnen etwas zeigen wollen. Darüberhinaus bildet die Steuerung mehrfingriger Roboterhände eine weitere große Herausforderung an die künstliche Intelligenzforschung und Robotik, zu deren Lösung eine visuelle Erkennung menschlicher Handbewegungen neue Zugänge beitragen kann, wie etwa ein durch menschliche Bewegungsbeispiele gesteuertes Trainieren von Robotergreifbewegungen.

Auch in diesem Fall können künstliche neuronale Netze helfen, Handstellungen für einen Computer interpretierbar zu machen. Die nebenstehenden Bilder zeigen die Erkennungsleistung eines Ansatzes, der in der Arbeitsgruppe des Autors entwickelt wurde. Mit diesem System ist es möglich, mit einer menschlichen Hand vor einer Kamera die Bewegungen einer "`virtuellen Hand'' im Computer zu steuern. Damit eröffnen sich interessante neue Möglichkeiten, künftig die Bewegung von Robotern kabellos durch Handgesten zu steuern und dabei die Fähigkeiten lernfähiger künstlicher neuronaler Netze gewissermaßen als Mittler zwischen der natürlichen Intelligenz des Menschen und der maschinellen Intelligenz eines Roboters zu nutzen.

Derartige Verbesserungen ihrer Kommunikationsfähigkeiten zum Menschen bilden wichtige technologische Entwicklungsschritte für künstlich intelligente Roboter. Ähnlich ihren biologischen Vorbildern unterliegt auch die Entwicklung künstlich intelligenter Roboter den Gesetzen der Evolution. Ihre Biotope sind dabei die Anwendungsfelder, in denen sie Akzeptanz beim menschlichen Benutzer finden. Daher werden sich Roboter mit Sprach- und Sehvermögen rascher ausbreiten, als ihre ``einfältigeren'' Kollegen, vorausgesetzt, die notwendige Technik führt nicht zu untragbar hohen zusätzlichen Kosten.

Neben kognitiven Merkmalen beginnt dabei auch das äußere Erscheinungsbild von Robotern eine zunehmend wichtige Rolle zu spielen. Da wir unsere Lebensumgebung auch in Zukunft nach unseren menschlichen Anforderungen gestalten wollen, sind anthropomorphe Roboter, deren Konstruktion sich am menschlichen Körperbau orientiert, an vielen Orten besser angepaßt als ihre heute noch verbreiteten, nichtanthropomorphen Kollegen. Daher wird, besonders in den USA und Japan, die Entwicklung und Erforschung "`humanoider'' Roboter inzwischen mit großer Intensität vorangetrieben. Zu den derzeit vielleicht berühmtesten Beispielen gehören der lernfähige Roboter COG von Rodney Brooks am MIT (siehe Beitrag in diesem Band), sowie der auf zwei Beinen aufrecht gehende ASIMOV der japanischen Firma HONDA. Auch in Deutschland ist man dabei, sich an der Erforschung humanoider Roboter intensiver zu beteiligen, so wurde zum Beispiel in Karlruhe jüngst ein größerer Sonderforschungsbereich zum Thema lernfähiger humanoider Roboter von der Deutschen Forschungsgemeinschaft eingerichtet.

Gänzlich abgesehen von vielleicht ästhetische Urteilen seitens des Menschen ergeben sich viele Vorteile humanoider Roboter schon aus der besseren Abstimmung ihrer Körperform und Bewegungsmöglichkeiten auf die Einrichtungen der meisten Orte, an denen Menschen arbeiten oder sich aufhalten. Darüberhinaus sind ihre Bewegungsmöglichkeiten für Menschen besser einzuschätzen als etwa diejenigen eines heutigen industriellen Montageroboters, ein Umstand, der für die unmittelbare Kooperation zwischen Mensch und Roboter von großer Bedeutung ist. Bei näherer Analyse zeigt sich, daß der Körperbau großen Einfluß auf viele Aspekte von Kommunikation und Erfahrung - insbesondere im nichtverbalen Bereich - nimmt. Daher wird die Entwicklung humanoider Roboter auch die weitere Entwicklung künstlicher Intelligenz in wichtiger Weise prägen und dazu beitragen, daß auch die "`Gestalt'' künstlicher Intelligenz sich entlang einer anthropomorphen Richtung weiterentwickelt.

Eine besonders schnelle Entwicklung findet dabei in einem "`Biotop'' statt, das für die Lebewesen der Natur gänzlich unzugänglich ist. Die Rede ist von der Virtuellen Realität, einer reinen Softwarewelt, in der "`lediglich'' simulierte Roboter existieren können. Auf den ersten Blick mag es scheinen, daß "`virtuelle Roboter'' uns nicht besonders viel in unserer realen Welt nützen können. Abgesehen davon, daß die Simulation selbst relativ "`einfältiger'' Industrieroboter auch für ihre Entwicklung und Anwendung in der realen Welt bereits eine große Hilfe darstellt und daher schon seit langem genutzt wird, übersieht der Einwand, daß etliche menschliche Aktivitäten, wie etwa die Rolle des Berichterstatters, Erzählers oder gar des Schauspielers, als wesentliches Element ihres Gelingens ein mehr oder weniger weitgehendes Eintauchen der beteiligten Personen in eine fiktive, "`virtuelle'', Welt zur Voraussetzung haben.

Virtuelle Charaktere mit menschenähnlichem Erscheinungsbild und Auftreten bis hin zur glaubwürdigen Vorspiegelung emotionaler Regungen -- eine von Schauspielern selbstverständlich erwartete Fähigkeit - besitzen viele Anwendungen. Einfache Prototypen solcher "`virtuellen Personen'' mit bereits interessanten, wenn auch noch vergleichsweise einfachen teilautonomen Reaktionen, bevölkern inzwischen bereits zahlreiche interaktive Computerspiele und ihre Fähigkeiten werden nicht zuletzt aufgrund des großen kommerziellen Interesses in vielen Labors weiterentwickelt. In ihrem äußeren Erscheinungsbild wesentlich ausgefeiltere Exemplare mit nahezu perfektem menschlichem Aussehen und Bewegungen, wie etwa die Heldin Aki im Film "`Final Fantasy'' des japanischen Regisseurs Hironobu Sakaguchi, haben gerade ihren Start in die Kinos Begonnen (bzw. sind bereits Geschichte, sofern es sich - wie bei rascher Evolution nicht anders zu erwarten - um Dinosaurier handelt). Die dabei erforderliche, extrem hohe Qualität der Bewegungen ist allerdings bislang nur mit kostenintensiver "`Handarbeit'' zu erzielen. Damit die Anzahl der dabei von Hand zu editierenden Details in einem beherrschbaren Rahmen bleibt, werden hochentwickelte Simulationsalgorithmen an der Grenze zwischen Computergraphik und künstlicher Intelligenz eingesetzt, um zumindest das autonome und oft sehr komplexe Verhalten lebloser Materie, wie beispielsweise die Bewegung des Faltenwurfs eines simulierten Kleides, automatisch zu berechnen.

Die absehbare Weiterentwicklung dieser Verfahren zielt darauf ab, auch mehr und mehr Verhaltenselemente der Handlungspersonen selbst durch den Computer autonom steuern zu lassen, und die Einwirkungsmöglichkeiten des Regisseurs dadurch auf eine immer höhere Kommunikationsebene zu heben. Folgerichtiger Endpunkt dieser Entwicklung sind weitgehend verhaltensautonome virtuelle Charaktere, die ihre virtuelle Umgebung wahrnehmen und adäquat darauf reagieren können, und die zugleich über Kameras in unsere Welt hinaussehen und sprachliche und gestische Anweisungen ihres Regisseurs unmittelbar verstehen und umsetzen können.

Während die Entwicklung realer Roboter zu einem erheblichen Teil von Problemen wie Energieversorgung, begrenzte mechanische Präzision und vielfältigen Materialunzulänglichkeiten, wie etwa begrenzte Festigkeit oder Verschleiß, behindert wird, ist die Entwicklung virtueller Roboter frei von Hindernissen dieser Art. Darüberhinaus kann jeder einmal erzielte Fortschritt ohne weiteren Kostenaufwand beliebig oft kopiert und lichtschnell über das Internet transportiert werden. Angesichts dieser beträchtlichen Erleichterungen wird die technische Entwicklung virtueller Roboter wesentlich schneller voranschreiten als die ihrer "`erdenschwereren'', mechanischen Geschwister.

Diese Ungleichheit wird weiter dadurch verstärkt, daß Information als neuer, "`virtueller'', Rohstoff eine zunehmend zentrale Bedeutung gewinnt. Es ist daher absehbar, daß auch für Roboter Information langfristig der attraktivste Rohstoff sein wird. Für viele Einsatzfelder, wie beispielsweise die Informationssuche oder die als "`Datamining'' bezeichnete Entdeckung verborgener Zusammenhänge in großen Datenbeständen, ist dabei selbst ein lediglich sichtbarer Roboterkörper gänzlich überflüssig, und die Entwicklung entsprechender "`Informationsroboter'' kann sich allein auf den Intelligenzaspekt konzentrieren.

Bereits jetzt wird das Internet von einer stattlichen Anzahl solcher Informationsroboter, oft kurz "`bots'' genannt, bevölkert. Am bekanntesten sind die diversen "`Suchroboter'', die das Internet nach unterschiedlichen Informationsangeboten durchforsten. Trotz ihrer Körperlosigkeit gibt es bereits erste Suchroboter, die auch über "`Wahrnehmungsfähigkeiten'' für Bilder und Klänge verfügen, denn mit der Zunahme an multimedialen Datenangeboten gewinnt auch die Fähigkeit einer Suche nach Bildern oder auditiven Inhalten rasch an Interesse. Die dafür benötigten Wahrnehmungsfähigkeiten können interessanterweise völlig ohne Sensoren auskommen, da die zu inspizierenden Bilder und Klänge bereits als Dateien im Netz vorliegen. Auch wenn heutige Bild- und Audiosuchroboter noch sehr einfache Verarbeitungsalgorithmen enthalten, werde die meisten höheren Verarbeitungsschritte eines funktionierenden visuellen oder auditiven Systems in künftigen multimedialen Suchrobotern anzutreffen sein, denn auch hier diktieren die Anforderungen der Aufgabe - ein letzendlich möglichst "`intelligentes'' und damit die Inhalte verstehendes Suchen - die Entwicklungsrichtung der benötigten künstlichen Intelligenz.

Wo stehen wir mit unserer natürlichen Intelligenz angesichts dieser Entwicklungsperspektiven künstlich intelligenter Systeme? Trotz ihrer heutigen Begrenzungen muß die Entwicklung künstlicher Intelligenz als rasant bezeichnet werden, besonders, wenn wir sie an der Zeitskala biologischer Evolution messen. Daher wäre zu erwarten, daß uns die Fähigkeiten künstlich intelligenter Systeme in absehbarer Zeit überholen werden, zumindest ist dies die provokative Prognose einiger führender Computerwissenschaftler, wie beispielsweise von Hans Moravec von der Carnegie Mellon Universität, oder des amerikanischen Computerpioniers Ray Kurzweil.

Selbst wenn diese Vorhersagen zutreffen sollten, sprechen viele Argumente dafür, daß die Eigenschaften der dabei entwickelten, künstlichen "`Überintelligenzen'' sehr stark an Eigenschaften menschlicher Intelligenz ausgerichtet wären, da wir sonst viel zu schlecht mit ihnen kommunizieren könnten. Vermutlich würden wir auch bevorzugt Intelligenzformen erzeugen, die besonderes Gefallen an Dienstleistungen und der Unterstützung von Menschen finden. Darüberhinaus würden "`Intelligenzprothesen'', etwa in Form eines uns ständig begleitenden visuellen Gedächtnisses, auch unsere eigenen Fähigkeiten erweitern, ähnlich wie dies bereits heute ein Lexikon oder ein digitaler Organizer in geringerem Grade tun.

Es ist aber noch keineswegs klar, ob eine solche einfache Extrapolation der gegenwärtigen Entwicklung auch wirklich eintreten wird. Die meisten der heute bis zur Einsatzreife entwickelten KI-Programme bewegen sich mit ihren Ansätzen zum großen Teil nahe der Oberfläche dessen, was wir unter Intelligenz verstehen. Wie die Komplexität bei tieferem Eindringen in diese Oberfläche zunimmt, ist beim jetztigen Stand des Wissens noch sehr ungewiß, denn wir beginnen gerade erst, unsere eigene Intelligenz in ersten Ansätzen zu verstehen. Unsere Kenntnis von Fragestellungen, darunter viele praktisch relevante Optimierungsprobleme, deren Lösungsaufwand nach heutigem Kenntnisstand unabhängig vom Algorithmus mindestens exponentiell mit der Problemgröße anwächst, zeigt, daß "`naheliegende'' lineare Extrapolationen auf schwankendem Boden stehen.

Auch die von den Verfechtern einer "`Roboterzukunft'' gern als Extrapolationsargument benutzte biologische Evolution kann möglicherweise sogar ein Indiz für eine eher begrenzte Entwicklungskurve liefern. So haben sich - gemessen an der evolutionären Zeitskala - Gehirnvolumen und damit einhergehend die kognitiven Fähigkeiten des Menschen zunächst außerordentlich rasch entwickelt. Eigentümlicherweise knickte diese Kurve vor etwa 1.5 Millionen Jahren ein, und seither stagniert die Evolution unserer kognitiven Fähigkeiten. Liegt die Ursache dafür lediglich in rein mechanischen "`Abstimmungsproblemen'' (wie etwa eine Begrenzung der Kopfgröße durch die Bedingungen des Geburtsvorgangs), oder mußte sich die Natur hier einem nicht mehr beherrschbaren Anstieg der Realisierungskosten von über das menschliche Maß hinaus gesteigerten kognitiven Fähigkeiten beugen?

Wir wissen es nicht; eines jedoch liegt deutlich vor unseren Augen: nicht der Wettstreit mit der künstlichen Intelligenz technischer Systeme bildet die künftige Herausforderung an unsere natürliche Intelligenz, sondern die Gestaltung der von uns geschaffenen Möglichkeiten zum Wohle aller Menschen.