Vor Zurück Inhalt

10. Die libidinöse Ökonomie des Computers

Ian Wright, ein Mitarbeiter von Slomans Arbeitsgruppe in Birmingham, hat dessen Theorie weiterentwickelt zu einer computational libidinal economy (Wright, 1997).

Wright kategorisiert die Theorien von Simon, Sloman, Frijda sowie Oatley und Johnson-Laird unter dem Begriff "designbasierende Unterbrechertheorien" (design-based interrupt theories) und formuliert drei Kritikpunkte, die für alle genannten Ansätze zutreffen.

 

10.1. Kritik an den Unterbrecher-Theorien der Emotion

10.1.1. Das control precedence problem

Simon unterscheidet in seinem Ansatz zwischen Emotionen mit Unterbrecherfunktion, die einen hohen adaptiven Wert besitzen und Emotionen mit disruptivem Effekt, die einem adaptiven Verhalten eher entgegenlaufen. Laut Wright haben die kritisierten Theorien bislang das Problem noch nicht gelöst, warum eine disruptive, also nicht adaptiv sinnvolle Emotion den Kontrollvorrang über ein intelligentes System übernehmen und diesen für längere Zeit beibehalten kann. Offenbar ist in solchen Fällen das Meta-Management-System nicht dazu in der Lage, die Störung zügig zu beenden. Um solche Phänomene zu erklären, müßten die Theorien um phylogenetische, ontogenetische und soziale Aspekte erweitert werden.

10.1.2. Das emotional learning problem

Wright kritisiert an den vorliegenden Theorien, daß sie keine Mechanismen vorlegen, die den Zusammenhang zwischen emotionalen Zuständen und Lernprozessen erklären. Für ihn besitzen emotionale Zustände nicht nur eine motivationale Komponente, sondern sind auch wichtige Impulse für Lernvorgänge. Darauf weist auch Frijda (1986) ausdrücklich hin. In Zusammenhang damit steht die Korrelation zwischen der Intensität einer Emotion und dem Lernprozess, die von den Unterbrecher-Theorien nicht erklärt wird.

10.1.3. Das hedonic tone problem

Laut Wright erklären die vorliegenden Theorien nicht, auf welchen Mechanismen hedonic tone-Signale beruhen, warum solche Signale "einfach" sind, warum sie sich von semantischen Signalen unterscheiden und warum sie, im Fall von Freude und Schmerz, entweder positiv oder negativ sind.

Simon, so Wright, kehrt Gefühle einfach unter den physiologischen Teppich, indem er postuliert, daß alle hedonistischen Zustände Folgen der Wahrnehmung von körperlichen Zuständen sind. Deshalb ist es mit seiner Theorie auch nicht möglich, zum Beispiel einen Zustand wie "Trauer" zu erklären und die damit verbundenen psychischen Schmerzen, die nicht notwendigerweise mit körperlichen Erregungszuständen verbunden sein müssen.

Für Frijda, Oatley & Johnson-Laird sowie Sloman sind hedonistische Komponenten einfache, phylogenetisch ältere Kontrollsignale. Damit bekommen sie zumindest eine Funktion auf der Ebene der Informationsverarbeitung.

Frijda unterstreicht die Bedeutung der hedonistischen Färbung von emotionalen Zuständen. Seine Theorie postuliert Relevanz-Signale für Freude, Schmerz, Staunen oder Begehren, die auftreten, wenn ein Ereignis verglichen wird mit den Befriedigungs-Bedingungen unterschiedlicher Anliegen.

Oatley und Johnson-Laird erklären die hedonistischen Komponenten fundamentaler emotionaler Zustände durch ihr Konzept der Kontrollsignale. Ihre Theorie nimmt zum Beispiel an, daß die hedonistische Färbung von Freude oder Traurigkeit durch fundamentale, nicht weiter reduzierbare Kontrollsignale hervorgerufen wird. Wegen ihrer funktionalen Rolle haben Kontrollsignale unterschiedliche hedonistische Werte. Das Kontrollsignal für sadness zum Beispiel hat die Funktion, Pläne abzubrechen oder zu ändern, während die Funktion von happiness darin besteht, Pläne beizubehalten oder weiterzuverfolgen.

In Slomans Theorie ist insistence nicht mit hedonistischen Komponenten verbunden. Sloman sieht aber die Bedeutung hedonistischer Komponenten, die als negative oder positive Evaluationen eine motivationale Rolle spielen, indem sie Handlungen abbrechen oder beibehalten. Er räumt ein, daß sein Modell um einen pleasure and pain-Mechanismus erweitert werden muß.

10.2. Der Begriff der "Valenz"

Wright versucht, eine Lösung für das letztgenannte Problem zu finden, indem er zunächst einmal definitorisch vorgeht. Hedonic tone ist für ihn ein zu genereller Begriff. Deshalb benutzt er den Begriff der "Valenz" (valency).Zunächst einmal differenziert Wright zwischen physiologischen und kognitiven Formen von Freude und Schmerz. Sodann stellt er fest, daß hedonistische Färbung immer auch mit einer quantitativen Dimension, der Intensität, verbunden ist. Er zitiert Sonnemans & Frijda (1994), die sechs Aspekte emotionaler Intensität unterscheiden: die Dauer einer Emotion, wahrgenommene körperliche Veränderungen und die Stärke der empfundenen Passivität (loss of control of attention), Erinnerung und Wieder-Erfahrung der Emotion, Stärke und drasticness der Handlungstendenz sowie drasticness des tatsächlichen Verhaltens, Veränderungen von Überzeugungen (beliefs) und deren Einfluß auf das langfristige Verhalten und eine insgesamt empfundene Intensität. Wright weist darauf hin, daß keine dieser Kategorien die Intensität der hedonistischen Färbung beschreibt, daß aber die Kategorie der "Stärke der empfundenen Passivität" damit zusammenhängt, weil sowohl intensive Freude als auch intensiver Schmerz nur schwer willentlich zu kontrollieren sind.

Sodann definiert Wright Valenz wie folgt:

"Valency is a form of cognitive pleasure or unpleasure not linked to information concerning bodily locations, and is a quantitatively varying, non-intentional component of occurrent convergent or divergent emotions. Valenced states are contingent on the success or failure of subjectively important goals."

(Wright, 1997, S. 115)

Wright weist ausdrücklich darauf hin, daß Valenz nach seiner Definition nicht verwechselt werden sollte mit kurzfristigen Kontrollzuständen von pleasure und unpleasure, durch die laufende Aktivitäten geschützt oder beendet werden; auch sei Valenz nicht identisch mit Werten (values), also qualitativen affektiven Dispositionen bestimmten Zuständen gegenüber. Valenz ist achievement pleasure oder failure unpleasure, die auftritt, wenn bestimmte, für ein System sehr wichtige Anliegen erfüllt oder verletzt werden.

10.3. Lernen in adaptiven Agentensystemen

Wright nimmt als Grundlage das System von Sloman und erweitert es um die Komponente des reinforcement learning (RL). Um diesen Mechanismus implementieren zu können, postuliert er zunächst: "A society of mind needs an economy of mind."

Wesentlich ist für Wright zunächst einmal der Aspekt, daß RL immer auch eine Selektionskomponente enthält: verstärkte Handlungen haben eine stärkere Tendenz, wiederholt zu werden als nicht-verstärkte.

Um auf allen Ebenen eines Multi-Agenten-Systems RL einzusetzen, bedarf es dafür eines entsprechenden Belohnungsmechanismus. Wright stützt sich dabei vorwiegend auf vier entsprechende Algorithmen: Q-Learning, Klassifikationssysteme, XCS und Dyna.

10.3.1. Q-Learning

Beim Q-Learning (Watkins & Dayan, 1992) versucht ein Agent, für jede mögliche Situations-Handlungs-Kombination zu lernen, was der Wert für diese Handlung ist, wenn er sie in der gegebenen Situation ausführt. Zu Beginn sind die Werte für alle möglichen Situations-Handlungs-Kombinationen auf einen Standardwert gesetzt. Das Ziel dieses Systems besteht nun darin, die Werte so zu aktualisieren, daß sie zur maximalen kumulierten rabattierten Belohnung (maximum cumulative discounted reward) führen.

Die maximale kumulierte Belohnung zu einem gegebenen Zeitpunkt besteht aus der Belohnung für die unmittelbar folgende Handlung sowie aus den zu erwartenden Belohnungen für die darauf folgenden Handlungen. Diese Belohnungen werden dergestalt rabattiert (discounted), daß unmittelbar zu erwartende Belohnungen höher bewertet werden als zu erwartende Belohnungen in weiterer Zukunft.

Die Belohnungsvorhersagen P für jede mögliche Situations-Handlungs-Kombination werden in einer zweidimensionalen Matrix gespeichert. Der Algorithmus wählt aus dieser Wertetabelle jeweils die Handlung aus, die den höchsten Vorhersagewert für die gegenwärtige Situation besitzt. Mit Hilfe einer Update-Regel werden anschließend die Werte neu berechnet.

Eine der größten Schwächen des Q-Learning besteht unter anderem darin, daß bei großen Situations- und Handlungsräumen die entsprechenden Tabellen übermäßig groß werden und eine ökonomische Versuch und Irrtum-Suche unmöglich machen.

10.3.2. Das Klassifikationssystem von Holland

Holland (1995) hat einen Algorithmus mit dem Namen classifier system entwickelt. Damit will er sicherstellen, daß ein Lernerfolg, der auf einer Handlungsabfolge von mehreren Modulen besteht, auch in Form einer Belohnung allen beteiligten Modulen zuteil wird.

In seinem System gibt es zahlreiche Klassifikatoren (classifiers), die nichts anderes sind als WENN-DANN-Regeln (condition-action rules). Ein Teil davon beobachtet die Umwelt und sendet, wenn die eigene Regel erfüllt wird, entsprechende Nachrichten an eine Art Schwarzes Brett (message list). Andere Klassifikatoren schlagen aufgrund der Informationen am Schwarzen Brett ihre spezifischen Handlungsvorschläge vor. Die Wahrscheinlichkeit der Annahme eines solchen Handlungsvorschlags durch das System beruht vorwiegend auf der Stärke des Klassifikators, die sich wiederum daraus herleitet, wie erfolgreich seine Vorschläge in der Vergangenheit gewesen sind.

Führt der angenommene Handlungsvorschlag eines Klassifikators zum Erfolg, dann erhält er eine Belohnung, die seine Stärke anwachsen läßt. Folgt auf seinen Vorschlag ein Mißerfolg, erhält er eine Bestrafung, bei der seine Stärke vermindert wird. Dabei teilt er sich die Belohnung oder Bestrafung mit allen anderen Klassifikatoren, die ihm bei seinem Vorschlag zugearbeitet haben.

Dieses credit assignment erfolgt über den bucket brigade-Algorithmus. Der Algorithmus heißt bucket brigade, weil nicht nur der letzte Klassifikator in einer Reihe von Klassifikatoren belohnt oder bestraft wird, sondern die Belohnungen bzw. Bestrafungen proportional an die ihm zuarbeitenden Klassifikatoren weiterverteilt werden - so, wie Feuerwehrleute früher beim Löschen die Wassereimer eine Kette entlangreichten. Somit kann eine Belohnung rückwärts durch das System propagiert werden und entsprechende Verstärkungen in bestimmten Handlungsketten auslösen.

Holland hat sein Modell zudem mit einem genetischen Algortihmus gekoppelt. Erfolgreiche Klassifikatoren werden gepaart und können neue Klassifikatoren erzeugen, die dann noch einmal effektiver arbeiten können..

10.3.3. XCS

Mit XCS hat Wilson (1995) eine Weiterentwicklung von Hollands classifier system vorgestellt. XCS behandelt eine der Schwächen von Hollands System, in dem nur die Stärksten belohnt werden. Für den Erfolg eines XCS-Agenten ist nicht seine absolute Stärke ausschlaggebend, sondern seine Fähigkeit, richtige Vorhersagen über die Erfolgswahrscheinlichkeit seiner Handlungen zu treffen. Wenn also ein Klassifikator im XCS-System richtig vorhersagt, daß er eine niedrige Belohnung erhalten wird, qualifiziert ihn das für den Einschluß in den genetischen Algorithmus.

10.3.4. Dyna

Die Dyna-Architektur von Sutton (1991) geht noch einen Schritt weiter, denn sie besitzt die Fähigkeit, zu planen. Bevor eine Handlung initiiert wird, kann Dyna durch Versuch und Irrtum innerhalb eines Weltmodells "in seinem Kopf" die Folgen möglicher Handlungen durchspielen und dadurch eine optimierte Handlungsstrategie entwickeln.

10.3.5. Das Konzept "value"

Wright weist darauf hin, daß RL-Algorithmen Versuch und Irrtum-Lerner sind, die, um adaptiv sein zu können, eine Belohnung erhalten, die quantitativ gestaffelt ist. "Unfortunately, the form or forms of value in natural reinforcements learners are unknown." (Wright, 1997, S. 139)

Wright weist darauf hin, daß value zwei verschiedene Bedeutungen haben kann: Einmal wird es verwendet, wenn ein Objekt bewertet wird: Jemand schätzt ein Objekt sehr, es ist ihm teuer. Die andere Verwendung ist die Zuschreibung von Wert an ein Objekt im Hinblick auf ein bestimmtes Ziel: Eine Motorsäge besitzt für einen Holzfäller meistens einen höheren Wert als eine Axt.

Wright unterschiedet zwischen dem Wert, den ein externes Objekt haben kann und dem Wert, den ein interner Zustand eines Systems besitzen kann. Value ist für Wright eine Beziehung zwischen einem zielgerichteten System und seinen eigenen internen Komponenten. Value "refers...to the utility of internal substates" (Wright, 1997, S. 138).

Value ist sowohl eine skalare Quantität als auch ein Kontrollsignal. Die Form, die value in RL-Algortihmen annimmt, ist die einer skalaren Quantität. Eine solche skalare Quantität ist, im Gegensatz zu einem Vektor, nicht in Komponenten mit unterschiedlicher Semantik zerlegbar. Values spezifizieren eine besser_als-Beziehung zwischen substates und haben darüberhinaus keinerlei Bedeutung.

In einem RL-System verändern sich die Werte der unterschiedlichen substates mit der Zeit; value kontrolliert somit die jeweils auszuführende Handlungsalternative. Der Wert eines substates besteht darin, damit Verarbeitungskapazität (processing power) kaufen zu können.

10.4. Wrights currency flow hypothesis

Wright weist auf das Koordinationsproblem in Multi-Agenten-Systemen (MAS) hin, auf das auch Oatley (1992) bereits aufmerksam gemacht hat. Dies gilt in besonderem Maße für Adaptive Multi-Agenten-Systeme (AMAS). Die Lösung dafür besteht für Wright in einer internen Ökonomie mit einem currency flow.

Wright vergleicht ein AMAS mit einer wirtschaftenden Gesellschaft:

"In the abstract, economic systems are selective systems: the trials are the various concrete labours that produce commodities, the evaluatory mechanisms are the various needs and demands of individual consumers, and selection occurs through the buying and selling of commodities. Over time what is produced matches what is required given available resources."

(Wright, 1997, S. 154)

Davon ausgehend, entwickelt Wright seine currency flow hypothesis (CFH):

"The currency flow hypothesis (CFH) for adaptive multi-agent systems: Currency flow, or circulation of value, is a common feature of adaptive multi-agent systems. Value serves as a basis for coordination; it integrates computational resources and processing by constraining the formation of local commitments. Circulation of value involves (i) altering the dispositional ability of agents to gain access to limited processing resources, via (ii) exchanges of an explicitly represented, domain-independent, scalar quantity form of value that mirrors the flow of agent products. The possession of value by an agent is an ability to buy processing power."

(Wright, 1997, S. 160)

10.5. Das CLE-System im Detail

Wrights libidinöse Ökonomie des Computers (computational libidinal economy) vereint das von Sloman entworfene Modell eines intelligenten Systems mit einem Lernmechanismus und einem motivationalen Subsystem, das emotionale Beziehungen zu anderen Agenten unterhält. Damit hofft Wright auch, ein Problem von Slomans Modell lösen zu können, das er das valenced perturbant states problem nennt, weil es nicht erklären kann, wie Perturbanzen mit einer valenzierten Komponente zustandekommen.

Wright beginnt die Beschreibung seines Modells, indem er die CFH noch einmal für natürliche RL spezifiziert:

"The currency flow hypothesis for natural reinforcement learners (CFHN): The currency flow hypothesis holds for the reinforcement learning mechanisms of individual, natural agents that meet a requirement for trial and error learning."

(Wright, 1997, S.163)

Die Beschreibung der CLE umfaßt mehrere Aspekte: Ein libidinöses selektives System, eine skalare Quantitätsform von value, Guthabenzuteilung sowie eine Wertzirkulierungstheorie von achievement pleasure und failure unpleasure.

10.5.1. Das libidinöse selektive System

Wrights libidinöses selektives System ist ein kognitives Subsystem, dessen Hauptaufgabe die Entwicklung sozialer Beziehungen ist. Es enthält die folgenden Komponenten:

  1. Ungelernte Befriedigungsbedingungen (untaught conditions of satisfaction):
  2. Dies sind angeborene Befriedigungsmechanismen, die durch die Evolution selektiert worden sind und fundamentale attachement goals spezifizieren, zum Beispiel Orgasmus, positive emotionale Signale des anderen Geschlechts usw. Laut Wright ist die Evolution damit auch die Ursache für die attachement motivation.
  3. Mittel zur Befriedigung (means of satisfaction):
  4. Dies sind motivational substates oder Agenten, welche die Mittel zur Befriedigung der unterschiedlichen attachements goals konstituieren. Sie können wiederum Motivatoren für höhere Level produzieren.
  5. Gelernte Befriedigungsbedingungen (learnt conditions of satisfaction):
  6. Dies sind erlernte Befriedigungsmechanismen, die ihre Verstärkungsmechanismen von angeborenen Befriedigungsmechanismen geerbt haben und diese ggf. dominieren können.
  7. Ein selektiver Zyklus (a selective cycle):
  8. Als selektives System erfüllt das libidinöse System drei Funktionen: Es generiert substates, die mögliche Befriedigungsmechanismen darstellen; es evaluiert diese substates; es selektiert und deselektiert substates. Dies geschieht durch die geschilderten Verstärkungsmechanismen.
  9. Entdecken neuer substates (substate discovery):
  10. Das libidinöse System produziert durch seinen genetischen Algorithmus neue substates, die aus neuen Agenten, neuen Regeln usw. bestehen und evaluiert und selektiert diese entsprechend.
  11. Wechselnde Kontrollzustände (varieties of control substates)
  12. Die Kontrollstruktur innerhalb des libidinösen Systems ist nicht statisch, sondern dynamisch. Durch die ständigen selektiven Prozesse können bestimmte substates in der Hierarchie nach oben wandern, andere nach unten. Der Netto-Effekt ist einer der Diffusion, bei dem ein starker Kontrollzustand sich durch das gesamte System in zahlreiche substates ausbreitet und manchmal sogar zu einer automatischen Reaktion werden kann. Zu diesen substates zählt Wright auch die libidinal generactivators, die Motivatoren für aufmerksame Verarbeitung (attentive processing) produzieren und die für ihn Frijdas concerns entsprechen.

10.5.2. Das conative universal equivalent (CUE)

CUE stellt in Wrights Modell die von ihm geforderte skalare Quantitätsform (scalar quantity form) von value dar. Der Begriff "conative" wird von ihm hier im Sinne von "motivational" verwendet. CUE ist das universelle Tauschmittel zwischen den substates des libidinösen Systems. Der Besitz von CUE bedeutet die Fähigkeit, Verarbeitungskapazität zu kaufen (ability to buy processing power). Dies kann verschiedene Formen annehmen:

  1. Die dispositionale Fähigkeit, prä-attentive Verarbeitungs-Ressourcen zu beanspruchen;
  2. die dispositionale Fähigkeit, Motivatoren für Management-Verarbeitung zu produzieren;
  3. die dispositionale Fähigkeit, Motivatoren bewußt werden und Management-Ressourcen kommandieren zu lassen.

Damit steht CUE in einer kausalen Beziehung zu den Unterbrechungs-Fähigkeiten von Motivatoren und deren Fähigkeit, Aufmerksamkeitsressourcen zu beanspruchen.

10.5.3. Guthabenzuteilung (credit assignment)

Der Austausch von CUE spiegelt den Fluß von semantischen Produkten im System wieder: Um in den Kreislauf hineinzukommen, muß ein substate den substate bezahlen, der das semantische Produkt geliefert hat, auf das der erste substate reagiert. Diese Verteilung von CUE an vorhergehende substates erfolgt nach Hollands Bucket Brigade-Algorithmus.

Weitere Aspekte des Systems der Guthabenzuteilung sind:

  1. Verstärker als Quelle von CUE (derivation of CUE from reinforcers):
  2. CUE wird nur dann zugeteilt, wenn es die Befriedigungsbedingungen der angeborenen oder der davon abgeleiteten erlernten Verstärker erfüllt.
  3. Zugewinn von CUE (gain of CUE):
  4. Substates können ihren CUE-Wert erhöhen (positive Verstärkung).
  5. Verlust von CUE (loss of CUE):
  6. Substates können CUE verlieren (negative Verstärkung).
  7. Akkumulation als Verstärkung (accumulation as reinforcement):
  8. Die Akkumulation von CUE durch einen substate stellt RL dar.
  9. Verlust als De-Selektion (loss as deselection):
  10. Der Verlust von CUE durch einen substate stellt dessen teilweise Deselektion dar.
  11. CUE ist eine interne Ökonomie mit Kontrollsematik (CUE as internal economy with control semantics):
  12. CUE ist ein domain-independent Kontrollsignal, das sich weder auf andere Dinge innerhalb noch auf Dinge außerhalb des Systems bezieht.

10.5.4. Die Wertzirkulierungstheorie

Die CLE verfügt über zwei unterscheidbare interne Zustände: intentionale und nicht-intentionale. Die intentionale Komponente der CLE ist das Set der Substate-Produkte, insbesondere die von den libidinösen generactivators produzierten Motivatoren. Diese haben einen repräsentationalen Inhalt, sie drehen sich "um" etwas. Die nicht-intentionale Komponente von CLE ist die Wertzirkulierung (circulation of value). Diese Wertzirkulierung ist ein Fluß von Kontrollsignalen, nicht von semantischen Signalen.

Die Wertzirkulierung benötigt dafür ein Modul des Gesamtsystems, das den internen Fluß von CUE beobachtet und registriert; also die von Sloman so genannte Meta-Management-Schicht. Dieser Mechanismus wird zu jedem Zeitpunkt eine Bewegung von CUE im System feststellen. Für jeden substate verändern sich die Werte, je nachdem, ob er belohnt (positiv) oder bestraft (negativ) wird.

Wright macht an einem Gedankenexperiment deutlich, wozu dies führen kann. Ein virtueller Frosch (simfrog) lernt in einer virtuellen Umgebung das Fangen von Fliegen. Sind die dafür notwendi