Verstärker und Strafe

In letzter Zeit habe ich einige Diskussionen über die Theorie der Operanten Konditionierung - aka Lerntheorie -  über positive und negative Verstärkung, über Strafe, Meideverhalten usw. verfolgt oder geführt. Da wird oft vieles durcheinander geschmissen und ziemlich falsch verstanden.
Das größte Problem ist, dass eine ziemlich nüchterne Begrifflichkeit, die natürliche Gesetzmässigkeiten schematisch zu beschreiben versucht, nicht nur allzu unüberlegt auf komplexe, reale Bedingungen angewandt wird, sondern oft auch noch mit einer moralischen Bewertung überstülpt wird - Strafe muss "schlecht" sein, negative Verstärkung sowieso - ist ja negativ. Dadurch entstehen jede Menge Missverständnisse und Trugschlüsse.

Ein paar dieser Trugschlüsse möchte ich mal aufdröseln.

Der erste: Die Lerntheorie ist eine Art Anleitung für Tiertrainer. Falsch.

Was die Lerntheorie versucht zu verstehen, ist, wie Lernen funktioniert. Lernfähige Lebewesen (Mensch, Hund, Schildkröte.. im folgenden "Wir" genannt) haben diese erstaunliche und faszinierende Fähigkeit, ihr Verhalten aufgrund vorangegangener Erfahrungen zu verändern. Lernen ist ein Prozess der Anpassung an die Umwelt - genauso, wie es auch die Evolution ist. Nur eben auf der Ebene des Individuums. Und wie die Evolution folgt auch dieser Anpassungsprozess bestimmten Gesetzen.
Wer ein Tier bewusst trainiert, ist natürlich ein Teil von dessen Umwelt - aber tatsächlich nur ein (kleiner) Teil. Lernen findet ständig und immer statt - egal, ob ich als Mensch gerade bewusst einwirke oder nicht.

Wie funktioniert Lernen?

Lernen ist ein hochkomplexer Vorgang. Manche Organismen sind hochgradig lernfähig, andere nur geringgradig. Aber überall da, wo ein Organismus in der Lage ist, auf seine Umwelt zu reagieren und sein Verhalten zu verändern, also nicht nur von Reflexen gesteuert wird, findet Lernen statt.
Es ist möglich, durch Nachahmen zu lernen, oder durch Versuch und Irrtum. Sehr häufig findet Lernen in einem sozialen Kontext statt. Aber immer gilt:
Das Individuum hat unterschiedliche Handlungsmöglichkeiten. Und:
Es besitzt die Fähigkeit, einen Zusammenhang zwischen seiner Handlung und dem Ergebnis zu erkennen.
Banal? Gar nicht! Wer sich das nächste mal fragt, warum sein Hund etwas nicht "kapiert", der möge diese beiden Kriterien zuerst betrachten.
Beispiel: Hatte der Hund überhaupt Handlungsalternativen?  Hatte er jemals die Möglichkeit an einer Leine NICHT zu ziehen - oder wird er sowieso ständig kurz gehalten und herumgezerrt?
Oder: Besteht aus Sicht des Hundes ein Zusammenhang zwischen seiner Handlung und der Strafe dafür - oder hat er den Mülleimer schon vor einer Stunde ausgeräumt und weiß gar nicht, wofür er bestraft wird? (Timing - einer der größten Fallstricke, aber dazu später).

Übrigens: Selbst die lernfähigsten Lebewesen geraten gar nicht selten in einen Zustand, in dem sie keine Handlungsalternativen haben, weil sie schlicht zu aufgeregt oder gestresst sind - Angst und Übererregung, auch Übermüdung, verhindern Lernen. Dann übernehmen andere Kräfte - Instinkte wie der Fluchtinstinkt, Verteidigungsbereitschaft (Aggression) oder starke Emotionen (z.b. Wut), die den Handlungsspielraum einschränken oder sogar ganz und gar eliminieren. Dann findet kein Lernen statt - und selbst wenn unser Wutanfall unangenehme Folgen hatte, geraten wir beim nächsten Mal über dasselbe wieder in Rage. Wir waren unfähig, zu lernen.

Jetzt fehlt noch der Kern der Sache - nämlich die Tatsache, dass Wir, die lernfähigen Organismen, stets und immer eine Bewertung der Konsequenzen unserer Handlung vornehmen. Und hier gibt es nur Plus und Minus, 0 und 1: Ist die Konsequenz gesteigertes oder vermindertes Wohlbefinden?
Das ist alles. Es ist ein wundervoll einfaches Prinzip, das ungeheure Komplexität ermöglicht.

Skinner, der Vater der ganzen Theorie, hat für alles, was unser Wohlbefinden steigert, den Begriff "Verstärker" geprägt. Alles, was unser subjektives Wohlbefinden vermindert, hat er "Strafe" genannt - und damit die größten Missverständnisse vorprogrammiert. Strafe ist ein Begriff, der im allgemeinen Gebrauch eine moralische und eine soziale Dimension besitzt. Strafe ist "schlecht" und es gibt immer jemanden, der bestraft. Beides trifft aber in Skinners Verwendung nicht zu! Hätte er mal lieber den Begriff "Verminderer" benutzt... na ja, zu spät.

Man sollte glauben, dass es ganz einfach ist, Verstärker und Strafe zu unterscheiden. Ist es aber überhaupt nicht. Um zu sehen, was was ist, muss man das Pferd von hinten aufzäumen. Erst am späteren Verhalten erkennt man, ob etwas als Verstärker oder als Strafe gewirkt hat.
Denn Verstärker bewirken, dass wir (die lernfähigen Organismen) das verstärkte Verhalten häufiger und/oder ausgeprägter zeigen, als vorher.
Strafen bewirken, dass wir das Verhalten seltener und/oder weniger ausgeprägt zeigen, als vorher.
Ein Beobachter weiß also erst hinterher, ob eine Erfahrung als Verstärker oder als Strafe gewirkt hat.

Und hier liegt der zweite große Trugschluss: Eine bestimmte Erfahrung kann entweder eine Strafe oder ein Verstärker sein, und zwar jedes Mal. Falsch.

Wer sich wundert, dass sein Hund etwas partout nicht lernt, findet den Fehler vielleicht hier.

Typisches Beispiel: Der Hund springt mich an, ich schreie und schimpfe und stosse ihn weg. Der Hund springt mich noch mehr an. Auch wenn ich also glaube, eine Strafe eingesetzt zu haben - Schreien, Schimpfen und Wegschubsen - habe ich tatsächlich das Verhalten verstärkt. Wie bitte? Wie kann Schreien, Schimpfen und Wegschubsen das Wohlbefinden des Hundes steigern? Dafür gibt es gleich mehrere Möglichkeiten. Der Hund hat mich aus Aufregung angesprungen, und als hochsoziales Lebewesen steigert es sein Wohlbefinden, wenn seine Emotionen von anderen geteilt und bestätigt werden (Empathie). Oder der Hund hat mich in spielerischer Absicht angesprungen und findet es super, dass ich mitspiele.
Oder - zurück zur ersten Grundvoraussetzung des Lernens - der Hund war so aufgeregt, dass ihm keine Handlungsalternative offen stand. Dann war mein Verhalten weder Verstärker noch Strafe, sondern schlicht wurstegal, weil er sowieso nicht Lernen konnte. Dann hätte ich den Hund erst beruhigen müssen, um ihn in einen lernfähigen Zustand zu versetzen, habe aber seine Aufregung durch meine Aufregung noch gesteigert.

Verstärker und Strafen sind also absolut subjektiv - nur der Lernende entscheidet, was für ihn das eine oder andere ist. Ich kann einem Kind noch so viele Gummibärchen zur Belohnung geben, wenn es keine Gummibärchen mag,  sind sie keine Belohnung. Ich kann Streicheln noch so "lieb" meinen, wenn der Hund die Berührung nicht mag, dann ist Streicheln keine Belohnung. Es ist dann sogar effektiv eine Strafe - er wird meine Nähe weniger suchen.
Verstärker und Strafen sind außerdem ganz und gar kontextabhängig. Das erste Stück Schokolade ist für mich eine Belohnung - das hundertste nicht, denn davon wird mir schlecht. Und was für mich eine Strafe sein kann, kann für einen anderen die größte Belohnung sein. Ein Ticket zu einem Heavy Metal Konzert zum Beispiel.

Außerdem wirken Verstärker und Strafen nie isoliert. Die schematische Darstellung der Lerntheorie verleitet dazu, das zu glauben. Unter Laborbedingungen kann man ein Lebewesen auch tatsächlich isolierten Erfahrungen aussetzen - drück den Knopf, du bekommst Futter, drück den anderen Knopf, du bekommst einen Stromstoß. In einer komplexen Umwelt ist das aber völlig anders. Hier wirken ständig mehrere Kräfte auf uns ein, und wir wägen andauernd ab, was überwiegt. Das ist der nächste große Trugschluss:

Man kann entweder belohnen oder strafen. Falsch.

In einer natürlichen Umwelt hat jede Handlung nicht nur eine Konsequenz, sondern viele. Da ist schon alleine die Tatsache, dass jegliche Anstrengung (bei Skinner: Effort) de facto als Strafe wirkt. Wenn wir Energie verbrauchen, wird damit unser Wohlbefinden immer ein wenig vermindert, weil wir danach hungriger oder müder sind als vorher. Nur, wenn wir wissen, dass die Handlung andererseits unser Wohlbefinden steigern wird, und zwar mehr, als es die Anstrengung vermindert hat, führen wir sie trotzdem aus. Ja, es gibt Menschen, die sich scheinbar völlig sinnlos komplett verausgaben - aber das Erfolgserlebnis, 100 Kilometer durch die Wüste gelaufen zu sein, überwiegt. Das heisst nicht, dass sie die Strafe nicht fühlen, die Erschöpfung, die wunden Füsse... aber das Ergebnis ihrer subjektiven Abwägung ist ein anderes als bei den meisten anderen Menschen. Da mir dieses Erfolgserlebnis relativ egal ist, würde ich schon nach 100 Metern aufgeben. Und das vor allem NIE WIEDER tun - die Strafe hätte gewirkt.

Also auch hier wieder: es ist vollkommen subjektiv. Das ist auch bei Tieren so. Wölfe jagen nicht zum Spaß, Hunde tun das recht oft. Das liegt nun sicher nicht daran, dass Wölfe weniger Jagdtrieb (und einen Trieb zu befriedigen, ist ein mächtiger Verstärker) haben, als Hunde. Aber da ihnen abends keiner einen vollen Futternapf hinstellt, können sie den unnötigen Energieverbrauch (die Strafe) nicht in Kauf nehmen.

Wenn man als Trainer auf ein Tier einwirkt, ist es fast unmöglich, vollkommen und absolut eindeutig zu sein. Man ist ja kein Laborknopf, sondern Sozialpartner. Meine Emotionen, jede Bewegung, meine gesamte Ausstrahlung wirken gleichzeitig auf das Tier - als Strafe oder als Verstärker - und meist stärker, als das Leckerlie in meiner Hand. Gute Trainer haben ihre Körpersprache und ihre Emotionen unter Kontrolle und wirken eindeutiger auf das Tier, als schlechte Trainer - heisst, das Tier muss weniger abwägen und kommt schneller zum von mir gewünschten Ergebnis, als wenn ich es mit widersprüchlichen Botschaften bombardiere.

Wenn mein Hund also nicht hört - liegt es vielleicht daran, dass ich mehr Strafe als Verstärker aussende? Böse schauen, angespannte Körperhaltung, laute Stimme? Oder Unsicherheit, Stress? Für das soziale Wesen Hund vermindern solche Signale seines Sozialpartners sein Wohlbefinden. Oft mehr, als Lob oder Leckerlie es ausgleichen können.

Und schließlich:

Selbst der weltbeste Trainer konkurriert in seinem Tun mit dem Rest der Welt. Kann sein, dass er etwas verlangt, was für den Hund in diesem Moment mehr Strafe ist, als er mit all seinen Verstärkern aufwiegen kann (z.B. in die Badewanne steigen). Kann sein, dass andere Verhaltensweisen (sich im toten Fisch wälzen zum Beispiel) mehr Lohn versprechen, als das zu tun, was der Trainer will (zu ihm kommen für ein blödes Leckerlie...).
Zu erkennen, welche strafenden/verstärkenden Einflüsse außer mir selbst gerade auf den Hund einwirken, ist Voraussetzung guten Trainings.
Wer sich das einmal klar macht, wird sich nicht mehr wundern, wenn der Hund ein Kommando, dass er auf dem Hundeplatz perfekt ausführt, im Wald auf einmal nicht mehr zu kennen scheint. Draussen im Wald gibt es Verstärker, die es auf dem Hundeplatz nicht gibt - die Freude daran, einem Reh hinterherzurennen, einer Spur zu folgen, zu buddeln, sich in Sch**** zu wälzen - das lässt die Verstärker in Frauchens Hosentasche blass aussehen. Und daher werden Verhalten wie weglaufen, buddeln oder wälzen im Wald gezeigt und nicht auf dem Hundeplatz - denn dort wird dieses Verhalten ja auch nicht verstärkt.

Fazit:

Es ist überraschend schwierig, alle auf meinen Hund (und mich!) einwirkenden Strafen und Verstärker klar zu erkennen und auseinander zu halten. Wenn man sich nun die unterschiedlichen Strafen und Verstärker und deren Wirkung anschaut, wird es noch etwas komplexer. Aber das dann ein andermal.

Hier geht es zu Teil 2

Kommentare:

  1. Guter Überblick! :) Machst du da eine kleine Serie draus?

    Besonders das hier sollte man eigentlich ausdrucken und in der Welpen-/Junghundegruppe als Flugzettel verteilen: "Ich kann Streicheln noch so 'lieb' meinen, wenn der Hund die Berührung nicht mag, dann ist Streicheln keine Belohnung. Es ist dann sogar effektiv eine Strafe - er wird meine Nähe weniger suchen."

    Auf einem Seminar wurde da mal mit Kameraauswertung gearbeitet: Die Leute sollten ein paar einfache Unterordnungsübungen mit ihrem Hund machen und ihn danach belohnen. Anschließend wurden die Videos geguckt und die Körpersprache der Hunde analysiert – wie viele da dabei waren, die das gut gemeinte Streicheln oder Klopfen eher über sich ergehen ließen, anstatt es als Belohnung zu empfinden, war wirklich aufschlussreich...

    AntwortenLöschen
  2. Danke!
    Ja, Fortsetzung folgt. so ist der Plan jedenfalls. Die Idee hatte ich, nachdem ich eine endlose Diskussion darüber führen muss, ob nun positive oder negative Verstärkung "besser" ist...

    AntwortenLöschen

Danke! Ich werde den Kommentar so bald wie möglich lesen und freischalten.