Künstliche Intelligenz kopiert die menschliche Belohnung über das dopaminerge System

Der Neurotransmitter Dopamin spielt eine zentrale Rolle im Belohnungssystem des menschlichen Gehirns. Dopaminerge Neuronen sagen bei jeder Handlung eines Menschen die zu erwartende Belohnung voraus, denn tritt die Voraussage ein, wird Dopamin freigesetzt, wobei es dann mehr Dopamin gibt, wenn die Belohnung größer als erwartet war. Ist die Belohnung schlechter, wird die Produktion von Dopamin unterdrückt. Dopamin erfüllt damit die Rolle eines Korrektursignals und passt so die Vorhersage der am Belohnungssystem beteiligten dopaminergen Neuronen der Realität an, wodurch der Mensch Verhaltensweisen erlernt, die die größte Belohnung bringen.

Auch KI-Systeme wie AlphaGo, AlphaZero und Alphastar setzen Belohnungen beim bestärkenden Lernen als Korrektursignal ein. Dieser Algorithmus sagt Belohnungen ähnlich wie das Belohnungssystem des Menschen voraus, indem es die zu erwartende Belohnung als eine Verteilung darstellt. Solche Verteilungsprognosen erfassen dabei das volle Spektrum möglicher Belohnungen und nicht nur einen Durchschnitt bisheriger Belohnungen. Die Verteilung der Belohnungen samt der negativen und positiven Spitze kann daher das komplette Spektrum an möglichen Erfolgen und Misserfolgen vorhersagen, sodass verteilungsbasiertes bestärkendes Lernen in spezialisierten Leistungstests besser ab chneidet als KI-Software, die nur eine Durchschnittsbelohnung kennt. Diese verteilte Belohnung erzeugt robustere Künstliche Intelligenz, die besser mit sich ändernden Umgebungen oder sich ändernden Aufgaben umgehen kann.

Literatur

https://mixed.de/deepmind-neue-ki-hilft-das-gehirn-besser-zu-verstehen/ (20-01-21)