Bestärkendes Lernen, ein neues Studiengebiet im Zusammenhang mit künstlicher Intelligenz, das der Industrie neue Perspektiven eröffnet.

Künstliche Intelligenz wandelt manchmal auf verschlungenen, ganz unerwarteten Pfaden. Machine Learning stützt sich auch heute noch weitgehend auf Ist-Input- und Soll-Outputdaten. Ein Algorithmus lernt von zig tausenden bzw. Millionen als richtig gekennzeichneten Beispielen und teilt auf diese Weise Muster in Kategorien und Klassen ein.

„Eine neue Methode – bestärkendes Lernen – umgeht dieses Problem“, erklärt Erik Lenten, Chief Technology Officer bei Axians, der ICT-Marke von VINCI Energies.

Bestärkendes Lernen unterscheidet sich grundsätzlich von den sogenannten überwachten Methoden durch die Fähigkeit des Algorithmus, mehrere Lösungen iterativ zu erforschen und auszutesten, die Reaktion des Umfelds zu beobachten und das Verhalten strategieoptimierend anzupassen. Anders gesagt, lernt die Maschine völlig selbständig aus ihren eigenen Fehlern.

Der Prozess basiert auf „Belohnungen“. Der Algorithmus wird bestraft, wenn er sich irrt, und belohnt, wenn er die richtige Entscheidung trifft. Auf diese Weise wird der Entscheidungsfindungsprozess automatisch optimiert. Der Developer eines „Reinforcement Learning“-Modells begnügt sich damit, die Regeln für ein strafendes bzw. belohnendes Feedback an die KI festzulegen.

Video Game von Elon Musk

Amazon hat einen Prototypen entwickelt, der sich auf bestärkendes Lernen stützt. Das fahrerlose Miniatur-Rennauto namens AWS DeepRacer muss „die Spur halten“. Jedes Ausscheren wird bestraft. Spurhalten wird belohnt. Mit der Zielvorgabe, „so schnell wie möglich zu fahren“. Über einen 3D-Simulator, der im Rahmen einer internationalen Challenge Entwicklern auf der ganzen Welt offensteht, gelingt es, die Fahrzeugleistung Tag für Tag zu verbessern. Wenn das Modell ausreichend geschult ist, kann es heruntergeladen und auf einer echten Rennstrecke genutzt werden. Dieser Test verdeutlicht zugleich, worum es bei bestärkendem Lernen geht, um von Developern bei ihren eigenen Software-Entwicklungen eingesetzt werden zu können. Ein ähnliches Beispiel liefert das britische Start-up Wayve, das einem autonomen Fahrzeug in einem Tag beigebracht hat, einer geraden Linie zu folgen.

Am aussagekräftigsten ist jedoch gewiss das Beispiel Five von Open AI, der Elon Musk-Stiftung. Das System nutzte die Methode des bestärkenden Lernens, um sich in einem 45.000 Jahren entsprechenden Zeitraum eine perfekte Spielweise für das Video Game Dota 2 anzutrainieren. Five schlägt heute jedes Dota 2-Profispielerteam.

„In der Industrie dient bestärkendes Lernen für Simulationen, mit denen sich die optimalen Einstellungsparameter bestimmen lassen.“

Inwieweit ist bestärkendes Lernen für die Industrie von Interesse? „Der Vorteil dieser Methode lässt sich anhand einer Produktionslinie verdeutlichen, die optimiert werden soll, dabei jedoch auf die Wechselwirkung mit anderen Maschinen achten muss. Die Anlage lässt sich durch bestärkendes Lernen einrichten und jeweils ergebnisabhängig nachjustieren“, merkt Erik Lenten an.

„Natürlich nicht unter realen Bedingungen“, präzisiert der CTO von Axians. „Mit einem digitalen Zwilling der Produktionsanlage lassen sich jedoch Simulationsgänge durchspielen, bis die optimalen Einstellungsparameter feststehen.“

23/07/2020