Maschine trainiert sich selbst

London/Berlin. Künstliche Intelligenz perfektioniert ihre Go-Spielzüge ohne menschliche Hilfe

Die Entwickler sprechen von künstlicher Intelligenz mit „übermenschlicher Leistung“: Ein selbstlernendes Computerprogramm perfektioniert das chinesische Brettspiel Go ohne menschliches Zutun binnen weniger Tage. AlphaGo Zero besiegte seinen Vorläufer Alpha Go, der bereits die besten menschlichen Go-Spieler geschlagen hatte, in 100 Spielen 100 Mal. Neue Lernalgorithmen sorgten dafür, dass AlphaGo Zero das Spiel in nur drei Tagen, in denen er gegen sich selbst spielte, zur Perfektion brachte. Die Software sei „nicht länger durch die Grenzen menschlichen Wissens beschränkt“, betonen David Silver und Demis Hassabis von der Google-Entwicklerfirma Deepmind, die den Supercomputer im Fachblatt „Nature“ vorstellen.

„AlphaGo Zero ist jetzt die stärkste Version unseres Programms und zeigt, welchen Fortschritt wir auch mit weniger Rechenleistung und ohne die Nutzung menschlicher Daten erreichen können“, wird Hassabis in einer Mitteilung seines Unternehmens zitiert. Das ältere Modell AlphaGo war noch monatelang mit Spielzügen menschlicher Go-Meister trainiert worden und hatte etwa 30 Millionen Spiele absolviert. AlphaGo Zero benötigte drei Tage und knapp 5 Millionen Spiele, um besser zu werden als sein Vorgänger.

Dabei verzichtete das Team um Silver und Hassabis darauf, der Software die Taktiken menschlicher Go-Spieler anzutrainieren. AlphaGo Zero erhielt lediglich das Regelwerk und musste pro Zug zwei Dinge berechnen: Welche nächsten Züge sind möglich, und wie groß ist die Wahrscheinlichkeit, mit diesen Zügen am Ende zu gewinnen?

Die Entwickler gaben dem System auch keine Lernstrategie vor, es werden lediglich erfolgreiche Wege „belohnt“ und andere Optionen „bestraft“. Bei den Spielen gegen sich selbst konnte AlphaGo Zero Spielzüge ausprobieren und sich verbessern. Dabei war die Lernkurve zwar nicht so steil wie beim Vorgänger, der noch von menschlichen Spielern gelernt hatte, dafür wuchs sie aber höher.

Zudem kommt das neue Programm mit kleinerer Rechenarchitektur aus: Der Vorläufer benötigt zwei neuronale Netze, AlphaGo Zero nur eins. Wo dem Vorläufer 48 sogenannte Tensorprozessoren (Tensor Processing Units; TPUs) zur Verfügung standen, genügen AlphaGo Zero vier Prozessoren.

In einem „Nature“-Kommentar spricht Satinder Singh von der University of Michigan in Ann Arbor von „einem der größten Fortschritte in Bezug auf Anwendungen für das Gebiet des bestärkenden Lernens“.

dpa