"AlphaGo Zero"

Neue Google-KI lernt ohne menschliches Zutun

18.10.2017 12:42

Das Aufsehen war groß als die Google-Software AlphaGo 2016 den Spitzenspieler Lee Sedol im Brettspiel Go besiegte. Forscher haben die Software nun unter dem Titel AlphaGo Zero entscheidend weiterentwickelt. Das System lernte das Spiel ohne menschliches Zutun und besiegte auch seine Vorgängerversionen, berichten die Wissenschaftler im Fachjournal "Nature".

Besonders überraschend waren die Fähigkeiten von AlphaGo, weil das rund 3000 Jahre alte asiatische Spiel spezielle Anforderungen stellt, die bisher eher dem menschlichen Geist exklusiv zugebilligt wurden. Angesichts nahezu unbegrenzter Möglichkeiten für Züge, ist nämlich viel Intuition, kreatives Denken und Lernfähigkeit gefragt.

Während AlphaGo seinen virtuellen Geist noch am Studium von Millionen Zügen von menschlichen Top-Spielern über Monate hinweg gestärkt hatte, gingen die Wissenschaftler um David Silver vom britischen Entwickler DeepMind, der vor über drei Jahren von Google übernommen wurde, nun andere Wege: Im Zentrum der neuen Generation stand demnach der Gedanke, ein System zu bauen, welches das Spiel ohne Anschauungsmaterial von Grund auf selbst erlernt und auf sich alleine gestellt weiterentwickelt - also "komplett ohne menschliche Intervention funktioniert", wie Silver erklärt.

Bei null angefangen
Die Fähigkeit, ein System dazu zu bringen, etwas annähernd von null auf zu erlernen, sei vor allem dann wichtig, wenn es darum geht, eine Form von KI zu entwickeln, die sich selbstständig auf für sie neue Aufgaben jeglicher Art einstellt. Am Ende strebe man die Entwicklung eines Algorithmus an, der potenziell auf jedes Problem angesetzt werden kann, so der Forscher.

Das neue System begann demnach mit nur minimaler Startinformation über die Regeln und Beschaffenheit des Spiels gegen sich selbst zu spielen. Grundlage von AlphaGo Zero ist ein künstliches neuronales Netzwerk, das darauf abzielt, die Auswahl der nächsten Züge des Programms und den Gewinner der jeweils gespielten Partien vorherzusagen. Für gewonnene Spiele wurde es durch ein Punktesystem belohnt. Dadurch "lernte" AlphaGo Zero mit jedem Spiel dazu.

Nach fast fünf Millionen Partien gegen sich selbst, wofür AlphaGo Zero nur wenige Tage benötigte, schlug die KI alle ihre Vorgänger. Jenes System, das mit den Siegen gegen die Spitzenspieler aufhorchen ließ, ging mit einem klaren 100:0 unter. Dafür brauchte es weit weniger Rechenressourcen als AlphaGo, heißt es seitens DeepMind.

Nicht nur habe der Algorithmus sozusagen all das in kurzer Zeit herausgefunden, was Menschen in Tausenden Jahren über das Spiel gelernt haben, er habe auch völlig neue Herangehensweisen entwickelt. "Ich denke, ich kann für das Team sprechen, dass wir alle angenehm überrascht darüber sind, wie weit sich das System entwickelt hat", sagte Silver.

Experte tritt auf Euphoriebremse
Marcus Liwicki von der Technische Universität Kaiserslautern tritt jedoch auf die Euphoriebremse: Die Wissenschaftler hätten in der Arbeit "selbst ja keine fundamentalen algorithmischen Neuerungen vorstellt, sondern hauptsächlich existierende Verfahren clever kombiniert." Die Anwendbarkeit des Ansatzes in anderen Bereichen wäre außerdem eher eingeschränkt, da das System eben Millionen von Spielen durchführen muss, bei denen Erfolg eindeutig definiert ist, um derart gut zu werden. "Das ist in vielen praktischen Problemen jedoch nicht der Fall", so Liwicki.