Lernen Geschicklichkeit ｜ OpenAI

Video

Transkript

Wir arbeiten daran Robotern viele verschiedene Aufgaben beizubringen, ohne diese jedoch für jede Aufgabe speziell programmieren zu müssen.

Hier hat ein Roboter gelernt einen Block in eine von uns vorgegebene Orientierung zu rotieren.

Sobald der Roboter damit Erfolg hatte, geben wir ein neues Ziel vor und so weiter.

Das System verwendet eine menschenähnliche Roboterhand und wir verwenden Reinforcement Learning und

Simulationen um dem Roboter beizubringen, die Aufgabe in der echten Welt zu lösen.

Um eine solche Aufgabe erfolgreich zu erlernen,

zeigen wir dem System viele verschiedene Variationen der echten Welt in der die Regeln jedes mal etwas anders sind.

Das ist eine Technik namens “Domain Randomization” und sie beeinflusst zum Beispiel die Farbe des Klotzes und des Hintergrunds.

Allerdings wenden wir die Technik nicht auf die optische Erscheinung der Simulation an.

Wir randomisieren auch beispielsweise, wie schnell sich die Roboterhand bewegen kann, wie schwer der Block ist und die Reibung zwischen dem Block und der Hand.

Unser Lernalgorithmus “sieht” all diese verschiedenen Welten und lernt dadurch den Block auf sehr robuste Art und Weise zu manipulieren.

Robust genug um schlussendlich die Aufgabe in der realen Welt zu lösen.

Um all diese Varianten der Umwelt zu simulieren

haben wir ein System entworfen, welches den Trainingsprozess auf Tausenden von Maschinen in der Cloud ausführt.

Es heißt “Rapid” und wir haben dasselbe System zuvor verwendet, um komplexe Videospiele zu lösen.

Zunächst sammeln “Rollout Worker” Erfahrung von vielen verschiedenen Variationen der Umwelt.

Sie senden diese Erfahrung zum Optimierer um die Parameter des Models, welches den Roboter steuert, zu verbessern.

Am Ende erhalten die Rollout Worker die aktualisierten Parameter, womit der Kreislauf vollständig ist.

Eine Sache die für uns sehr interessant ist, ist wie Allgemein das System ist.

Es kann nicht nur Klötze rotieren sondern auch Objekte mit anderen Formen.

Falls man dafür eine Steuerung auf die herkömmliche Weise schreiben möchte,

müsste man sich hinsetzen und genau aufschreiben: “Falls ich in dieser Position bin, bewege den Finger in diese Richtung.”

“Falls ich in dieser anderen Position bin, bewege dich hierhin.” Und so weiter. Es ist ist minutiös.

Stattdessen kann unsere System lernen Objekte mit beliebiger Form zu verwenden ohne die Hilfe von Menschen.

Wir hoffen, dass wir mithilfe dieses Ansatzes in der Zukunft immer komplexere Aufgaben lösen können und noch viel weiter

gehen, als was mit heutigen händisch-programmierten Robotern möglich ist.