Palm-E

Google Robotics und TU Berlin steuern Roboter mit Sprache

Google Robotics, die TU Berlin und Google Research haben mit PaLM-E ein neues KI-Modell vorgestellt, das in der Lage ist, Sprache zu erzeugen, Bilder zu verstehen und beides für komplexe Roboterbefehle zu nutzen

Screenshot 2023-03-09 at 11.39.22.png

Forscher von Google Robotics, der Technischen Universität Berlin und Google Research haben ein neues KI-Modell vorgestellt, das autonome Roboter steuert. Google hat bereits in der Vergangenheit mit PaLM-SayCan gezeigt, dass Sprachmodelle bei der Steuerung von Robotern helfen können. Mit dem kombinierten Trainingsansatz von PALM-E soll nun eine "signifikant höhere Leistung" im Vergleich erreicht werden, die rein für die Robotik optimiert wurde. PaLM-E vereint das riesige Sprachmodell PaLM von Google mit ViT-22B, dem bisher größten Vision Transformer, und umfasst insgesamt 562 Milliarden Parameter.

Sprachbefehle für Roboter

PaLM-E ermöglicht es Robotern, eine Vielzahl von Aufgaben auf der Grundlage von menschlichen Sprachbefehlen auszuführen. In einem Video demonstrieren die Forscher was in der Praxis bereits möglich ist. Wenn beispielsweise der Befehl "Bring mir die Reischips aus der Schublade" erteilt wird, wird PaLM-E schnell einen Aktionsplan erstellen, der auf dem Befehl und dem Sichtfeld des Roboters basiert. Das mobile Robotersystem mit einem von ihm gesteuerten Roboterarm wird die Aktion dann vollständig autonom ausführen.

Worten Bedeutung geben

Für den Roboter ist es nicht nur wichtig zu verstehen, was ihm gesagt wurde, sondern auch die Bedeutung der Worte in praktische Aufgaben umzusetzen. Ein Beispiel dafür ist der Satz: "Ich habe mein Getränk verschüttet, kannst du mir etwas bringen, um es sauber zu machen?". Der Roboter würde daraufhin eine Sequenz von Aufgaben planen, die so aussehen könnte: 1. Finden eines Schwamms, 2. Aufnehmen des Schwamms, 3. Bringen des Schwamms zum Nutzer, 4. Ablegen des Schwamms. Diese Aufgaben werden vom Roboter autonom ausgeführt, sobald er sie in seiner Umgebung identifiziert hat.

Roboter bringt auf Befehl die Chips-Tüte

Visuelle Wahrnehmung

Um Aufgaben autonom ausführen zu können, ist es für den Roboter nicht nur wichtig, Sprache zu verstehen und in Aktionen umzusetzen, sondern auch seine Umgebung wahrzunehmen und Objekte zu identifizieren. Hierbei nutzt er Kameras und verschiedene Sensoren, um visuelle Informationen zu sammeln und zu verarbeiten. Dies ermöglicht es ihm, sich in der Welt zu orientieren und Objekte zu finden, die er für die Ausführung der Aufgaben benötigt.

Eindrucksvolle Ergebnisse

In der wissenschaftlichen Veröffentlichung, die auf GitHub verfügbar ist, wird betont, dass das PaLM-E-Modell von einem vielfältigen Training in den Bereichen Sprache, Sehen und visuelle Sprache im Internet profitiert. Dadurch ergeben sich zahlreiche Anwendungsbereiche für PaLM-E, wie zum Beispiel die Planung von aufeinanderfolgenden Robotermanipulationen, die visuelle Beantwortung von Fragen oder die Untertitelung von Bildern.

PaLM-E ist ein beeindruckender Durchbruch in der autonomen Robotik. Google plant, zusätzliche Anwendungen in realen Szenarien wie der Heimautomatisierung und der industriellen Robotik zu erforschen. Bis der erste KI Service-Roboter dieser Art käuflich ist wird es noch einige Forschung benötigen.