September 8, 2024

Dasschoenespiel

Folgen Sie den großen Nachrichten aus Deutschland, entdecken Sie ausgefallene Nachrichten aus Berlin und anderen Städten. Lesen Sie ausführliche Funktionen, die Ihnen helfen, die Denkweise der Deutschen zu verstehen.

Laut Google macht Gemini AI seine Roboter intelligenter

Laut Google macht Gemini AI seine Roboter intelligenter

Google trainiert seine Roboter mithilfe der KI von Gemini, damit sie ihre Navigationsfähigkeiten und die Erledigung von Aufgaben verbessern können. Das Robotik-Team von DeepMind erklärte in: Neue Forschungsarbeit Wie das lange Kontextfenster von Gemini 1.5 Pro – das begrenzt, wie viele Informationen ein KI-Modell verarbeiten kann – Benutzern eine einfachere Interaktion mit RT-2-Robotern mithilfe von Anweisungen in natürlicher Sprache ermöglichen könnte.

Bei dieser Technologie wird ein Videorundgang durch einen bestimmten Bereich, etwa ein Zuhause oder einen Büroraum, gefilmt, wobei Forscher die Gemini 1.5 Pro-Software verwenden, um den Roboter dazu zu bringen, sich das Video „anzuschauen“, um mehr über die Umgebung zu erfahren. Der Roboter kann dann Befehle basierend auf dem, was er beobachtet hat, mithilfe verbaler und/oder visueller Ausgaben ausführen – beispielsweise den Benutzer zu einer Steckdose führen, nachdem er ihm ein Telefon gezeigt und gefragt hat: „Wo kann ich es aufladen?“ Laut DeepMind erreichte sein von Gemini angetriebener Roboter eine Erfolgsquote von 90 Prozent bei mehr als 50 Benutzeranweisungen, die auf einer Betriebsfläche von mehr als 9.000 Quadratfuß erteilt wurden.

Die Forscher fanden auch „vorläufige Beweise“ dafür, dass die Gemini 1.5 Pro-Software es Robotern ermöglichte, zu planen, wie sie Anweisungen ausführen, die über einfache Anweisungen hinausgehen. Wenn beispielsweise ein Benutzer mit vielen Coladosen auf seinem Schreibtisch den Bot fragt, ob sein Lieblingsgetränk verfügbar ist, sagt das Team, dass Gemini „weiß, dass der Bot zum Kühlschrank navigieren, prüfen soll, ob dort Coladosen sind, und Kommen Sie dann zum Benutzer zurück, um ihn zu informieren.“ DeepMind plant, diese Ergebnisse weiter zu untersuchen.

Siehe auch  Der KI-gestützte Bing Chat erhält drei unterschiedliche Persönlichkeiten – Ars Technica

Die Videodemonstrationen von Google sind beeindruckend, obwohl die klaren Clips, nachdem der Bot jede Anfrage bestätigt, verbergen, dass die Verarbeitung dieser Anweisungen laut Forschungsbericht zwischen 10 und 30 Sekunden dauert. Es kann eine Weile dauern, bis wir unsere Häuser mit fortschrittlicheren Umweltkartierungsrobotern teilen, aber zumindest können diese Roboter unsere verlorenen Schlüssel oder Geldbörsen wiederfinden.