Google DeepMind a făcut progrese constante în domeniul AI cu actualizări regulate, foarte apreciate, pentru Gemini, Imagen, Veo, Gemma și AlphaFold. Astăzi, echipa Google AI continuă să facă titluri, anunțând oficial intrarea sa în industria robotică prin lansarea a două noi modele bazate pe Gemini 2.0: Gemini Robotics și Gemini Robotics-ER.
Gemini Robotics: Advanced Vision-Language-Action Model
Gemini Robotics este un model avansat de viziune-limbaj-acțiune (VLA) dezvoltat pe baza Gemini 2.0, cu adăugarea de acțiuni fizice ca o nouă metodă de ieșire pentru controlul robotului. Google susține că acest nou model poate înțelege situații pe care nici măcar nu le-a întâlnit în timpul antrenamentului.
În comparație cu alte modele VLA de top, Gemini Robotics are performanțe de două ori mai bune pe un set cuprinzător de criterii de generalizare. Deoarece este construit pe modelul Gemini 2.0, este capabil să înțeleagă multe tipuri diferite de limbaje naturale, ceea ce înseamnă că poate înțelege mai precis comenzile umane.
În ceea ce privește dexteritatea, Google susține că Gemini Robotics poate gestiona sarcini complexe, cu mai mulți pași, care necesită o manipulare precisă. De exemplu, acest model poate plia origami sau pune gustări în pungi Ziploc.
Gemini Robotics-ER: Un model de limbaj vizual care se concentrează pe raționamentul spațial
Gemini Robotics-ER este un model vizual-lingvistic avansat axat pe raționamentul spațial, permițând roboticilor să se integreze cu controlerele lor de nivel scăzut existente. Folosind acest model, roboticianul va avea toți pașii pentru a controla robotul simultan, inclusiv percepția, estimarea stării, înțelegerea spațială, planificarea și generarea de cod.
Viitorul roboticii Gemeni
Google colaborează cu Apptronik pentru a construi roboți umanoizi bazați pe modelele Gemini 2.0. De asemenea, Google lucrează cu o serie de parteneri de testare de încredere, inclusiv Agile Robots, Agility Robotics, Boston Dynamics și Enchanted Tools, pentru a ghida dezvoltarea viitoare a Gemini Robotics-ER.
Permițând roboților să înțeleagă și să îndeplinească sarcini complexe cu o mai mare acuratețe și adaptabilitate, Google DeepMind deschide calea către un viitor în care roboții se pot integra fără probleme în multe aspecte ale vieții noastre.