Estos dos nuevos modelos están basados en Gemini 2.0 de Google y sientan las bases para una nueva generación de robots útiles

Google DeepMind lanza modelos de IA que integran razonamiento físico para dar el salto del entorno digital al mundo real
Google DeepMind, la compañía inglesa de investigación y desarrollo de inteligencia artificial, ha avanzado en la forma en que los modelos Gemini resuelven problemas complejos mediante razonamiento multimodal en texto, imágenes, audio y video. Sin embargo, hasta ahora, estas capacidades se habían limitado en gran medida al ámbito digital.
Este miércoles, la compañía ha presentado dos nuevos modelos de inteligencia artificial (IA) que, según sus declaraciones, sientan las bases de una nueva generación de robots útiles: Gemini Robotics y Gemini Robotics-ER.
“Para que la IA sea útil para las personas en el mundo físico, deben demostrar razonamiento corporal, es decir, la capacidad similar a la humana de comprender y reaccionar al mundo que nos rodea, así como actuar con seguridad para realizar tareas, por eso, hoy presentamos dos nuevos modelos de IA, basados en Gemini 2.0″, explicó Google DeepMind a través de su página oficial.
Gemini Robotics: la nueva IA de DeepMind que lleva la inteligencia artificial del razonamiento digital a la acción física con destreza humana
El primer robot fue llamado Gemini Robotics, es un modelo avanzado de visión-lenguaje-acción (VLA) que incorpora acciones físicas como nueva modalidad para controlar directamente a los robots. Así, puede abordar tareas extremadamente complejas y de varios pasos que requieren una manipulación precisa, como por ejemplo doblar un origami o meter un bocadillo en una bolsa con cierre de ‘zip.
La compañía declaró que para ser útiles para las personas, los modelos de IA para robótica necesitan tres cualidades principales; la primera es ser generales, es decir, capaces de adaptarse a diferentes situaciones; la segunda es ser interactivos o con capacidad para comprender y responder rápidamente a instrucciones o cambios en su entorno; y por último necesitan ser diestros, que quiere decir poder realizar las tareas que las personas generalmente hacen con las manos y los dedos, como manipular objetos con cuidado.
“Si bien nuestro trabajo previo demostró avances en estas áreas, Gemini Robotics representa un avance sustancial en el rendimiento en los tres ejes, acercándonos a robots verdaderamente de propósito general”, resume.

Marcando el inicio de una nueva era de robots adaptables, precisos e inteligentes
Dado que los robots vienen en todas las formas y tamaños, Gemini Robotics se adapta fácilmente a diferentes tipos de robots.
El segundo robot, llamado Gemini Robotics-ER, funciona como un modelo de visión-lenguaje (VLM) con una comprensión espacial avanzada. Esta capacidad permite a los expertos en robótica ejecutar sus propios programas utilizando el razonamiento corporal de Gemini.
Así, este modelo mejora “con creces” capacidades como la de apuntar y la detección 3D para, por ejemplo, cuando se le muestra una taza de café, el modelo pueda intuir un agarre adecuado para cogerla por el asa y una trayectoria segura para acercarse a ella.
Según indica la compañía, estas capacidades de razonamiento, conseguidas al incorporar Gemini a ambos modelos, permiten a los diversos robots realizar una gama más amplia de tareas en el mundo real, que se ha asociado con Apptronik para crear esta próxima generación de robots humanoides.
También están trabajando con grupos probadores de confianza para guiar el futuro de Gemini Robotics-ER, “Esperamos explorar las capacidades de nuestros modelos y seguir desarrollándolos para que se apliquen en el mundo real” finalizó la compañía.

Fuente: informador
Ingeniería en Mecatrónica
Más noticias sobre Mecatrónica…
