Home » Nvidia presenta Eureka, que permite a los robots recompensarse a sí mismos

Nvidia presenta Eureka, que permite a los robots recompensarse a sí mismos

by Lisa Larsen

Anima Anandkumar, Directora Senior de Investigación en IA de Nvidia, afirma:

– la última década ha sido testigo de notables triunfos gracias al aprendizaje por refuerzo, aunque persisten obstáculos como la elaboración de sistemas de recompensa, que a menudo se basan en una metodología de ensayo y error «

El equipo de investigación de Nvidia ha presentado una innovadora entidad de IA apodada Eureka, impulsada por la GPT-4 de OpenAI, con capacidad autónoma para tutelar robots en tareas complejas. Esta IA avanzada facilita el aprendizaje autónomo de los robots, permitiéndoles dominar habilidades como el giro de bolígrafos, emulando el enfoque humano del aprendizaje. Eureka utiliza sofisticados algoritmos de recompensa impulsados por IA generativa y modelos de lenguaje expansivo como el GPT-4 de OpenAI, lo que permite a los robots perfeccionar sus habilidades mediante un proceso de aprendizaje por refuerzo. El documento de investigación de Nvidia sugiere que este enfoque basado en la IA supera en casi un 50% la eficacia de los métodos de programación tradicionales creados por humanos. El blog de Nvidia detalla el éxito de Eureka a la hora de guiar a los robots a través de diversas acciones, desde la manipulación de cajones hasta el uso de tijeras, pasando por la captura de pelotas.

El estudio indica que las estructuras de recompensa creadas por la IA de Eureka superan a las creadas por expertos humanos en más del 80% de las tareas evaluadas, lo que permite el aprendizaje robótico a través de la experimentación. Los robots mostraron un aumento medio del rendimiento superior al 50%. El agente de IA recompensa el progreso robótico mediante el aprendizaje por refuerzo, basándose en el GPT-4 LLM y la IA generativa para la generación de código. Funciona sin necesidad de señales específicas de la tarea ni marcos de recompensa predefinidos, e integra a la perfección los comentarios humanos para perfeccionar sus mecanismos de recompensa y alinearlos mejor con los objetivos de los desarrolladores. El avance de Eureka radica en la fusión de la destreza en el reconocimiento de patrones de los modelos lingüísticos con plataformas de simulación como Isaac Gym, lo que le permite perfeccionar sus algoritmos de recompensa a través de numerosas iteraciones de entrenamiento, incorporando incluso opiniones humanas. Este avance está en consonancia con los recientes logros de Nvidia Research, como Voyager, un agente de IA impulsado por GPT-4 que puede superar de forma autónoma los retos de jugar a Minecraft

Related Articles

Leave a Comment

TECHNEWS WOXTER

This website uses cookies to improve your experience. We'll assume you're ok with this, but you can opt-out if you wish. Accept Read More