Una nueva investigación de IA de Microsoft muestra cómo ChatGPT puede convertir instrucciones en lenguaje natural en acciones de bot ejecutables

Una nueva investigación de IA de Microsoft muestra cómo ChatGPT puede convertir instrucciones en lenguaje natural en acciones de bot ejecutables

Los desarrollos recientes en el procesamiento del lenguaje natural han hecho posibles los modelos de lenguaje extenso (LLM) capaces de comprender y producir un lenguaje similar al humano. Algunos LLM se pueden perfeccionar para trabajos específicos con solo unas pocas llamadas telefónicas a través de discusiones como resultado de aprender una gran cantidad de datos. Un buen ejemplo de un LLM de este tipo es ChatGPT. La robótica es un campo fascinante donde se puede usar ChatGPT, donde se puede usar para traducir comandos de lenguaje natural en códigos ejecutables para controlar robots. La generación de programas robóticos a partir de comandos de lenguaje natural es un objetivo deseable, y existen varios estudios, algunos de los cuales se basan en LLM.

Desafortunadamente, la mayoría de ellos no tienen la capacidad humana en el circuito, se construyeron en un ámbito limitado o dependen del hardware. Sin embargo, la mayor parte de esta investigación se basa en conjuntos de datos particulares, lo que requiere recuperar datos y volver a entrenar modelos para adaptarlos o extenderlos a diversas situaciones robóticas. Un sistema robótico que se adapte fácilmente a múltiples aplicaciones o circunstancias operativas sin requerir una cantidad significativa de recopilación de datos o reentrenamiento del modelo sería excelente desde una perspectiva de uso práctico. La ventaja de adoptar ChatGPT para aplicaciones robóticas es que pueden comenzar con una cantidad modesta de muestras de datos para ajustar el modelo a aplicaciones particulares y utilizar sus capacidades de interacción y reconocimiento de lenguaje como interfaz.

Figura 1: Demuestra señales del mundo real que ChatGPT puede usar para traducir instrucciones humanas de varios pasos en secuencias de bot procesables que se pueden ejecutar en varios contextos.

Aunque el potencial de ChatGPT para aplicaciones de robótica está llamando la atención, actualmente no existe un enfoque probado para su uso en la práctica. En este estudio, los investigadores de Microsoft ilustran concretamente cómo se puede aplicar ChatGPT en una situación de pocos disparos para traducir comandos de lenguaje natural en una serie de acciones que un bot puede realizar (Fig. 1). Las indicaciones se crearon con la intención de cumplir con las especificaciones típicas de muchas aplicaciones del mundo real mientras se configuran para que se adapten fácilmente.

🚀 ÚNETE a la comunidad Subreddit de ML más rápida

Para cumplir con estos requisitos, diseñaron indicaciones de entrada para alentar a ChatGPT a 1) generar una secuencia de acciones de bot predefinidas con explicaciones en formato JSON legible. 2) Representar el entorno operativo en un estilo formalizado. 3) Inferir y mostrar el estado actualizado del entorno operativo, que se puede reutilizar como entrada siguiente, lo que permite que ChatGPT se ejecute solo en la memoria de las últimas operaciones. Llevaron a cabo experimentos para probar la efectividad de las indicaciones propuestas para inferir acciones apropiadas para instrucciones de lenguaje multinivel en varios entornos. Enumeraron los siguientes requisitos para este artículo: 1) Interacción simple con sistemas de ejecución de robots o software de reconocimiento visual. 2) Adaptación a diversos entornos domésticos. 3) La capacidad de proporcionar cualquier cantidad de instrucciones en inglés sencillo mientras se reduce el efecto de la restricción de tokens de ChatGPT.

También señalaron que las capacidades conversacionales de ChatGPT permiten a los usuarios modificar su salida utilizando comentarios en lenguaje natural, lo cual es esencial para crear una aplicación que sea segura y resistente al mismo tiempo que proporciona una interfaz fácil de usar. La colección de acciones del bot, la representación del entorno y los nombres de los objetos se pueden editar fácilmente y se pueden usar como plantillas en las indicaciones sugeridas. La contribución de este artículo es crear y difundir indicaciones genéricas fácilmente adaptables a las necesidades de cada experimentador, brindando información útil a la comunidad de investigación en robótica. Son de código abierto y de libre acceso en GitHub, junto con sus instrucciones de uso.


Si quieres conocer otros artículos parecidos a Una nueva investigación de IA de Microsoft muestra cómo ChatGPT puede convertir instrucciones en lenguaje natural en acciones de bot ejecutables puedes visitar la categoría Tutoriales.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Subir

Esta página web utiliza cookies para analizar de forma anónima y estadística el uso que haces de la web, mejorar los contenidos y tu experiencia de navegación. Para más información accede a la Política de Cookies . Ver mas