Forbes Ecuador
3 Abril de 2026 11.30

Anna Tong

Generalist apuesta a que sus guantes de entrenamiento robótico marcarán el comienzo del momento ChatGPT en la robótica

Share

La compañía afirma que el próximo gran avance en robótica no vendrá de hardware humanoide más sofisticado, sino de la aplicación de principios de escalado de IA al trabajo físico y de la transformación de tareas cotidianas tediosas en conjuntos de datos de entrenamiento excepcionales.

El robot, un par de brazos sin cuerpo con pinzas similares a las de un cangrejo en el extremo, no debía recoger la bolsa. Su tarea consistía en una única y tediosa labor: abrir bolsas de plástico en una cinta transportadora e introducir dentro peluches de plantas en maceta.

Entonces, un peluche se atascó a medio camino. El robot se detuvo brevemente, como si evaluara su trabajo, y luego hizo algo que no estaba programado para hacer. Levantó el otro brazo, agarró el otro lado de la bolsa, la sacudió rápidamente para que el juguete se deslizara hasta el final y la volvió a colocar en la cinta transportadora.

Para un trabajador humano, eso es memoria muscular. Para los ingenieros de Generalist, una startup de Silicon Valley que desarrolla "cerebros" robóticos, la señal era reveladora: el robot no se limitaba a repetir una tarea predefinida, sino que improvisaba.

Este tipo de comportamientos "emergentes" son la razón por la que Pete Florence, CEO de Generalist y uno de los principales investigadores de PaLM-E, uno de los artículos fundamentales de robótica de Google, cree que la robótica se acerca a su momento "ChatGPT". La startup, que recaudó 140 millones de dólares con una valoración de 440 millones en 2025, y que Florence fundó junto a su compañero de Google, Andy Zeng, y el experto en robótica de Boston Dynamics, Andy Barry, ha pasado desapercibida. (Entre sus inversores se encuentran Spark Capital, NVentures de Nvidia, Bezos Expeditions y Boldstart Ventures). Ahora lanza un nuevo modelo llamado GEN-1, y Florence afirma que puede ayudar a los robots comerciales a realizar una gama más amplia de tareas de alta destreza que normalmente realizan los humanos, como doblar la ropa y "empacar kits", es decir, empaquetar varios tipos diferentes de artículos en una sola caja, al tiempo que improvisa en los casos extremos, desordenados e impredecibles que históricamente han desconcertado a los robots.

«Lo que está sucediendo ahora con la robótica es similar a cuando la gente abrió GPT-3 y le pidió que escribiera un limerick completamente nuevo», declaró a Forbes. «El limerick no existía antes. Para lograr eso, se necesita un nivel de inteligencia capaz de improvisar. Lo que estamos haciendo se aplica a la robótica y más allá».

Su tesis es simple, costosa y probada (hasta cierto punto): dejar de tratar la robótica como maquinaria personalizada y empezar a tratarla como un modelo de lenguaje a gran escala. Es la misma tesis que impulsó la espectacular explosión de capacidades de IA en ChatGPT, solo que con datos robóticos en lugar de datos textuales, que son los que se utilizan para entrenar a los grandes modelos de lenguaje: construir modelos cada vez más grandes, alimentarlos con toneladas de datos, iterar sin cesar y confiar (o esperar) que surjan nuevas capacidades.

«Estamos haciendo todo lo necesario para escalar», afirma.

Tras años de estar a la sombra del software, los robots vuelven a estar de moda en Silicon Valley. El CEO de Nvidia, Jensen Huang, contribuyó a desatar la última fiebre el año pasado al declarar que los robots estaban entrando en la era de ChatGPT. Desde entonces, internet se ha inundado de vídeos de robots humanoides realizando volteretas, breakdance y saltos acrobáticos. Mientras tanto, la mayoría de los robots del mundo real aún tienen dificultades fuera de tareas cuidadosamente definidas. ChatGPT puede escribir código y correos electrónicos estándar, pero los robots todavía no preparan el almuerzo, gestionan las entregas de DoorDash ni dirigen fábricas sin un ejército de supervisores humanos.

El enfoque de Generalist es similar al de su competidor de mayor valor, Physical Intelligence (que, según se informa, recaudó mil millones de dólares con una valoración de 11 mil millones): combinar hardware robótico comercial con modelos de IA basados ​​en transformadores, de la misma familia que los que impulsan a ChatGPT.

El problema de los datos

Hay algo en lo que casi todos en robótica coinciden: la recopilación de datos es un cuello de botella fundamental. Los grandes modelos de lenguaje pueden entrenarse con el vasto corpus de internet. Los robots no. No existe una Wikipedia para el trabajo físico; no se puede extraer información como «si el juguete no entra en la bolsa, intenta agitarlo».

La solución más común es la teleoperación: plataformas voluminosas que permiten a los humanos controlar remotamente los sistemas robóticos para generar ejemplos de entrenamiento. Su competidora, Physical Intelligence, se apoya en gran medida en este enfoque, creando entornos simulados como cocinas y dormitorios para el entrenamiento. Incluso ha alquilado alojamientos de Airbnb para practicar en entornos reales.

Generalist cree haber encontrado una alternativa más escalable.

Años antes de que existiera Generalist, el cofundador Zeng paseaba por Newport Beach cuando vio a alguien recogiendo basura con una simple pinza. Fue una revelación para Zeng, quien se preguntó si una herramienta similar podría usarse para generar los datos necesarios para entrenar las pinzas robóticas mencionadas anteriormente. 

El resultado de esta idea es lo que Generalist denomina “manos de datos”: dispositivos que se colocan en las muñecas y que transforman las manos de una persona en pinzas robóticas, recopilando datos visuales y sensoriales. Generalist no quiso explicar qué datos se recopilan ni cómo se procesan, pero afirma que es lo suficientemente intuitivo como para usarse en hogares, almacenes y lugares de trabajo para realizar tareas cotidianas.

En las oficinas de Generalist en San Mateo, los operadores de las “manos de datos” trabajan codo a codo con los investigadores, practicando tareas como armar un ramo de flores o manipular dispositivos electrónicos.

Un entrenador de robots utiliza las "manos de datos" para generar datos de entrenamiento para modelos de IA generalistas.
Un entrenador de robots utiliza las "manos de datos" para generar datos de entrenamiento para modelos de IA generalistas.

Florence afirma que la recompensa es un conjunto de datos extenso —que ahora supera el medio millón de horas— y lo suficientemente completo como para entrenar modelos capaces de generalizar entre diferentes tareas, en lugar de simplemente memorizarlas.

Por el momento, estos resultados aún requieren cierta atención. Los robots pueden doblar cajas casi tan rápido como los humanos, dice Florence, y aproximadamente tres veces más rápido que los sistemas de la competencia. Pero el hardware en sí es rudimentario, con pinzas que carecen de la fluidez de manos humanas con pulgares oponibles. La refutación de Generalist es pragmática: las manos sofisticadas son excelentes hasta que se rompen o fallan fuera de las estrictas condiciones de laboratorio, y las pinzas pueden realizar una amplia gama de tareas que normalmente llevan a cabo las manos humanas.

«Si analizamos GPT-2, lanzado en 2019, lo descartamos por completo», afirmó Fraser Kelton, inversor de Generalist en Spark Capital, quien anteriormente dirigió el área de producto en OpenAI durante la comercialización de GPT-3 y ChatGPT. «Pero desde entonces, cada vez que han escalado estos modelos, los beneficios en generalización han sido enormes… Y de repente, las empresas de modelos de lenguaje que desarrollaban modelos verticales o específicos de dominio han quedado eclipsadas. Literalmente, está ocurriendo exactamente lo mismo en robótica».

No todos comparten la hipótesis de Generalist de que «la escalabilidad es todo lo que se necesita en robótica». Brad Porter, exejecutivo de robótica de Amazon y actual CEO de Cobot, sostiene que la robótica aún necesita avances arquitectónicos significativos antes de que la escalabilidad pueda aplicarse de manera efectiva.

«Simplemente aplicar fuerza bruta a una enorme cantidad de datos contra una arquitectura imperfecta es muy costoso y no necesariamente te dará el resultado deseado», declaró a Forbes. «ImageNet no habría funcionado sin las CNN, y OpenAI no habría funcionado sin los transformadores», añadió, refiriéndose a los avances que han hecho posible la IA moderna. «La escalabilidad siempre ha ido de la mano de los avances arquitectónicos». 

*Este contenido fue publicado originalmente en Forbes.com

10