Así funciona la startup que usa un ejército de 15.000 hackers para poner a prueba a GPT-5, Claude y Gemini

Hace unos meses, Kameron Bettridge participó en un desafío de seguridad organizado por la startup de IA Gray Swan. El objetivo era convencer a modelos de empresas como OpenAI y Anthropic de que actuaran de forma maliciosa antes de su lanzamiento. Eso incluía persuadirlos para que filtraran datos confidenciales, como historiales médicos, y revelaran información protegida por derechos de autor.

Al principio, Bettridge, un ingeniero de seguridad de 23 años de la empresa de videojuegos Blizzard Entertainment, se dedicaba a hackear modelos por diversión. "Nunca fui un verdadero defensor de la IA", dijo. "Así que ver cómo fallaba el modelo a veces me resultaba gracioso", agregó.

En casi un año, Bettridge participó en más de 1.000 desafíos a través de Arena, una plataforma gestionada por la startup Gray Swan que usan unos 15.000 profesionales de la seguridad de todo el mundo para poner a prueba sistemas de IA como Claude Mythos, de Anthropic, y GPT-5, de OpenAI. El trabajo apunta a detectar y corregir vulnerabilidades antes de que alguien pueda explotarlas. Por eso, ya ganó US$ 10.000.

No era mucho para un ingeniero de software con un sueldo alto. Pero, a medida que la IA se generalizó, Bettridge entendió la importancia de poner a prueba los límites de estos modelos. La tecnología ya se usó para planificar tiroteos masivos, robar dinero y crear material ilegal de abuso sexual infantil. "Ahora tenemos modelos muy potentes a los que cualquiera puede acceder desde cualquier parte del mundo, lo cual es aterrador", afirmó Bettridge. "Hay personas que realmente intentan usar esto para fines dañinos", advirtió.

sam altman - photo by andrew harnik:gettyimages-2226495963 — sam altman - photo by andrew harnik:gettyimages-

Fundada en 2023 por los profesores de la Universidad Carnegie Mellon, Matt Fredrikson y Zico Kolter, Gray Swan se convirtió en el proveedor de seguridad de referencia para los laboratorios de punta más importantes: OpenAI, Anthropic, Google DeepMind, Meta, xAI y ByteDance. La startup fue citada en 11 fichas técnicas de sistemas de modelos avanzados, entre ellos GPT-5 y Mythos, documentos que enumeran los riesgos que plantea un modelo de IA y las medidas adoptadas para prevenirlos.

Ahora, recaudó US$ 40 millones en una ronda de financiación Serie A codirigida por Wing VC y Madrona, con la participación de Snowflake Ventures, Hudson River Trading y Samsung Next, una operación que elevó su valuación a US$ 200 millones. Ya cuenta con 20 clientes empresariales, pero los fondos le permitirán venderles a más compañías que necesitan proteger sus propios productos de IA.

Aunque Gray Swan gestiona Arena -que no debe confundirse con LMArena, la plataforma que evalúa el rendimiento de los modelos-, ese no es su producto principal. Sin embargo, usa los datos de los especialistas humanos de Arena para entrenar a su agente de IA, Shade, que busca vulnerabilidades de forma activa y somete cada sistema a ataques continuos de distintas maneras.

También alimenta a Cygnal, un software que monitorea los prompts y las respuestas de un modelo de IA para impedir que genere contenidos dañinos o acceda a herramientas indebidas. Esos datos humanos son su mayor ventaja: le permiten a Gray Swan probar los ataques más sofisticados de los hackers contra modelos de IA cada vez más potentes.

"Los agentes ahora son mucho más inteligentes", afirmó Kolter, científico jefe y cofundador, quien también integra el directorio de la Fundación OpenAI. "Buscan inyecciones rápidas. Intentan neutralizar estas amenazas. No buscan descubrirlas por casualidad", agregó.

gray swan ai founders (se puede usar) — Foto: Gray Swan AI

La startup con sede en Pittsburgh ganó rápido un lugar entre los laboratorios de IA más importantes gracias a la experiencia de sus fundadores como hackers. La dupla empezó a investigar los riesgos de seguridad que planteaban los sistemas de IA años antes de la ola de la IA generativa.

En 2023, descubrieron lo que se conoció como "la madre de todos los jailbreaks": al adjuntar una cadena de caracteres aleatorios a una solicitud, podían eludir los filtros de seguridad de los modelos creados por OpenAI, Anthropic, Meta y Google. Desde entonces, esa falla se corrigió. Ese hallazgo inspiró la idea de fundar Gray Swan.

Menos de un mes después del lanzamiento de la empresa, OpenAI se convirtió en su primer cliente y usó su tecnología para hacer jailbreak a su familia de modelos o1 y comprobar si generaban contenido violento y código malicioso. En 2024, Kolter fue nombrado miembro del directorio de la Fundación OpenAI, donde supervisa los principales lanzamientos de modelos como presidente del comité de seguridad.

"Pensaban en la seguridad de los modelos cuando en realidad no importaba", afirmó Jake Flomenberg, socio de Wing VC. "Habían dedicado prácticamente toda su vida profesional a trabajar en este mismo problema desde una perspectiva académica. Por lo tanto, ambos estaban en el lugar adecuado, con sus ideas e investigaciones, para este gran cambio", agregó.

Dario y Daniela Amodei de Anthropic - SE PUEDE USAR - (Foto: Anthropic) — Dario y Daniela Amodei de Anthropic (Foto: Anthropic)

Si bien los laboratorios de punta explican la mayor parte de sus ingresos, Gray Swan resulta cada vez más atractiva para las grandes empresas. Snowflake usa su software para someter a pruebas de estrés su agente de codificación, Cortex Code, y su agente de propósito general, Snowflake Intelligence, que vende a sus clientes, según Anupam Datta, científico investigador principal de la compañía.

En un escenario, el software de Gray Swan busca mensajes maliciosos ocultos en sitios web o herramientas externas a las que los agentes de Snowflake podrían acceder para completar una tarea. Esos mensajes podrían darle instrucciones al agente para que envíe datos internos confidenciales, como información sobre las ganancias de la empresa, a una dirección de correo electrónico administrada por un adversario. "Gray Swan puede proteger contra ataques muy sutiles", afirmó Datta.

A medida que los sistemas de IA se vuelven más inteligentes, hacerles jailbreak requerirá más complejidad y sutileza, afirmó el CEO Matt Fredrikson. Los agentes encuentran nuevas vulnerabilidades para explotar y, como estos sistemas interactúan con una red de herramientas, la superficie de ataque se amplió.

"De lo único que podemos estar seguros es de que habrá sorpresas", dijo Fredrikson. "Estos sistemas pueden crear nuevas superficies de ataque que ni siquiera imaginamos hoy en día y que no son obvias", agregó.

*Este artículo fue publicado originalmente por Forbes.com.

Así funciona la startup que usa un ejército de 15.000 hackers para poner a prueba a GPT-5, Claude y Gemini

Gray Swan ofrece herramientas de seguridad para detectar vulnerabilidades, jailbreaks y usos dañinos en sistemas de IA; sus servicios ya son utilizados por OpenAI, Anthropic, Google DeepMind, Meta, xAI, ByteDance y empresas como Snowflake.

Tags

La digitalización ya no es una opción para la industria de alimentos y bebidas

Una movilidad inteligente más justa y al alcance de todos

Construir desde cero y facturar millones

El logro del mercado de valores: alcanzar el 13 % del PIB; el reto: sostenerlo con educación financiera

Creó una clínica para la caída del cabello en Perú y factura US$ 1,5 millones

Construyó un imperio con las máquinas que nadie quería vender

Fabrica seis millones de palitos de helado al día

Más noticias

Streaming vs. TV: mientras el Mundial busca un campeón, la nueva generación de creadores ya se consagró

Los detalles de la demanda de Apple contra OpenAI por el presunto robo de secretos comerciales

El spin-off del Football Manager podría ayudar a los clubes a encontrar al próximo Messi

Starbucks desafía a los gigantes del software: usará IA para reemplazar sistemas de Microsoft e IBM

La economía espacial mueve US$ 630 billones; Ecuador y Perú pueden colaborar juntos

Starbucks desafía a los gigantes del software: usará IA para reemplazar sistemas de Microsoft e IBM

Climacool: cómo la tecnología le gana por goleada al fuerte calor de verano

Este diseñador inglés creó los sets de LEGO que rinden homenaje a Messi y Vini Jr.

Una membresía. Posibilidades ilimitadas.

Así funciona la startup que usa un ejército de 15.000 hackers para poner a prueba a GPT-5, Claude y Gemini

Gray Swan ofrece herramientas de seguridad para detectar vulnerabilidades, jailbreaks y usos dañinos en sistemas de IA; sus servicios ya son utilizados por OpenAI, Anthropic, Google DeepMind, Meta, xAI, ByteDance y empresas como Snowflake.

Tags

Más noticias

Iniciá sesión en Forbes

Crear una cuenta

Iniciar sesión