Las películas dobladas en Polonia son horribles. Un solo lector pronuncia todos los diálogos con un tono monótono y enervado, típico de Eslava. No hay reparto. No hay variación entre los hablantes. El público joven las detesta. "Pregúntale a cualquier polaco y te dirá que son terribles", dice Mateusz Staniszewski, cofundador de ElevenLabs, empresa de inteligencia artificial para el habla. "Supongo que fue una idea comunista que se impuso como una forma barata de producir contenido".
Mientras trabajaba en Palantir, Staniszewski se asoció con su amigo del instituto e ingeniero de Google, Piotr Dabkowski, para experimentar con inteligencia artificial. Ambos se dieron cuenta de que un proyecto, un entrenador de oratoria con IA particularmente prometedor, podría resolver el horror típicamente polaco de que Leonardo DiCaprio o Scarlett Johansson fueran eclipsados por un lector "estrella" como Maciej Gudowski.
La pareja reunió sus ahorros y, para mayo de 2022, dejaron sus trabajos para dedicarse a tiempo completo a ElevenLabs. Desde el principio, su nuevo generador de texto a voz con IA era mucho mejor que las voces robóticas de Siri de Apple y Alexa de Amazon. Las voces con IA de ElevenLabs eran capaces de transmitir felicidad, emoción e incluso risas.
En enero de 2023, ElevenLabs lanzó su primer modelo. Podía tomar cualquier texto y usar IA para leerlo en voz alta con cualquier voz, incluyendo un clon propio (o, preocupantemente, la de otra persona). La demanda fue inmediata. Los autores podían crear audiolibros al instante con el software (las tarifas profesionales ahora parten de US$ 99 al mes para mayor calidad y más tiempo). Los creadores de YouTube usaron ElevenLabs para traducir sus videos a otros idiomas (sus modelos ahora pueden hablar en 29). La startup con sede en Varsovia y Londres cerró acuerdos con aplicaciones de aprendizaje de idiomas y meditación; luego, compañías de medios como HarperCollins y la alemana Bertelsmann se sumaron. "Era obvio que este era el mejor modelo y todos lo estaban eligiendo", dice la inversora Jennifer Li de Andreessen Horowitz, que colideró una ronda de financiación de US$ 19 millones en mayo de 2023. Un año después, los cofundadores fueron reconocidos como parte de Forbes 30 Under 30 Europe.
Otros, sin embargo, encontraron usos más desconcertantes: imitadores de IA de figuras públicas como el presidente Trump narrando con crudeza duelos de videojuegos, la actriz Emma Watson leyendo Mi Lucha y el podcaster Joe Rogan promocionando estafas se viralizaron rápidamente. Peor aún, los estafadores comenzaron a usar herramientas de clonación de IA para suplantar las voces de sus seres queridos y robar millones en sofisticadas estafas de deepfakes.
Nada de esto impidió que los inversores de riesgo invirtieran a raudales. ElevenLabs ha recaudado más de US$ 300 millones en total, alcanzando una valoración de US$ 6.600 millones en octubre, convirtiéndose en una de las startups más valiosas de Europa. Staniszewski, de 30 años, director ejecutivo (la empresa no tiene cargos tradicionales), y Dabkowski, también de 30 años, director de investigación, son ahora multimillonarios, con una fortuna de poco más de US$ 1.000 millones cada uno, según estimaciones de Forbes .
Aproximadamente la mitad de los US$ 193 millones de ingresos de ElevenLabs en los últimos 12 meses provienen de empresas como Cisco, Twilio y la agencia de contratación suiza Adecco, que utilizan su tecnología para atender llamadas de atención al cliente o entrevistar a solicitantes de empleo. Epic Games la utiliza para dar voz a personajes de Fortnite, incluyendo una charla con Darth Vader (con el consentimiento de los herederos de James Earl Jones). La otra mitad de sus ingresos proviene de los youtubers, podcasters y autores que fueron pioneros en la adopción . "Cuando hablas con ellos, es alucinante lo buenos que son", afirma el analista de Gartner, Tom Coshow. A diferencia de la mayoría de las empresas de IA, ElevenLabs también es rentable, con una ganancia neta estimada de US$ 116 millones de dólares en los últimos 12 meses (un margen del 60%).
Ahora compite con gigantes como Google, Microsoft, Amazon y OpenAI para convertirse en la voz de facto de la IA. No es un sector nuevo: las empresas tecnológicas comenzaron a desarrollar productos para escuchar, transcribir y generar voz hace aproximadamente una década. Si bien es una actividad secundaria para Microsoft, Satya Nadella estuvo dispuesto a desembolsar US$ 20.000 millones para comprar Nuance, el servicio de transcripción de voz que cotiza en el Nasdaq, en marzo de 2022. OpenAI lanzó su propia herramienta de voz, capaz de integrar conversaciones humanas en ChatGPT, en octubre de 2024.
Pero el equipo de 300 personas de ElevenLabs no se está poniendo al día. Sus modelos son tan buenos que pueden cobrar hasta tres veces más que sus rivales estadounidenses. Su biblioteca de 10.000 voces con un sonido increíblemente humano es la más grande con diferencia y ahora incluye a estrellas de primera línea como Michael Caine y Matthew McConaughey. También es más fiable. La startup de entrenamiento de datos Labelbox probó seis de los mejores modelos de voz con un cuestionario de lectura y descubrió que ElevenLabs cometía la mitad de errores que su competidor más cercano, OpenAI. "Somos una de las pocas empresas que van por delante de OpenAI, no solo en voz, sino también en voz a texto y música. Eso es difícil", dice Staniszewski. La receta de ElevenLabs es simple. Un grupo reducido de investigadores de aprendizaje automático, con un enfoque obsesivo en un problema específico, y un presupuesto ajustado (los cofundadores asumieron el primer entrenamiento de US$ 100.000) impulsaron los avances del modelo. "Tener una tonelada de computación puede ser una maldición porque no piensas cómo resolverla de manera inteligente", dice Dabkowski.
Pero una demanda interpuesta por dos narradores de audiolibros sugiere otro ingrediente. Karissa Vacker y Mark Boyett alegan que ElevenLabs utilizó miles de audiolibros protegidos por derechos de autor para entrenar a sus modelos. Afirman que se extrajeron tantos de sus libros que clones de sus voces terminaron como opciones predeterminadas en ElevenLabs. El caso, en el que ElevenLabs negó cualquier irregularidad, se resolvió extrajudicialmente en noviembre. (Vacker y Boyett no respondieron a una solicitud de comentarios; ElevenLabs declinó hacer más comentarios).
La empresa está madurando. Finalmente, elaboró una lista de voces prohibidas (principalmente de políticos y famosos) después de que un clon de la voz de Joe Biden, creado por ElevenLabs, se usara para desincentivar el voto en una campaña de llamadas automáticas en torno a las primarias demócratas de 2024. ElevenLabs cuenta ahora con siete moderadores humanos a tiempo completo (además de IA, por supuesto) que revisan sus vídeos en busca de usos indebidos. Las voces recién clonadas deben pasar una verificación de consentimiento, y la empresa ofrece un detector de deepfakes gratuito.
Staniszewski y Dabkowski tienen grandes planes más allá de la voz. Tanto creadores con poco presupuesto como empresas de medios con presupuestos ajustados querían música de fondo sin regalías, así que lanzaron un generador de música con IA en agosto. ¿No tienes tiempo para grabar un vídeo? ElevenLabs tendrá avatares de IA para presentar vídeos al estilo Sora el próximo año. Su mayor apuesta es que pueden trasladar su experiencia a un único centro para que los clientes gestionen todas sus herramientas de IA. "Estamos construyendo una plataforma que permite crear agentes de voz e implementarlos sin problemas", afirma Staniszewski.
Por supuesto, esto pone a ElevenLabs en una situación de colisión con un grupo de otras startups que aspiran a hacer lo mismo. Ayuda que haya sido rentable desde sus inicios, pero sus competidoras cuentan con una sólida financiación y los gigantes tecnológicos disponen de recursos prácticamente ilimitados. Aun así, debe innovar. Los modelos de voz pronto se convertirán en productos básicos. Cuando otros modelos se pongan al día, es probable que los clientes volubles que ya se resisten a los precios de ElevenLabs se cambien.
A medida que se expande más allá de las voces hacia la música y el vídeo con mayor intensidad computacional, ElevenLabs necesita expandir sus propias granjas de GPU para mantenerse en la competencia. Ya ha invertido US$ 50 millones en un proyecto de centro de datos en Oregón. "Si queremos construir una empresa generacional en IA, necesitamos escala, y nosotros la estamos construyendo", afirma Staniszewski.
En Polonia, el envejecido cuerpo de lectores sigue en activo, por ahora. Dabkowski no ha olvidado la propuesta original de ElevenLabs, alardeando de que su próximo modelo traducirá y pondrá voz a una película completa en una sola toma. «Nunca nos rendimos en nuestras misiones», afirma.
Con información de Forbes US