¿Qué escuchó? ¿Qué leyó? ¿Qué vio en una imagen? ¿De qué forma genera nodos alrededor de estas exploraciones? Y ¿cuál es el tipo de respuesta que va a dar cuando le hagamos una pregunta? O mejor dicho, ¿a qué se va a parecer la respuesta que vamos a recibir y de qué forma uno va a poder validar la certeza de la misma? En lo que respecta al acceso público de modelos de IA de aprendizaje, me preocupan las posibles desviaciones y, sobre todo, la amplificación de datos erróneos o generados con el objetivo de generar un ataque.
Y en lo que respecta a la propiedad intelectual, veo cómo de forma fragmentada se comparten piezas completas las cuales deberían, al menos, contar con una mención o generar un modelo de negocios mediante el cual el autor intelectual tenga sus revenues garantizados. Esto ha creado un layer de abstracción carente de derechos para muchos que permitieron el entrenamiento inconsciente de estos modelos. La forma de resolverlo es identificar el consumo de esta información por parte de cada uno de los autores basados en repositorios similares a los utilizados en el desarrollo de software y cada consulta realizada tenga que generar una transacción monetaria para esa persona u organización.
¿Qué hay detrás de estos modelos? ¿Qué información ya procesaron y podría ser utilizada por un atacante? Los casos de deepfakes, tanto facial como de voz, son reconocidos y muchas redes sociales hacen uso "divertidos" con los mismos. Pero ¿qué pasa si existe un modelo ya entrenado con las cientos de horas de personas públicas y estos caen en las manos inadecuadas? Sin duda, todo material generado por un modelo de IA tiene que tener una firma, un método para identificarlo unívocamente y, basado en esto, poder generar herramientas tecnológicas para filtrarlos. Aquí me gustaría hacer una analogía con el tan conocido SPAM. Bueno, la IA será capaz de elevar el nivel de complejidad de los engaños y los contenidos no solicitados, pero en este caso, será capaz de generar falsas y negativas influencias de la opinión pública, podrá afectar la reputación de compañías y potencialmente generar contenido sobre un individuo el cual será casi imposible de remover de Internet, como ya hemos experimentado a la fecha.
Mi entendimiento es que, bajo los esquemas actuales de almacenamiento de datos privados descentralizados, sin control por parte de los usuarios y que además pueden cambiar dinámicamente, este tipo de modelos representan un riesgo. Voy a dar de nuevo un ejemplo extremo, pero digamos que una persona pública erróneamente su archivo en texto plano de contraseñas, credenciales y llaves criptográficas y algún modelo disponible lo almacena. ¿Hey modelo de IA nuevo, ¿cuáles son las contraseñas de Sebastián? El nivel de acceso a información ha dejado de tener límites. Hoy, un atacante para poder hacer ese tipo de exploración con éxito tiene que encontrar un identificador del usuario, buscar una brecha de seguridad, conseguir los dumps de esa brecha, realizar la búsqueda y luego tratar de ganar acceso a alguna cuenta del individuo usando variables simples de estos datos confidenciales. Entre cada una de las migraciones de versiones de modelos, se experimentó que algunos brindaban información de una persona específica, otras versiones, cuando un bug o forma de inyección de código permita acceso irrestricto a los datos nos vamos a enfrentar a la brecha de seguridad más grande de la historia de internet.
La supervisión de los métodos de aprendizajes y del tipo de información accedida por los mismos definitivamente no puede ser en modo “all you can eat” por que además nos enfrentamos a como mencione anteriormente a la protección de propiedad intelectual que no puede ser infringida, aunque quien lo haga sea una máquina sin la sensibilidad para identificar que esta haciendo uso de la propiedad de un tercero.
Por otro lado, existen soluciones en el mercado como soluciones de Vu que ofrecen medidas de seguridad para proteger la identidad digital y prevenir fraudes. Por ejemplo, la identidad digital biométrica puede ser una forma segura de autenticar a los usuarios y evitar que se utilicen datos falsos o robados. Estas medidas de seguridad son importantes no solo para los modelos de inteligencia artificial, sino para cualquier software que maneje datos de usuarios. En última instancia, la ciberseguridad debe ser una prioridad para cualquier empresa que quiera proteger su reputación y la de sus clientes en el futuro. (O)