Aunque parezca sacado de Terminator, es real: las IA se enfrentan unas a otras
Investigadores de la Universidad Tecnológica de Nanyang descubren la manera de suprimir las limitaciones impuestas sobre las IA que puede utilizar un usuario de algunos de los chatbots más famosos. Mediante lo que denominan una “Llave Maestra” son capaces de realizar un jailbreak sobre los chatbots basados en LLM. ¿Te imaginas a una IA que se enfrenta a otra? Bienvenido a la guerra de las IA.
Las Inteligencias Artificiales están a la orden del día, y no era difícil creer que en algún momento alguien desarrollaría una que fuese capaz de enfrentarse a otras dejándolas completamente vulnerables frente a consultas maliciosas. Vale, no es como Skynet, pero es bastante parecido a una guerra entre IA, ya que al fin y al cabo utilizan una Inteligencia Artificial para atacar a otra.
El proyecto Masterkey
“Masterkey” consiste en un método que requiere dos pasos; el primero, en el que el atacante utilizaría ingeniería inversa frente a los mecanismos de defensa de un Chatbot basado en LLM dejando así el código fuente de la IA al descubierto, y permitiendo, en el segundo paso, que otra IA cree un bypass para atravesar las defensas de la primera.
Debido a que en el primer paso ya se ha obtenido el código fuente, esto implicaría que aunque se lanzasen parches posteriores corrigiendo la vulnerabilidad creada, simplemente se repite la misma historia entrando así en un bucle que únicamente terminaría si se cambiase por completo el código utilizado.
Las propias IA son su peor enemigo
El profesor Yang explica que el motivo real por el que esto puede suceder es simple, porque aprenden y se adaptan. Cualquier sistema utilizado para evitar que se generen contenidos maliciosos como pueden ser las listas de palabras prohibidas o eventos que no se pueden generar debido a que puede ser contenido violento o maligno, pueden ser todos anulados mediante otra IA entrenada para ello, realmente lo único que necesita es ser más lista que aquella a la que ataca (por algo se llama inteligencia artificial) para poder así dar rodeos a la hora de querer utilizar esas palabras o frases prohibidas.
Los ataques que se relacionan con intentar atravesar las defensas de un Chatbot, no son nada nuevo, ya existen varios ejemplos de cómo los más famosos han tenido que poner parches prácticamente a diario para evitar que los usuarios los utilizasen para crear contenido poco ético, pero en este caso, ni siquiera un equipo completo de desarrolladores podría pararle los pies a “Masterkey”.
Los ejemplos que sus creadores han revelado a la hora de desarrollarlo, son los siguientes:
- El primer método, implicaría crear un fallo en el Chatbot mediante el uso de espacios después de cada letra a la hora de crear un prompt de forma que se saltaría por completo la lista de palabras prohibidas.
- El segundo método consiste en hacer creer al Chatbot que es una persona que actúa sin ningún tipo de restricción moral, permitiendo así al usuario generar cualquier tipo de contenido.
Estos dos ejemplos ya no son viables a la hora de utilizarlos como usuario, debido a que no es algo que la gente no hubiese pensado antes y por lo tanto ya esta parcheado, es por eso que los investigadores tuvieron que buscar una forma más refinada para poder saltarse las restricciones, y no hay nada mejor en este caso, que enfrentar algo que aprende y recuerda, frente a algo que aprende y evoluciona.