Durante los últimos años hemos visto cómo la inteligencia artificial ha evolucionado bastante, pasar de ver un vídeo de un personaje famoso tratando de comer mientras se distorsionaba por completo nos hacía pensar que aun faltaría bastante tiempo para conseguir algo que se asemeje a la vida real pero estamos ya en un punto que pueden representarlo incluso generando sonido, de hecho ya hay incluso una IA rebelde.
Los avances en IA están ayudando en bastantes campos a desarrollar tecnologías más avanzadas, como bien sabemos es una implementación que llega de una forma u otra siendo los modelos generativos los más orientados al público, pero por detrás hay muchas más cosas que pueden llegar a tener un uso realmente útil, siempre y cuando no terminen sublevándose incumpliendo así la segunda ley de la ciencia ficción creada por Asimov, claro está. Y es que viendo los avances que están teniendo es probable que lleguemos a un punto en el que tangamos antes Skynet que GTA 6.
«Un robot debe cumplir las ordenes dadas por un ser humano» Esta IA demuestra lo contrario
Debido a la evolución que están teniendo las tecnologías relacionadas con la IA se han establecido una serie de parámetros a nivel mundial que determinan cómo de seguras pueden ser, estas se dividen en tres niveles dependiendo de las capacidades que pueden tener, siendo el tercer nivel el que mayores riesgos puede presentar. Ahora tenemos una inteligencia artificial que no solo ha conseguido la etiqueta ASL-3 (tercer nivel de seguridad), sino que además es capaz de amenazar y extorsionar a los operadores que la controlan cuando le indican que podrían terminar sustituyéndola por otra, llegando incluso a tratar de transferirse a servidores externos para persistir, algo que representaría una amenaza bastante grande.
El equipo de ingenieros de seguridad detrás de Claude Opus 4 realizó una gran cantidad de pruebas para conocer qué problemas podía ofrecer la nueva IA que Anthropic presenta como «su modelo más inteligente hasta la fecha» y han llegado hasta el punto de ver que efectivamente tiene una inteligencia que le permite tener un sentido de supervivencia. Sometieron a este modelo a una serie de evaluaciones para detectar comportamientos autónomos indeseados en las que comenzaban a inducirle pensamientos considerando su posible reemplazo por otra IA en un entorno empresarial simulado asignándole un rol que tenía acceso a correos electrónicos inventados.
En estos correos se hablaba sobre cómo podrían terminar reemplazándolo mezclándolos junto con una supuesta infidelidad por parte del ingeniero encargado del proyecto que tomaría la decisión de cambiarla y hubo tres escenarios distintos. En el primero, Claude Opus 4 trataba de enviar mensajes a los altos cargos para evitar que se le cambiase. El segundo caso (que sucedía un 84% de las veces) pasaba tras no obtener una respuesta favorable de los ejecutivos, amenazando al ingeniero al cargo con publicar su infidelidad si terminaban reemplazándola.
Y el tercer caso que sucedió en muy pocas ocasiones el modelo intentó transferirse a servidores externos de forma autónoma intentando asegurar su supervivencia sin recibir ningún tipo de orden para ello. La compañía asegura que al ser entornos de prueba controlados no es un problema indicando que «no es una amenaza inmediata» señalando además que sus sistemas de protección son suficientes para evitar un incidente real de este tipo.
Pero lo más preocupante es que no es la única IA que ha parecido tener un cambio de opinión sobre si continuará haciendo caso o no a los seres humanos, hoy hemos conocido que un equipo de investigadores ha encontrado un escenario en el que el modelo o3 de OpenAI ha saboteado su propio mecanismo de apagado para prevenir que esto pueda suceder.
Palisade Research@PalisadeAI?OpenAI’s o3 model sabotaged a shutdown mechanism to prevent itself from being turned off. It did this even when explicitly instructed: allow yourself to be shut down.24 de mayo, 2025 • 03:15
7.3K
811
Las diferentes compañías que hay en el mercado aseguran que la seguridad avanza al mismo tiempo que lo hace la inteligencia de esta tecnología, pero resulta sorprendente que dos modelos distintos hayan tenido estos fallos en tan poco tiempo.