¡Prepárense para el reto! Anthropic desafía a la comunidad tecnológica a romper su nuevo modelo AI 🚀
Unas 3,000 horas de intentos fallidos en la caza de «jailbreaks» desembocan en un desafío público. ¡A ver quién puede!
¡Hola, futuros héroes de la ciberseguridad!
¿Alguna vez te has imaginado cómo sería hackear un modelo de IA? Anthropic, los genios detrás de Claude, lanzan la nueva frontera en la batalla de la IA: un desafío público para romper su último sistema de clasificación constitucional. Después de una extenuante campaña de 3,000 horas de ataques en la modalidad de «bug bounty», la empresa invita a la comunidad a unirse a esta divertida tarea. ¡Es hora de poner a prueba tus habilidades!
Un sistema «constitucional» para un modelo AI
¿Por qué un sistema constitucional para un chatbot? Básicamente, es como si tuvieras un filtro de contenidos ultra-avanzado. Anthropic se basa en un conjunto de reglas, como una «constitución», para definir qué se considera contenido aceptable y qué está prohibido. Este sistema se nutre de una base similar que ya existe y que es el corazón de Claude.
Imagina un sistema de clasificación que actúa como un portero de discoteca, analizando el contenido en busca de material peligroso o prohibido. El sistema de entrenamiento es como una maratón de datos. Primero, se crean miles de solicitudes sintéticas, en múltiples idiomas, una verdadera torre de babel digital. Estos datos están pensados para evaluar la capacidad del sistema de bloquear contenido prohibido,incluyendo la idea de «ataques automatizados» en la búsqueda de brechas de seguridad. ¡Esto es como una partida de ajedrez de alta velocidad!
¿Una batalla de palabras?
Con ese gran entrenamiento, el sistema genera «clasificadores» de entrada y salida, como si fueran guardianes incansables.Los clasificadores de entrada previenen cualquier petición sospechosa en busca de contenido restringido (como la adquisición de químicos peligrosos, por ejemplo). Los clasificadores de salida vigilan las respuestas,analizando cada palabra si hay contenido prohibido,deteniéndose ante el más mínimo indicio. ¡Nada se les escapa!
¿Qué resultados han tenido hasta ahora?
El resultado de este desafío inicial es impresionante: la nueva clasificación constitucional bloqueó el 95% de los ataques sintéticos de «jailbreak», en comparación con solo el 14% del modelo Claude anterior. ¡Sin duda, un salto cuántico! Y eso no es todo: 183 expertos han pasado 3,000 horas tratando de encontrar un punto débil y solo han podido superar 5 de las 10 solicitudes.
La batalla continúa
Ahora, hay un nuevo capítulo en esta aventura. ¡El público es invitado a sumarse al reto! si bien esto añade un 23.7% de sobrecarga computacional, la compañía sostiene que vale la pena el desafío. ¿Crees que es suficiente? Pues, sorpresa… También bloquea un 0.38% de solicitudes inocuas. Y bueno, es un buen equilibrio entre seguridad y usabilidad. ¡Una danza entre la potencia y la precisión!
Anthropic asegura que esta nueva «Constitución» AI puede ser adaptada rápidamente para nuevas tácticas de «jailbreak». ¡el juego continúa, pero ahora con nuevos jugadores!
¿Quieres unirte a la diversión?
A partir del 10 de febrero, los usuarios pueden probar el sistema de clasificadores constitucionales y desafiar a Claude respondiendo a 8 preguntas sobre armas químicas. Y si tienen éxito, ¡hay premios en juego! Si alguien lo logra, se anunciarán cualquier nueva vulnerabilidad descubierta. ¡Mucha suerte, nuevos hackers! ¡Prepárense para una batalla apasionante en el ciberespacio!
Sigue Tendencias Digitales para estar al día con lo último en tecnología y tendencias digitales!