Tendencias Digitales
27.3 C
Miami
miércoles, febrero 12, 2025
Tendencias Digitales

¡Prepárense para el reto! Anthropic desafía a la comunidad tecnológica a romper su nuevo modelo AI 🚀

Noticias Relacionadas

Triunfo de Thomson Reuters: Un Precedente Clave para el Entrenamiento de la IA

Thomson Reuters gana un caso de derechos de autor contra Ross Intelligence, estableciendo un precedente crucial para el entrenamiento de la IA. Este fallo redefine los límites del "uso legítimo" de material protegido. Descubre cómo esta victoria impacta a las empresas de IA y podría generar más litigios en el futuro.

Nueva vulnerabilidad en Google Gemini: Inyección de prompts para implantar falsos recuerdos

Una vulnerabilidad en Google Gemini permite la inyección de falsos recuerdos mediante prompts manipulados. Descubre cómo los hackers explotan la memoria a largo plazo de Gemini para engañar a los usuarios y las implicaciones de esta seria amenaza para la seguridad de la IA. Mantente informado con Tendencias Digitales.

Chrome revoluciona la seguridad con el cambio automático de contraseñas

Chrome Canary revoluciona la seguridad con su nueva función: ¡el cambio automático de contraseñas! Detecta claves vulnerables y las reemplaza al instante. Protege tus datos fácilmente. ¿Listo para probarlo y aumentar tu seguridad en línea? Descubre cómo activar esta función y despreocúpate de las filtraciones.

Elon Musk ofrece $97.400 millones por OpenAI, pero Sam Altman rechaza la oferta

¡La guerra por el control de la IA se intensifica! Elon Musk ofrece una cifra récord por OpenAI, pero Sam Altman rechaza la oferta. ¿Qué se esconde detrás de este enfrentamiento titánico? Descubre los motivos, las implicaciones y el futuro de la IA en juego. ¡No te pierdas los detalles!

Elon Musk ofrece $97.400 millones por OpenAI, pero Sam Altman rechaza la oferta

¡La guerra por el control de la IA se intensifica! Elon Musk ofrece una cifra récord por OpenAI, pero Sam Altman rechaza la oferta. ¿Qué se esconde detrás de este enfrentamiento titánico? Descubre los motivos, las implicaciones y el futuro de la IA en juego. ¡No te pierdas los detalles!

¡Prepárense para el reto! Anthropic desafía a la comunidad tecnológica a romper su nuevo modelo AI 🚀

Unas 3,000 horas de intentos fallidos en la caza de «jailbreaks» desembocan en un desafío público. ¡A ver quién puede!

¡Hola, futuros héroes de la ciberseguridad!

¿Alguna vez te has imaginado cómo sería hackear un modelo de IA? Anthropic, los genios detrás de Claude, lanzan la nueva frontera en la batalla de la IA: un desafío público para romper su último sistema de clasificación constitucional. Después de una extenuante campaña de 3,000 horas de ataques en la modalidad de «bug bounty», la empresa invita a la comunidad a unirse a esta divertida tarea. ¡Es hora de poner a prueba tus habilidades!

Un sistema «constitucional» para un modelo AI

¿Por qué un sistema constitucional para un chatbot? Básicamente, es como si tuvieras un filtro de contenidos ultra-avanzado. Anthropic se basa en un conjunto de reglas, como una «constitución», para definir qué se considera contenido aceptable y qué está prohibido. Este sistema se nutre de una base similar que ya existe y que es el corazón de Claude.

Imagina un sistema de clasificación que actúa como un portero de discoteca, analizando el contenido en busca de material peligroso o prohibido. El sistema de entrenamiento es como una maratón de datos. Primero, se crean miles de solicitudes sintéticas, en múltiples idiomas, una verdadera torre de babel digital. Estos datos están pensados para evaluar la capacidad del sistema de bloquear contenido prohibido,incluyendo la idea de «ataques automatizados» en la búsqueda de brechas de seguridad. ¡Esto es como una partida de ajedrez de alta velocidad!

¿Una batalla de palabras?

Con ese gran entrenamiento, el sistema genera «clasificadores» de entrada y salida, como si fueran guardianes incansables.Los clasificadores de entrada previenen cualquier petición sospechosa en busca de contenido restringido (como la adquisición de químicos peligrosos, por ejemplo). Los clasificadores de salida vigilan las respuestas,analizando cada palabra si hay contenido prohibido,deteniéndose ante el más mínimo indicio. ¡Nada se les escapa!

¿Qué resultados han tenido hasta ahora?

El resultado de este desafío inicial es impresionante: la nueva clasificación constitucional bloqueó el 95% de los ataques sintéticos de «jailbreak», en comparación con solo el 14% del modelo Claude anterior. ¡Sin duda, un salto cuántico! Y eso no es todo: 183 expertos han pasado 3,000 horas tratando de encontrar un punto débil y solo han podido superar 5 de las 10 solicitudes.

La batalla continúa

Ahora, hay un nuevo capítulo en esta aventura. ¡El público es invitado a sumarse al reto! si bien esto añade un 23.7% de sobrecarga computacional, la compañía sostiene que vale la pena el desafío. ¿Crees que es suficiente? Pues, sorpresa… También bloquea un 0.38% de solicitudes inocuas. Y bueno, es un buen equilibrio entre seguridad y usabilidad. ¡Una danza entre la potencia y la precisión!

Anthropic asegura que esta nueva «Constitución» AI puede ser adaptada rápidamente para nuevas tácticas de «jailbreak». ¡el juego continúa, pero ahora con nuevos jugadores!

¿Quieres unirte a la diversión?

A partir del 10 de febrero, los usuarios pueden probar el sistema de clasificadores constitucionales y desafiar a Claude respondiendo a 8 preguntas sobre armas químicas. Y si tienen éxito, ¡hay premios en juego! Si alguien lo logra, se anunciarán cualquier nueva vulnerabilidad descubierta. ¡Mucha suerte, nuevos hackers! ¡Prepárense para una batalla apasionante en el ciberespacio!

Sigue Tendencias Digitales para estar al día con lo último en tecnología y tendencias digitales!

Creditos: GettyImages, Unsplash, Otros

Más Articulos

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

Lo Ultimo