DeepSeek Libera la Familia de Modelos R1 bajo Licencia MIT
Beijing, China – ¡Atención, entusiastas de la IA! DeepSeek ha liberado su familia de modelos R1 bajo una licencia MIT abierta, marcando un hito en el desarrollo de la inteligencia artificial. El modelo más grande cuenta con 671 mil millones de parámetros. ¡Agárrense!
DeepSeek afirma que el R1 se desempeña de manera comparable al modelo de razonamiento simulado (SR) o1 de OpenAI en varias pruebas de matemáticas y codificación. Esto representa un avance significativo, ya que la mayoría de los modelos de pesos abiertos disponibles hasta la fecha han quedado rezagados respecto a los modelos propietarios en estas pruebas.
Rendimiento y Disponibilidad
Además del modelo principal DeepSeek-R1-Zero y DeepSeek-R1, se han publicado seis versiones «DeepSeek-R1-distill» más pequeñas, con parámetros que van de 1.5 mil millones a 70 mil millones. Estas versiones, basadas en arquitecturas de código abierto como Qwen y Llama, son entrenables en hardware local. ¡La versión más pequeña puede ejecutarse en una computadora portátil! 🤯
«son MUY divertidas de ejecutar; verlas pensar es hilarante,» comentó Simon Willison, investigador independiente de IA, en un mensaje de texto. Willison probó uno de los modelos más pequeños y describió su experiencia en su blog:
Cada respuesta comienza con una etiqueta pseudo-XML <think>…</think> que contiene la cadena de pensamiento utilizada para generar la respuesta.
Razonamiento Simulado
El modelo R1 se diferencia de los modelos de lenguaje extenso (LLM) típicos al incorporar un enfoque de razonamiento en tiempo de inferencia. Este enfoque, similar al de los modelos SR de OpenAI, simula una cadena de pensamiento similar a la humana. Si bien requieren más tiempo de procesamiento, esta característica mejora el rendimiento en tareas complejas de matemáticas, física y ciencias! Es como si el modelo se tomara un «tiempo para pensar» antes de dar la respuesta.
Según DeepSeek, el R1 superó al o1 de OpenAI en pruebas como AIME, MATH-500 y SWE-bench Verified. Es importante destacar que estos resultados aún requieren verificación independiente,¡así que mantendremos un ojo avizor!
Implicaciones y Limitaciones
Tres laboratorios chinos—DeepSeek,Alibaba y Moonshot AI’s Kimi—han lanzado modelos que,según afirman,igualan las capacidades del o1. Sin embargo, la versión alojada en la nube del R1 presenta limitaciones debido a las regulaciones de internet chinas.No generará respuestas sobre temas como la Plaza de Tiananmen o la autonomía de Taiwán.Esta limitación no afecta a las versiones ejecutadas localmente fuera de China, ¡así que la libertad de pensamiento persiste en esos casos!
A pesar de estas restricciones, Dean Ball, investigador de IA en la Universidad George Mason, escribió en X: «El impresionante rendimiento de los modelos destilados de DeepSeek (versiones más pequeñas del r1) significa que los razonadores muy capaces continuarán proliferando ampliamente y se podrán ejecutar en hardware local, lejos de los ojos de cualquier régimen de control de arriba hacia abajo.»
El lanzamiento del R1 representa un avance significativo para la comunidad de código abierto de IA, pero también resalta los desafíos geopolíticos en el desarrollo global de esta tecnología. ¡El futuro de la IA es brillante, pero también complejo!
¡Sigue tendencias Digitales para estar al día con lo último en tecnología y tendencias digitales!