Finalmente tuve la oportunidad de profundizar en el r1 de DeepSeek…Permítanme explicar por qué las innovaciones de inteligencia artificial de DeepSeek están sorprendiendo a la gente (y posiblemente amenazando la capitalización de mercado de 2 billones de dólares de Nvidia) en términos simples...
Primero, un poco de contexto: en este momento, entrenar a los mejores modelos de IA es increíblemente caro. OpenAI, Anthropic, etc. gastan más de 100 millones de dólares solo en computación. Necesitan centros de datos enormes con miles de GPU de 40 000 dólares. Es como necesitar una planta de energía completa para hacer funcionar una fábrica.
DeepSeek simplemente apareció y dijo: "LOL, ¿qué pasaría si hiciéramos esto por 5 millones de dólares?" Y no solo hablaron, realmente lo HICIERON. Sus modelos igualan o superan a GPT-4 y Claude en muchas tareas. El mundo de la IA está (como dicen mis hijos adolescentes) conmocionado.
¿Cómo? Repensaron todo desde cero. La IA tradicional es como escribir cada número con 32 decimales. DeepSeek pensó: "¿Qué pasaría si usáramos 8? ¡Sigue siendo lo suficientemente preciso!". ¡Bum! Se necesita un 75 % menos de memoria.
Luego está su sistema de "tokens múltiples". La IA normal lee como un alumno de primer grado: "El... gato... se sentó..." DeepSeek lee frases completas a la vez. Es dos veces más rápido y tiene un 90 % de precisión. Cuando se procesan miles de millones de palabras, esto IMPORTA.
Pero lo más ingenioso es que crearon un "sistema experto". En lugar de una IA masiva que intenta saberlo todo (como si una persona fuera médico, abogado e ingeniero), tienen expertos especializados que solo se activan cuando es necesario.
¿Modelos tradicionales? Los 1,8 billones de parámetros están activos TODO EL TIEMPO. ¿DeepSeek? 671 mil millones en total, pero solo 37 mil millones están activos a la vez. Es como tener un equipo enorme, pero solo llamar a los expertos que realmente necesitas para cada tarea.
Los resultados son alucinantes:
- Costo de capacitación: $100M → $5M
- GPU necesarias: 100 000 → 2000
- Costes API: 95% más baratos
- Puede ejecutarse en GPU para juegos en lugar de hardware de centro de datos
"Pero espera", podrías decir, "¡debe haber una trampa!". Esa es la parte más interesante: todo es de código abierto. Cualquiera puede comprobar su trabajo. El código es público. Los documentos técnicos lo explican todo. No es magia, solo ingeniería increíblemente inteligente.
¿Por qué es importante? Porque rompe con el modelo de que “sólo las grandes empresas tecnológicas pueden participar en la IA”. Ya no es necesario un centro de datos de mil millones de dólares. Unas cuantas GPU de calidad podrían ser suficientes.
Para Nvidia, esto es aterrador. Todo su modelo de negocio se basa en la venta de GPU supercaras con márgenes del 90 %. Si de repente todo el mundo puede hacer IA con GPU para juegos normales... bueno, ya ves el problema.
Y aquí está el truco: DeepSeek hizo esto con un equipo de < 200 personas. Mientras tanto, Meta tiene equipos donde la compensación por sí sola excede el presupuesto de capacitación total de DeepSeek... y sus modelos no son tan buenos.
Esta es una historia clásica de disrupción: los incumbentes optimizan los procesos existentes, mientras que los disruptores replantean el enfoque fundamental. DeepSeek se preguntó "¿qué pasaría si simplemente hiciéramos esto de manera más inteligente en lugar de agregarle más hardware?"
Las implicaciones son enormes:
- El desarrollo de IA se vuelve más accesible
- La competencia aumenta drásticamente
- Los "fosos" de las grandes empresas tecnológicas parecen más bien charcos
- Los requisitos de hardware (y los costos) se desploman
Por supuesto, gigantes como OpenAI y Anthropic no se quedarán de brazos cruzados. Probablemente ya estén implementando estas innovaciones. Pero el genio de la eficiencia ya salió de la botella: no hay vuelta atrás al enfoque de "simplemente agregarle más GPU"
Reflexión final: Parece que este es uno de esos momentos que recordaremos como un punto de inflexión, como cuando las PC hicieron que los mainframes perdieran relevancia o cuando la computación en la nube lo cambió todo.La IA está a punto de volverse mucho más accesible y mucho más barata. La pregunta no es si esto afectará a los actores actuales, sino con qué rapidez.
/fin
PD: Sí, todo esto está disponible en código abierto. Puedes probar sus modelos ahora mismo. ¡Vivimos tiempos locos!