*Tema mítico* : Deepseek lo cambia todo: cisne zaino en ciernes

¿Cómo? Repensaron todo desde cero. La IA tradicional es como escribir cada número con 32 decimales. DeepSeek pensó: "¿Qué pasaría si usáramos 8? ¡Sigue siendo lo suficientemente preciso!". ¡Bum! Se necesita un 75 % menos de memoria.


Y aquí está el truco: DeepSeek hizo esto con un equipo de < 200 personas.

@dischcatfish @Lorenzo Ramirhez

Explicadnos a todos por qué chatGPT no les dijo a sus creadores que hicieran eso.

Y explicadnos cómo es eso que un puñado de tíos pensando hayan castiga*do a los gurús que imitáis con el dedito en el pandero, y a sus miles de trillones de petrodólares.
 
Tío, que no sabes de lo que hablas jajajajajaj

Overcuñao, no necesitas ni la H para los servicios y outputearlos, que hay 9 modelos, tiras del qwq más pequeño y pista.

besugo, ponte con la oposición

Pero entiendes que los modelos pequeños no te valen una miércoles en una gran empresa?

Has trabajado alguna vez con aplicaciones de alta disponibilidad/alto tráfico?

Sabes lo que es computar millones de datos en segundos, curarlos, procesarlos...
 
Te pongo un ejemplo concreto:
Quiero entrenar un modelo de segmentación 3D de fracturas de cráneo humano a partir de TACs con una resolución de voxel de 1x1x1mm.

Para entrenar el modelo necesitaré:
- Entrada: Miles de TCs de fracturas de cráneo en humanos con esa resolución. Difícil porque son relativamente pocos casos y están en las intranets de los PACs de los distintos hospitales.
- Salida: Segmentaciones de esos TACs para entrenar ese modelo en concreto. No hay. Hay que hacerlas a mano y hacer cada una de ellas es un trabajo de ne.gros. Necesitas a un ejército de machacas que las haga.

Y pa qué quieres eso??? jaja ke loko tio n me rayes
 
Te pongo un ejemplo concreto:
Quiero entrenar un modelo de segmentación 3D de fracturas de cráneo humano a partir de TACs con una resolución de voxel de 1x1x1mm.

Para entrenar el modelo necesitaré:
- Entrada: Miles de TCs de fracturas de cráneo en humanos con esa resolución. Difícil porque son relativamente pocos casos y están en las intranets de los PACs de los distintos hospitales.
- Salida: Segmentaciones de esos TACs para entrenar ese modelo en concreto. No hay. Hay que hacerlas a mano y hacer cada una de ellas es un trabajo de ne.gros. Necesitas a un ejército de machacas que las haga.

Vienes a predicar en el desierto. Entre trolls y cuñaos este hilo vale una miércoles y media
 
Gran comentario de Carlos Santana en Twitter:

Ostras, la gente está sacando demasiado de contexto lo de DeepSeek.Sí es un gran avance académico. Sí es un muy buen modelo y alternativa open source para los usuarios. Y sí añade presión extra a los labs de IA. Pero no es el fin de nada, y menos una desventaja para las big corps.

Pensad que lo que demuestra la aparición de DeepSeek es que se puede entrenar un modelo state-of-the-art sin tantos recursos. ¿Le resta ventaja a las grandes empresas que tanto han invertido en recursos computacionales? No. Aprovecharán estos avances compartidos en abierto para entrenar modelos aún más potentes llevando al máximo sus capacidades de computación.Y eso hablando de entrenar, pero si hablamos de inferencia ellos encantados de contar con mejores modelos que poder ejecutar en enormes sus enormes centros de computación. Da igual si es made in China o made in California.Lo que pone DeepSeek sobre la mesa es que el entrenar modelos no es algo exclusivo de unas pocas empresas. Eso sí, el ejecutarlo aún dependerá de quien tenga la computación.

Y ese es el moat del futuro. El que tenga acceso a la computación (y a la energía) es el que podrá exprimir estos modelos para obtener fuerza de trabajo automática e inteligencia bajo demanda. Y entre más mejor.Por lo tanto no. Las 7 magníficas no están precisamente mal posicionadas para el futuro al que vamos. De hecho posiblemente lo estén mejor que ninguna otra empresa.Analizad las cosas con un poco de cabeza y sin tanto tremendismo.
 
@dischcatfish @Lorenzo Ramirhez

Explicadnos a todos por qué chatGPT no les dijo a sus creadores que hicieran eso.

Y explicadnos cómo es eso que un puñado de tíos pensando hayan castiga*do a los gurús que imitáis con el dedito en el pandero, y a sus miles de trillones de petrodólares.
Sencillo melón, deepseek corre sobre llama3 y qwq, ambas derivaciones de llama 2

El proceso computacional no es de 5 m, es dependiente de el de Facebook del que no hay datos.

La IA responde el modelo picateclero, todos ganan con más inversión y gasto y subida de acciones

Solo un melón de soporte creería que yo voy con Sam altman, voy la IA, y espero que te mate.
 
Pero entiendes que los modelos pequeños no te valen una miércoles en una gran empresa?

Has trabajado alguna vez con aplicaciones de alta disponibilidad/alto tráfico?

Sabes lo que es computar millones de datos en segundos, curarlos, procesarlos...
Pero a ver, over tolai, que todas las empresas podrán sacar deepseek, que nadie va a tener 3 millones de usuarios ajajajajajjajaj

Se acaba de democratizar
 
No me vale. Yo quiero lentillas y pinganillos con altas capacidades de procesamiento, conectividad y razonamiento para convertirme en un cyborg que todo lo ve, todo lo oye y todo lo sabe.

Y ya dejarte dejarte ir y que piense, actúe y hable por ti, porque a esas alturas ya hasta abrir la boca para hablar dará una pereza enorme.

Podremos generar ingresos pasivos alquilando nuestro propio cuerpo a la IA, dedicarnos a dormir en un estado de trance permanente mientras nuestro cuerpo físico va y viene haciendo cosas que sólo recordamos vagamente, como sueños difusos.

Hasta que los robots y drones controlados por la misma IA sean más eficientes que nuestro cuerpo obsoleto y decida descartarnos. Hileras de personas esperando con paciencia su turno para tirarse plácidamente a una trituradora de carne, y por el extremo opuesto saliendo la biomasa ya procesada, lista para ser usada como combustible.
rLFaldh.jpg

Pero con pelazo
 
Te pongo un ejemplo concreto:
Quiero entrenar un modelo de segmentación 3D de fracturas de cráneo humano a partir de TACs con una resolución de voxel de 1x1x1mm.

Para entrenar el modelo necesitaré:
- Entrada: Miles de TCs de fracturas de cráneo en humanos con esa resolución. Difícil porque son relativamente pocos casos y están en las intranets de los PACs de los distintos hospitales.
- Salida: Segmentaciones de esos TACs para entrenar ese modelo en concreto. No hay. Hay que hacerlas a mano y hacer cada una de ellas es un trabajo de ne.gros. Necesitas a un ejército de machacas que las haga.

Bueno voy a responder algo más sensato.

Eso que tu dices, es lo que tenía que estar haciendo la sanidad pública en vez de montar observatorios de colocación para amigos de pedro juancho, y modelos de lenguaje copiados de lama a precio de modelo fundacional vendidos como "ia propia" que no sirven para nada.

Lo van a hacer?

No.

Ellos tienen los datos, y ellos tienen los medios.

En Hezpaña de miércoles la IA sólo va a tener un uso: cobrar más impuestos.

Y por cierto, estan tardando en lanzar IAs autonómicas, IAs catalanas, IAs vascas, IAs en perspectiva de género, apuesto a que veremos esas maravillas del progreso antes de verano, cada una con su respectiva campaña y promoción en los medios.
 
Última edición:
Let me break down why DeepSeek's AI innovations are blowing people's minds (and possibly threatening Nvidia's $2T market cap) in simple terms...

0/ first off, shout out to @doodlestein who wrote the must-read on this here: The Short Case for Nvidia Stock

All the reasons why Nvidia will have a very hard time living up to the currently lofty expectations of the market.

1/ First, some context: Right now, training top AI models is INSANELY expensive. OpenAI, Anthropic, etc. spend $100M+ just on compute. They need massive data centers with thousands of $40K GPUs. It's like needing a whole power plant to run a factory.

2/ DeepSeek just showed up and said "LOL what if we did this for $5M instead?" And they didn't just talk - they actually DID it. Their models match or beat GPT-4 and Claude on many tasks. The AI world is (as my teenagers say) shook.

3/ How? They rethought everything from the ground up. Traditional AI is like writing every number with 32 decimal places. DeepSeek was like "what if we just used 8? It's still accurate enough!" Boom - 75% less memory needed.

4/ Then there's their "multi-token" system. Normal AI reads like a first-grader: "The... cat... sat..." DeepSeek reads in whole phrases at once. 2x faster, 90% as accurate. When you're processing billions of words, this MATTERS.

5/ But here's the really clever bit: They built an "expert system." Instead of one massive AI trying to know everything (like having one person be a doctor, lawyer, AND engineer), they have specialized experts that only wake up when needed.

6/ Traditional models? All 1.8 trillion parameters active ALL THE TIME. DeepSeek? 671B total but only 37B active at once. It's like having a huge team but only calling in the experts you actually need for each task.

7/ The results are mind-blowing:

  • Training cost: $100M → $5M
  • GPUs needed: 100,000 → 2,000
  • API costs: 95% cheaper
  • Can run on gaming GPUs instead of data center hardware
8/ "But wait," you might say, "there must be a catch!" That's the wild part - it's all open source. Anyone can check their work. The code is public. The technical papers explain everything. It's not magic, just incredibly clever engineering.

9/ Why does this matter? Because it breaks the model of "only huge tech companies can play in AI." You don't need a billion-dollar data center anymore. A few good GPUs might do it.

10/ For Nvidia, this is scary. Their entire business model is built on selling super expensive GPUs with 90% margins. If everyone can suddenly do AI with regular gaming GPUs... well, you see the problem.

11/ And here's the kicker: DeepSeek did this with a team of <200 people. Meanwhile, Meta has teams where the compensation alone exceeds DeepSeek's entire training budget... and their models aren't as good.

12/ This is a classic disruption story: Incumbents optimize existing processes, while disruptors rethink the fundamental approach. DeepSeek asked "what if we just did this smarter instead of throwing more hardware at it?"

13/ The implications are huge:

  • AI development becomes more accessible
  • Competition increases dramatically
  • The "moats" of big tech companies look more like puddles
  • Hardware requirements (and costs) plummet
14/ Of course, giants like OpenAI and Anthropic won't stand still. They're probably already implementing these innovations. But the efficiency genie is out of the bottle - there's no going back to the "just throw more GPUs at it" approach.

15/ Final thought: This feels like one of those moments we'll look back on as an inflection point. Like when PCs made mainframes less relevant, or when cloud computing changed everything.

AI is about to become a lot more accessible, and a lot less expensive. The question isn't if this will disrupt the current players, but how fast.
 
Several important questions/comments come to my mind as I read more about DeepSeek. Listing them here:

1) Let’s give 1% probability to all the conspiracy theories upfront so we can address it and move on. If it is possible for China/Chinese companies to use shell companies in Singapore or other countries to be a “beard” to buy otherwise export controlled chips from Nvidia and use them for AI training, this likely needs to be investigated and adjudicated.

2) The battle of usage is now more about AI inference vs Training. We always knew this day would come but it probably surprised many that it could be this weekend. With a model this cheap, many new products and experiences can now emerge trying to win the hearts and minds of the global populace. Team USA needs to win here. To that point, while we may still want to export control AI Training chips, we should probably view Inference chips differently - we should want everyone around the world using our solutions over others. I can explain my reasoning as ***ows: we should never export our knowledge of enriching uranium to be weapons grade to other countries but we should export our ability to build nuclear energy (which requires far less sophistication) if it can help advance American priorities and leadership abroad. Training and Inference can be roughly equated this way. (Disclaimer: Groq, of which I’m a shareholder, is in this game so this benefits me tbf.)

3) We need to cooperate with our allies (especially those in the ME) to stand up the necessary infrastructure to enable Inference - Data centers, subsidized energy etc. all around the world ASAP.. They pay to build it, we supply the Inference hardware and the software to run the clouds. We need this buildout to happen ASAP. This is clearly our version of Belt and Road and we need to take it as seriously as China took their version, similarly named.

4) There will be volatility in the stock market as capital markets absorb all of this information and re-price the values of the Mag7. Tesla is the least exposed, the rest are exposed as a direct function of the amount of CapEx they have publicly announced. Nvidia is the most at risk for obvious reasons. That said, markets will love it if Meta, Microsoft, Google etc can win WITHOUT having to spend $50-80B PER YEAR.

5) The innovation from China speaks to how “asleep” we’ve been for the past 15 years. We’ve been running towards the big money/shiny object spending programs (AI is not the first and it likely won’t be the last) where we (Team USA) have thrown hundreds of billions of dollars at a problem vs thinking through the problem more cleverly and using resource constraints as an enabler. Let’s get our act together. We need all the bumbling middle managers out of the way - let the engineers and the brilliant folks we have actually working on this stuff to cook! More spending, more meetings, more oversight, more weekly reports and the like does not equate to more innovation. Unburden our technical stars to do their magic.

6) Startups need to realize that they are “default dead” companies. This means that they must, by definition, grasp victory from the jaws of defeat. Meanwhile, VCs are asleep at the switch - massively overfunding marginal ideas. We need to get better at taking huge shots on goal and allocating capital to the best of these ideas. I worry that in this current melee, we’ve overspent billions on dumb antiestéticatures which these next-gen models will roll over in the next 12months or earlier. Lots of capital losses are coming.

Crazily, I initially posted about DeepSeek a month ago!
 
Esto es lo que opinnan los grandes de wall street

Hoy viene rojo usa, muy rojo.

Esto es un momento Sputnik de la iA

Vamos una bofetada a mano abierta a los Tech Bros (500 mil minolles se iban a gastar y han quedado hechos añicos)
 

En premarket ; NVDA : -11,10 % $MSFT : -6,12 % $COIN : -5,44 % AMZN : -4,97 % AMD : -4,73 % MSTR : -4,64 % META : -4,34 % GOOGL : -4,03 %​

 
Volver