- Messaggi
- 3,068
- Reazioni
- 1,298
- Punteggio
- 134
Non dico che sia da buttare, tuttavia ci sono molti punti in cui hanno cercato di gonfiare la roba. Il modello funziona e può essere usato. Ma l’hanno trainato su un cluster di. 750M euro di gpu e 600M di corrente, non hanno ottimizzato nulla, l’architettura alla base è un MoE, che seleziona un set di parametri da attivare per token(o set di token) e bastaOT on
Spetta spetta puoi tradurre per un comune mortale? Sto facendo girare ollama con llama3.1 e sta storia di Deepseek mi interessava molto. Dici che è fuffa?
Ho in coda il technical report, direi di avere tempo per smazzarlo settimana prossima, magari posso provare a portarlo su tom’s. Ma ci andrò giù pesante nel caso lo facessi.
Ps nulla da dire su ollama , ma se puoi permettertelo vai su nvidia triton e tensor rt llm