- Messaggi
- 3,268
- Reazioni
- 3
- Punteggio
- 115
Un sistema di scheduling a livello di token permette a una singola GPU di gestire più LLM, riducendo il fabbisogno da 1.192 a 213 H20.
https://www.tomshw.it/hardware/alibaba-cloud-riduce-luso-di-gpu-nvidia-dell82-2025-10-20
https://www.tomshw.it/hardware/alibaba-cloud-riduce-luso-di-gpu-nvidia-dell82-2025-10-20