PC per modelli AI. Mi aiutate con la dissipazione del calore di 3 5090?

  • Autore discussione Autore discussione guz
  • Data d'inizio Data d'inizio
Pubblicità

guz

Nuovo Utente
Messaggi
10
Reazioni
2
Punteggio
26
Come da oggetto, avrei bisogno di fare un PC un po' carrozzato perchè ho necessità di fare girare contemporaneamente 2 modelli di intelligenza artificiale. Il problema che rilevo, e che spero mi aiutiate a risolvere è legato al calore che produrranno 3 Nvidia 5090 e 1 threadripper nello stesso case. Ho visto soluzioni compatte con waterblock+ventole, ma in una situazione del genere secondo me servirebbe un sistema di raffreddamento a liquido custom, e non vi nascondo che sono neofita in materia e già un po al limite come budget.
Giusto per info lavorerà in un ambiente diverso dal CED, ma ugualmente con doppio condizionatore h24x7.
Grazie a chiunque mi aiuterà
CASE
Thermaltake Tower 900 Black Edition – Full Tower E-ATX
ALIMENTATORE
Seasonic Prime PX-2200 ATX 3.1
SCHEDA MADRE
ASUS Pro WS TRX50-SAGE WIFI A (3 slot pcie 5 16x)
SCHEDA VIDEO
Gigabyte GeForce RTX 5090 GAMING OC 32GB — Quantità: 3
CPU
AMD Ryzen Threadripper 9960X
DISSIPATORE
Noctua NH-U14S TR5-SP6
RAM
Kingston FURY Renegade Pro XMP — 128GB DDR5 ECC Reg (Kit 4)
STORAGE
Samsung 9100 PRO — SSD NVMe 2TB PCIe 5.0
Qui di solito raccolgo come promemoria suggerimenti o sostituzioni dei componenti scelti
CASE
papabile https://amzn.to/479BLs8
3 schede video
sostituzione certa - Inno3D GeForce RTX 5090 iChill Frostbite 32GB (già dotate di WB - occupano 2 slot - verificare spaziatura PCIe )
Da verificare
Può convenire mettere 2 pompe sempre attive come ridondanza così elimino il disastro in caso di fallimento di una pompa?
 
Ultima modifica da un moderatore:
Thermaltake Tower 900 Black Edition – Full Tower E-ATX
una vetrina al posto di un case serio? solo quello ti fa salire le temperature, prendi questo, in modo da avere 3 ventole indipendenti solo sulle gpu
Gigabyte GeForce RTX 5090 GAMING OC 32GB — Quantità: 3
custom non delle migliori, quanto vai a pagarle (singola)?
 
Metti questo come AIO e sei a posto lato CPU:
Meglio ancora questo:
Col case Enthoo solo sul front. Meglio il 360 sul top
Hanno entrambi la pompa sul radiatore per ragioni di compatibilità sul socket.
 
Ultima modifica:
una vetrina al posto di un case serio? solo quello ti fa salire le temperature, prendi questo, in modo da avere 3 ventole indipendenti solo sulle gpu

custom non delle migliori, quanto vai a pagarle (singola)?
pensavo di avere scelto bene, nel senso che in configurazioni con 3 gpu e liquido mi piaceva stare largo. metto comunque il tuo case tra i papabili perchè serio è serio . grazie
 
pensavo di avere scelto bene, nel senso che in configurazioni con 3 gpu e liquido mi piaceva stare largo. metto comunque il tuo case tra i papabili perchè serio è serio . grazie
quella versione del case è fatta per i server da rendering (ha supporti per un sistema multi gpu o per NAS), l'altra versione supporta 2 pc (1 ATX e 1 ITX) nello stesso case con doppio alimentatore, per farti capire quanto è grande
 
Scusa, se posso, ma cosa devi fare di preciso? Inferenza di modelli llm? Guarda che le 5090 sono potenti, ma hanno quantitativi ridicoli di vram. Sei sicuro che usare 3 GPU top di gamma ma comunque da gaming sia la scelta giusta?
 
Scusa, se posso, ma cosa devi fare di preciso? Inferenza di modelli llm? Guarda che le 5090 sono potenti, ma hanno quantitativi ridicoli di vram. Sei sicuro che usare 3 GPU top di gamma ma comunque da gaming sia la scelta giusta?
Qui fa vedere che le sue due 4090 vanno meglio del nuovo DGX Spark di Nvidia. Ovviamente per far girare modelli già pronti. Il nuovo gingillo di Nvidia è il non plus ultra per la creazione di LLM personalizzati da quel che ho capito.
 
Ottimo punto, Jesse
Le 5090 sono potenti, nessuno lo mette in dubbio. Pero' hanno una quantita' molto limitata di memoria (per l'AI, in relazione alla loro potenza; per i videogame credo che vada piu' che bene).
Questo Nvidia lo sa, ovviamente, ma si guarda bene dal proporre una 5090 con 128 GB di memoria, perchè andrebbe a pestare i piedi ad altri suoi modelli di classe data center.
I modelli deep learning piccolini che si usano quando si vuole fare vedere quanto bene va la 5090 hanno un sacco di difetti, ad esempio allucinazioni molto pesanti. Io ho accantonato i distillati di deep seek dopo che alla mia richiesta di parlare del Rinascimento italiano hanno esordito parlando di Leonardo da Vinci - perfetto - poi hanno cominciato a inventare di sana pianta nomi e cognomi di personaggi storici mai esistiti.
Gli LLM sono una grandissima cosa, ma sotto una certa soglia di dimensioni e complessità computazionale non si puo' andare, almeno con la tecnologia corrente.
Alla fine un sistema multi-5090 come quello di cui si parla qui, secondo il mio personalissimo parere non brilla in nulla:
- se devi fare sviluppo ti serve piu' memoria, perche' il training è "ingordo" ;
- se sei un'azienda che deve fare inferenza come servizio cloud allora serve qualcosa di piu' professionale e stabile, anche economicamente piu' sostenibile nel tempo. Hai visto il costo elettricita'/anno del sistema nel video che hai linkato? E quello ha 2 5090, qui si parla di metterne 3...

@guz: hai gia' scartato l'ipotesi di un servizio cloud?
 
Ultima modifica:
Io vi devo davvero ringraziare perchè trovare criticità prima di pagare è molto meglio che dopo :)

Io devo mettere questo sistema offline, altrimenti avrei usato le GPU che abbiamo in aws. Verrà usato in un programma interno che deve fare riassunti su tante relazioni scritte e verificare da un punto di vista legale quali sono eventuali estremi di reato citando correttamente le leggi.

Le 3 5090 persavo di usarle con vLLM e con tensor parallelism avrei diviso il modello e la kvcache sulle 3 vram.
Onestamente mi sembrava fattibile con un MOE come un qwen3 next da 80b.
Quantizzato a 4bit ogni 5090 dovrebbe avere circa 17 o 18GB di pesi su ogni vram.
La KVcache la riducevo a FP8 e avevo calcolato che con le 3 5090 per contesti fino a 32k restavo in vram, poi eventualmente per contesti più lunghi si potrebbe fare swap sulla ram come ultima spiaggia.

Anzi addirittura avevo pensato, nei momenti in cui si deve fare sviluppo di lasciare solo 2 schede a quel modello e caricare devstral 24b su una 5090 per usarlo come esecutore avendo qwen3 come plan e verificatore del codice scritto.
Se sono stato troppo ottimista abandono l'idea e vedrò come fargli accettare l'uso di internet nell'infrastruttura perchè purtropo ci sno dei vincoli sul fatto che nulla deve uscire o roba simile.
Probabilmente se accettassero di mandare i documenti in claude su AWS sarebbe la soluzione migliore e nel frattempo, magari 1 o due anni le NPU di AMD faranno miracoli e la DDR6 aiuterà ad avere LLM a prezzi contenuti.
Oppure avere altri suggerimenti? Una H100 è fuori budget..
Grazie
 
Ultima modifica:
Io vi devo davvero ringraziare perchè trovare criticità prima di pagare è molto meglio che dopo :)

Io devo mettere questo sistema offline, altrimenti avrei usato le GPU che abbiamo in aws. Verrà usato in un programma interno che deve fare riassunti su tante relazioni scritte e verificare da un punto di vista legale quali sono eventuali estremi di reato citando correttamente le leggi.

Le 3 5090 persavo di usarle con vLLM e con tensor parallelism avrei diviso il modello e la kvcache sulle 3 vram.
Onestamente mi sembrava fattibile con un MOE come un qwen3 next da 80b.
Quantizzato a 4bit ogni 5090 dovrebbe avere circa 17 o 18GB di pesi su ogni vram.
La KVcache la riducevo a FP8 e avevo calcolato che con le 3 5090 per contesti fino a 32k restavo in vram, poi eventualmente per contesti più lunghi si potrebbe fare swap sulla ram come ultima spiaggia.

Anzi addirittura avevo pensato, nei momenti in cui si deve fare sviluppo di lasciare solo 2 schede a quel modello e caricare devstral 24b su una 5090 per usarlo come esecutore avendo qwen3 come plan e verificatore del codice scritto.
Se sono stato troppo ottimista abandono l'idea e vedrò come fargli accettare l'uso di internet nell'infrastruttura perchè purtropo ci sno dei vincoli sul fatto che nulla deve uscire o roba simile.
Probabilmente se accettassero di mandare i documenti in claude su AWS sarebbe la soluzione migliore e nel frattempo, magari 1 o due anni le NPU di AMD faranno miracoli e la DDR6 aiuterà ad avere LLM a prezzi contenuti.
Oppure avere altri suggerimenti? Una H100 è fuori budget..
Grazie
Una rtx 6000 pro 96 GB? Non ti discosti molto dal costo di 3 5090...
 
Una rtx 6000 pro 96 GB? Non ti discosti molto dal costo di 3 5090...
Mi piace come soluzione. Non avrei bisogno del liquido e se metto una sola scheda non ho nemmeno bisogno del threadripper giusto? Cioè non avendo più bisogno di 3 pcie 5.0 da 16x potrei risparmiare un sacco prendendo un buon ryzen 9 con 256gb di ram non ECC.
A questo punto spendo meno facendo 2 pc distinti, 1 per il modello qweb da 80b e l'altro PC per il devstral su cui potrei mettere una GPU meno potente. Faccio una botta di conti, ma potrebbe essere la chiave. GRAZIE!
 
Grazie a te, Guz, quello che scrivi è molto interessante.
Quando scrivi "Verrà usato in un programma interno" intendi che avete gia' fatto fine-tuning di qwen3 next 80b con un vostro training set? E se si', che quantizzazione avete usato?
Io sono di natura un po' scettico verso le quantizzazioni a 4 bit su modelli medio-piccoli, ma mai dire mai. C'e' anche un thread in cui si parla di questo nellla pagina di qwen3 next 80b su hugging face.
Certo che se gli end-users vogliono che l'inferenza sia fatta on premise per motivi di riservatezza e non c'è il budget per arrivare a una H100 non rimangono molte scelte.
Usare delle GPU a basso costo (per il mondo dei device AI) come le 5090 in parallelo con vLLM è un progetto intrigante. Personalmente lo farei molto volentieri in un contesto di ricerca, al contrario mi darebbe un po' d'ansia se inquadrato in un rapporto committente-sviluppatore con tempi di consegna rigorosi e standard qualitativi prefissati, al di sotto dei quali non si puo' scendere. E' difficile, almeno per me, dire se la tua idea è realizzabile o meno, occorre provare ma poi bisogna vedere se rimane budget per un piano B, in caso di non funzionamento dell'idea.
Mi sembra buono il suggerimento della 6000 con 96 Gb, facci sapere come procede e buon divertimento ;-)
 
Non credo di avere bisogno di un vero e proprio addestramento perchè presumo
che il codice penale e l'ordinamento penitenziario siano giá parte del training. Se non mi soddisfa al massimo potrei generare un dataset su domande e risposte di un codice commentato facendo un leggero qlora, ma sono abbastanza sicuro che mi basti un RAG per focalizzare l'attenzione sulle parti del codice su cui si perde, come ultimi emendamenti. La configurazione la ho molto ridotta perchè mi sono reso conto che mi basta quen 3 senza devstral. In pratica sono giá ot in questa discussione perchè sono passato ad un ryzen 9 usando una unica GPU rtx 6000 pro. Ci ragiono un paio di giorni e mando avanti l'acquisto, a meno che voi che avete già usato qwen 3 riducendo la precisione a 4 bit e con kvcache fp8 non mi diciate che è tutta una allucinazione
 
Ok, capito. Io non ho mai usato qwen 3, tanto meno con quella quantizzazione, quindi non posso riportare esperienze di prima mano
 
Giá che mi metti in allerta è tanta roba. Comunque andando sempre piú ot, il modello qwen 3 next mi ha attratto proprio per la compressione kvcache e l'uso della Grouped-Query Attention. in pratica una delle grandi differenze è che la quantità di gb necessaria per la kv cache non esplode con l'aumento dei tocken, ma è più contenuta. Non sono ferratissimo, ma il risultato concreto è che si 96gb di vram dovrei starci con 50GB di pesi e 1 contesto fino a 256k - oppure 35 chiamate da 8k. mi sembra incredibile, ma a questo punto vedremo sul campo.
In ogni caso sono sempre più convinto di non fare un addestramento, ma preparare un motore che preprocessi la richiasta aggiungendo di volta in volta il contesto necessario, come la guida al programma se chiedono cose relative al programma stesso o altri contesti più specifici certamente fuori addestramento. Grazie a tutti che mi avete certamente evitato la configurazione hardware sbagliata.
 
Pubblicità
Pubblicità
Indietro
Top