UFFICIALE Aspettando Nvidia Volta

Utente cancellato 159815 · 3 Settembre 2016

[ASPETTANDO NVIDIA VOLTA]

SPECIFICHE FINORA NOTE:

Processo produttivo: 16 nm finFET
Ram: HBM 2
Modelli GPU: GV104, GV102, GV110

Così avevamo salutato il 3d aspettando Maxwell, per passare in quello relativo alle GPU effettivamente annunciate, oggi partiamo con un altro step evolutivo delle architetture Nvidia, e quel Maggio 8-11 2017 pare sia diventata una data significativa anche per l'annuncio delle architetture consumer gaming potenziate con i vari GV104, GV110 e GV102 di cui però ancora non si conoscono le prerogative.

Quello che sappiamo, per ora, è che si sta pensando, a differenza di Pascal che conserva SM del tutto simili a Maxwell, a un significativo step architetturale, dopo quello inerente il PP simile a quello che ha consentito a Maxwell di ottenere il 40% di performance in più dai Cuda Cores e il 50% di consumi in meno.
Si era parlato anche di PP a 10 nm, ma è stato subito smentito ed è quasi confermato che sarà sviluppato con il medesimo PP di Pascal, i 10nm saranno saltati in favore dei 7 nm per le future architetture dalle ultime voci di corridoio.
Come memoria si parla, per ora, unicamente di Ram HBM2 e ritorna alla grande la voce di Nvlink, ma questa volta anche per il mercato High Performance Gaming.
Ricordo che nella prima Road Map delle nuove architetture Pascal non veniva nemmeno citato:

Che Nvidia sia passata a un modello di upgrade dell'architettura simil Tick Tock Intel mi pare alquanto probabile, anche perchè già si parla di VOLTA revisionato su processo produttivo nuovo con un trattamento simil Maxwell-Pascal.

VOLTA V100 (il chippone)

ARCHITETTURA:

DETTAGLIO SM

IL SUPERAMENTO DEL WARP SCHEDULER

Volta’s independent thread scheduling allows the GPU to yield execution of any thread, either to make better use of execution resources or to allow one thread to wait for data to be produced by another. To maximize parallel efficiency, Volta includes a schedule optimizer which determines how to group active threads from the same warp together into SIMT units. This retains the high throughput of SIMT execution as in prior NVIDIA GPUs, but with much more flexibility: threads can now diverge and reconverge at sub-warp granularity, and Volta will still group together threads which are executing the same code and run them in parallel.

In pratica una maggiore parallelizzazione dei Threads in fasi di elaborazione, una maggiore flessibilità, e sarà interessante capire ora le performance in ambito Async compute.

techfede · 4 Settembre 2016

Ecco, questa mi interessa molto più di Pascal :sisi:

Booker DeWitt · 4 Settembre 2016

Alla fine Pascal non ha portato poi a molto, è più un ponte verso le Volta che dovrebbero spaccare un po' di culi.

Mikael84 · 4 Settembre 2016

Io vedo possibili alcuni schemi legati a 6/7 TPC per GPC. Da quello che so Nvidia non riesce ancora ad aumentare i raster e sicuramente sarà bloccata a 16 pixel anche con Volta.

Teoricamente a livello di numeri si potrebbe realizzare anche un chip sopra i 5000 cuda.
8 GPC Pascal necessiterebbero di un core da circa 628mm2. Però 8 GPC significano un core da 5120cc /128 rop's e 4mb di cache l2/ 512bit.

Basta includere tutto nei 6 GPC e fare GPC da 896cc, limitare tutto a 16 rop's per GPC (96 finali), 3mb di cache non 4 e 384bit.
In questo modo si risparmia spazio in cache e rop's e tutto potrebbe stare in un 550mm2.

Diventerebbe.
GV102: 5376cc/ 96 rop's/384bit.......550mm2
GV104: 3584cc/64 rop's /256bit......385mm2
GV106: 1792cc/32/48 rop's /192bit.

Bisogna vedere le rese di simili chip.

Preciso che i core non sono sparati ma matematici calcolati su base Pascal.

A livello di SMM vedo bene una soluzione alla Tesla. con Volta, con GPC da 6/7 TPC (768/896cc).
i TPC di puro calcolo non sono esosi in superficie, si parla di 7,3mm2 per 128cc e 3,65mm2 per 64cc.
Questo metodo fa si che si possa lavorare appieno su gruppi di 64 ALU (come GCN) raddoppiando le istruzioni.

Lavorando a gruppi di 64 cuda, posso utilizzare il doppio delle istruzioni, senza gravare la cache, il risultato finale che ottengo è, minor accesso in cache-BW sgravata e minimi ancora superiori e latenze minime.

Maxwell in gran parte ha fatto questo, ha ingrandito la cache e le istruzioni. Però la cache costa tante risorse in silicio, la svio e utilizzo più istruzioni contemporanee.

Sinceramente un utilizzo così mi pare ottimo, perchè hai la possibilità di sfruttare il possibile, dovendo gestire le stesse rop's, la stessa cache ed i cuda al meglio.
Gravare di meno la banda, significa anche ottimizzare le risorse per i bus più piccoli, come quello che adotterà il GV104.

Fatto ciò, cerco di andare a riempimento con gli SMM per la potenza bruta come detto sopra

Utente cancellato 159815 · 4 Settembre 2016

Di GV106 non si parla ancora stranamente, ma di GV110, forse per la volontà di distanziare maggiormente la classe GV104 dalla fascia dei prodotti sui 200-300 euro.
Anche se alcuni indicano GV110 come la Top.
Sicuramente ottimizzeranno la GPU come fatto con Maxwell perchè il di più questa volta deve essere di architettura, non di PP.

Mikael84 · 4 Settembre 2016

Lordpkappa ha detto:
Di GV106 non si parla ancora stranamente, ma di GV110, forse per la volontà di distanziare maggiormente la classe GV104 dalla fascia dei prodotti sui 200-300 euro.
Anche se alcuni indicano GV110 come la Top.
Sicuramente ottimizzeranno la GPU come fatto con Maxwell perchè il di più questa volta deve essere di architettura, non di PP.

GV110 sarà il top Volta però compute.
Proprio su questo Volta scommette molto, infatti con questo chip vedremmo il nuovo standard NVLINK 2,0.
Non mancheranno le HBM grazie al collegamento a 128 rop's e 32gb, ogni stack passa da 4 a 8gb e la BW toccherà i 1,024 TF..

Sull'ultima riga dici bene, ecco perchè come scritto sopra vedo uno schema alla Tesla.
Aumentare cache e rop's costa in termini di produzione, la 1060 si è ritrovata 43mm2 più grande. Parliamo di soli 512kb e 16 rop's neppure elaborate.

Suddividere un SMM in 2 (grande 7,35mm2) fa in modo di poter essere più parallela, più vicina alla GCN e permette di utilizzare 1024 istruzioni.

Più istruzioni carichi contemporaneamente, meno vai in cache, meno hai latenze e migliori il rapporto dei minimi.

100000 istruzioni le elabori al click con 90cc su uno schema simile
100000 istruzioni su Maxwell/Pascal richiedono l'utilizzo di 2 TPC o se legato al solo SMM, devi caricare 65,k istruzioni e saturare parte di cache.

Le ram penso che saranno delle ddr5x pompate o delle ddr6 (stessa cosa) ma con data rate più elevato.
Non serve tanto BW se non aumenti le rop's.

Quando cambi processo produttivo, lavori sui raster e via, tanto hai il 33% di clock in più.

Utente cancellato 159815 · 4 Settembre 2016

Mikael84 ha detto:
GV110 sarà il top Volta però compute.
Proprio su questo Volta scommette molto, infatti con questo chip vedremmo il nuovo standard NVLINK 2,0.
Non mancheranno le HBM grazie al collegamento a 128 rop's e 32gb, ogni stack passa da 4 a 8gb e la BW toccherà i 1,024 TF..

Sull'ultima riga dici bene, ecco perchè come scritto sopra vedo uno schema alla Tesla.
Aumentare cache e rop's costa in termini di produzione, la 1060 si è ritrovata 43mm2 più grande. Parliamo di soli 512kb e 16 rop's neppure elaborate.

Suddividere un SMM in 2 (grande 7,35mm2) fa in modo di poter essere più parallela, più vicina alla GCN e permette di utilizzare 1024 istruzioni.

Più istruzioni carichi contemporaneamente, meno vai in cache, meno hai latenze e migliori il rapporto dei minimi.

100000 istruzioni le elabori al click con 90cc su uno schema simile
100000 istruzioni su Maxwell/Pascal richiedono l'utilizzo di 2 TPC o se legato al solo SMM, devi caricare 65,k istruzioni e saturare parte di cache.

Le ram penso che saranno delle ddr5x pompate o delle ddr6 (stessa cosa) ma con data rate più elevato.
Non serve tanto BW se non aumenti le rop's.

Quando cambi processo produttivo, lavori sui raster e via, tanto hai il 33% di clock in più.

Sì può essere se riprende lo schema GK110 ecc.. ma con GV102, che potrebbe essere la nuova titan, mi aspetto che il Top sia GV100, questo 110 è dato come scheda "gaming", e per il gaming serve poco la doppia precisione e avere un chip di livello professionale.

Mikael84 · 5 Settembre 2016

Lordpkappa ha detto:
Sì può essere se riprende lo schema GK110 ecc.. ma con GV102, che potrebbe essere la nuova titan, mi aspetto che il Top sia GV100, questo 110 è dato come scheda "gaming", e per il gaming serve poco la doppia precisione e avere un chip di livello professionale.

No che GK110.:)
GV100, HBM 32gb, 8gb per stack ed nvlink 2,0
GV 102 chip senza DP adattato a game.

Utente cancellato 159815 · 5 Settembre 2016

Lo schema di nomi non l'architettura. :)
GV110 lo danno come soluzione Gaming, farlo con 32 Gb HBM2 e nvlink mi sembra assurdo, per questo credo sia in verità tutt'altra fascia, con GV102 che quasi sicuramente sarà Titan X Volta.

Mikael84 · 5 Settembre 2016

Lordpkappa ha detto:
Lo schema di nomi non l'architettura. :)
GV110 lo danno come soluzione Gaming, farlo con 32 Gb HBM2 e nvlink mi sembra assurdo, per questo credo sia in verità tutt'altra fascia, con GV102 che quasi sicuramente sarà Titan X Volta.

Hbm come detto più volte non ha senso per un gaming per via delle partizioni cache e rop's morte.
Non so i nomi di preciso, ma Nvidia sta puntando più che altro al compute con GV100 o come si chiamerà alla fine, dove inserirà HBM2 32gb ed nvlink 2,0.
I restanti saranno i classici chip gaming, GV102/GV104 etc.

I tagli ram raddoppiano perchè gli MC saranno da 2gb, soluzione che adotterà già la quadro con 24gb (2 x 12 canali= 24gb).
Alcuni fattori mi sembrano quasi sicuri come le ram a 2gb e ddr5x 12-14 (anche ddr6 se ce la fanno con i tempi che alla fine è la stessa cosa)

Utente cancellato 159815 · 5 Settembre 2016

Quindi per te 7 TPC in ogni GVC, limitati a 16 rops per GVC con 336 TMU potrebbe essere una soluzione che potrebbero adottare?
In effetti, in maniera puramente ipotetica, non è un'ipotesi tanto campata, certo avere una top da 5000 e rotti cuda fa paura.

Anche GV104 otterrebbe un bel boost sia quantitativo che di efficienza, staremo a vedere.

Mikael84 · 7 Settembre 2016

Si, io direi 6/7 TPC, migliorie a livello di istruzioni primarie per non gravare sulla cache, cache che per poter essere aumentata richiede molto spazio sul die e fondamentalmente un lavoro elettrico, che prevede di sistemare le connessioni lente e transistor a bassa perdita.
Lavorare anche con 6 TCP significherebbe arrivare a 3072cc, clock più elevati e IPC superiore.

Al prossimo step, sarà la volta dei raster da 32 pixel, solitamente vanno a multipli di 2 e quindi ben 1024cc per GPC. Questo mi fa pensare sempre più ad un Volta con più TPC per GPC e naturalmente circa +33% di core clock.
GV104 potrebbe essere così composto:
3072cc /64 rop's/ 256bit ddr5x 14 gb/s o
3584cc/64 rop's /256bit ddr5x 12 gb/s

Esempio concreto.
768cc a 1024 istruzioni x cc
16 rop's/512kb/l2 (64bit)
8 rop's/ 256kb x2 (32bit x2)
32bit 32bit
2gb 2gb

Sulla banda se non aumentano le rop's non ha senso spingere parecchio.

RasTaFi · 7 Settembre 2016

Mikael84 ha detto:
Io vedo possibili alcuni schemi legati a 6/7 TPC per GPC. Da quello che so Nvidia non riesce ancora ad aumentare i raster e sicuramente sarà bloccata a 16 pixel anche con Volta.

Teoricamente a livello di numeri si potrebbe realizzare anche un chip sopra i 5000 cuda.
8 GPC Pascal necessiterebbero di un core da circa 628mm2. Però 8 GPC significano un core da 5120cc /128 rop's e 4mb di cache l2/ 512bit.

Basta includere tutto nei 6 GPC e fare GPC da 896cc, limitare tutto a 16 rop's per GPC (96 finali), 3mb di cache non 4 e 384bit.
In questo modo si risparmia spazio in cache e rop's e tutto potrebbe stare in un 550mm2.

Diventerebbe.
GV102: 5376cc/ 96 rop's/384bit.......550mm2
GV104: 3584cc/64 rop's /256bit......385mm2
GV106: 1792cc/32/48 rop's /192bit.

Bisogna vedere le rese di simili chip.

Preciso che i core non sono sparati ma matematici calcolati su base Pascal.

A livello di SMM vedo bene una soluzione alla Tesla. con Volta, con GPC da 6/7 TPC (768/896cc).
i TPC di puro calcolo non sono esosi in superficie, si parla di 7,3mm2 per 128cc e 3,65mm2 per 64cc.
Questo metodo fa si che si possa lavorare appieno su gruppi di 64 ALU (come GCN) raddoppiando le istruzioni.

Lavorando a gruppi di 64 cuda, posso utilizzare il doppio delle istruzioni, senza gravare la cache, il risultato finale che ottengo è, minor accesso in cache-BW sgravata e minimi ancora superiori e latenze minime.

Maxwell in gran parte ha fatto questo, ha ingrandito la cache e le istruzioni. Però la cache costa tante risorse in silicio, la svio e utilizzo più istruzioni contemporanee.

Sinceramente un utilizzo così mi pare ottimo, perchè hai la possibilità di sfruttare il possibile, dovendo gestire le stesse rop's, la stessa cache ed i cuda al meglio.
Gravare di meno la banda, significa anche ottimizzare le risorse per i bus più piccoli, come quello che adotterà il GV104.

Fatto ciò, cerco di andare a riempimento con gli SMM per la potenza bruta come detto sopra

Dove si imparano queste cose bellissime?:vv:

fedeprenc · 9 Settembre 2016

Seguo!
Volta mi interessa molto più di pascal, qui potrei cambiare la mia 970...

Inviato dal mio GT-I9505 utilizzando Tapatalk

Parcher · 10 Settembre 2016

RasTaFi ha detto:
Dove si imparano queste cose bellissime?:vv:

E non hai visto niente ancora di @Mikael84

Inviato dal mio A0001 utilizzando Tapatalk

UFFICIALE Aspettando Nvidia Volta

Utente cancellato 159815

Ospite

techfede

Utente Attivo

Booker DeWitt

Mikael84

Utente Attivo

Utente cancellato 159815

Ospite

Mikael84

Utente Attivo

Utente cancellato 159815

Ospite

Mikael84

Utente Attivo

Utente cancellato 159815

Ospite

Mikael84

Utente Attivo

Utente cancellato 159815

Ospite

Mikael84

Utente Attivo

RasTaFi

DIO DEI MONITOR

fedeprenc

Parcher

Utente Attivo