UFFICIALE Aspettando Nvidia Volta

Mikael84 · 7 Luglio 2017

Andrea Niccolai ha detto:
Quindi non ci sarà un grande passo in avanti a parte maggior potenzialità di oc e un clock più elevato?

Inviato dal mio ASUS_Z017D utilizzando Tapatalk

Molto dipende dal set d'istruzioni.
I warp GV100 sono suddivisi in 16 x4 (ed in TPC 16x8) per 16k istruzioni, questo significa che ogni cuda processa 1024 istruzioni.
Quindi un cuda può processare il doppio delle istruzioni, con meno utilizzo della cache l2 (che si portà via 12-24 cicli).
Con volta gaming i thread saranno sempre da 32, quindi scordiamoci miglioramenti in questo campo, salvo di non elevare le istruzioni a 32k.
Una grande innovativa è la cache l1 unificata tra il TPC e maggiorata di 32kb (questo spero sia un valore serio per il chip gaming).
Per il resto si rischia un Maxwell-Pascal con la semplificazione dx12.

Utente cancellato 79971 · 7 Luglio 2017

Mikael84 ha detto:
Molto dipende dal set d'istruzioni.
I warp GV100 sono suddivisi in 16 x4 (ed in TPC 16x8) per 16k istruzioni, questo significa che ogni cuda processa 1024 istruzioni.
Quindi un cuda può processare il doppio delle istruzioni, con meno utilizzo della cache l2 (che si portà via 12-24 cicli).
Con volta gaming i thread saranno sempre da 32, quindi scordiamoci miglioramenti in questo campo, salvo di non elevare le istruzioni a 32k.
Una grande innovativa è la cache l1 unificata tra il TPC e maggiorata di 32kb (questo spero sia un valore serio per il chip gaming).
Per il resto si rischia un Maxwell-Pascal con la semplificazione dx12.

beh, però hanno tanto di quel vantaggio in tutti i campi che non mi sembrano a rischio verso amd e almeno sarà un passo avanti in DX12.

Freenicco · 7 Luglio 2017

AMD è indietro con Vega, figurati con Vega "11" o quello che dovrebbe essere la nuova fascia mainstream... Poi oh, puó stupire tutti e fare il numero dell'anno, ma dubito (sarebbe da segnare negli annali)

Inviato dal mio ASUS_Z017D utilizzando Tapatalk

Mikael84 · 8 Luglio 2017

gridracedriver ha detto:
Cut

Messi male no.
Io nell'esempio ti spezzetto il warp.
Abbiamo 32 FP32 in 8 cicli
4 FP32 per ciclo (2048 istruzioni)/4 rop's.
Il warp viene immesso in calcolo dai vari D.U. che gli associano le unità funzionali (LDS/SFU)
Di conseguenza potremmo avere:
Warp 1
4+4+4+4+4+4+4+4
D.U
4(UF)+4(UF)+4UF)+4UF) x2.
Spezzetandolo avremmo questo:
4(UF) 2048
4(UF) 2048
4(UF) idle
4 (UF) memoria conservative.

D.U 2, stesso percorso

Su Volta, nessun problema via warp, ogni thread è capace di prendersi la chiamata, l'istruzione e la unità funzionale.
Se un warp è mal programmato, puoi rischiare vari stadi di idle.
Con Volta, ogni thread, lavora come se fosse un warp
1-1-1-1-1-1-1-1-1-1-1-1-1--1-1-1-1 etc.

Un warp mal programmato porterà a questo
1-1-1-0-1-1-0-1-1-1-0-0
Potrebbe sembrare un codice binario, tipo quello che impediva l'OC, ma è il lavoro dei thread.
1 Lavora
0 esegue o aspetta

lucusta · 3 Agosto 2017

Mikael84 ha detto:
Messi male no.
Io nell'esempio ti spezzetto il warp.
Abbiamo 32 FP32 in 8 cicli
4 FP32 per ciclo (2048 istruzioni)/4 rop's.
Il warp viene immesso in calcolo dai vari D.U. che gli associano le unità funzionali (LDS/SFU)
Di conseguenza potremmo avere:
Warp 1
4+4+4+4+4+4+4+4
D.U
4(UF)+4(UF)+4UF)+4UF) x2.
Spezzetandolo avremmo questo:
4(UF) 2048
4(UF) 2048
4(UF) idle
4 (UF) memoria conservative.

D.U 2, stesso percorso

Su Volta, nessun problema via warp, ogni thread è capace di prendersi la chiamata, l'istruzione e la unità funzionale.
Se un warp è mal programmato, puoi rischiare vari stadi di idle.
Con Volta, ogni thread, lavora come se fosse un warp
1-1-1-1-1-1-1-1-1-1-1-1-1--1-1-1-1 etc.

Un warp mal programmato porterà a questo
1-1-1-0-1-1-0-1-1-1-0-0
Potrebbe sembrare un codice binario, tipo quello che impediva l'OC, ma è il lavoro dei thread.
1 Lavora
0 esegue o aspetta

quanto presumi che aumenti il conto dei transistors e quindi il consumo e la dimensione a parità di lavoro, non usando le DX12?
perchè io calcolavo che la riduzione nell'usare i 12nm compensassero il maggior spazio e consumo, ma... stesse prestazioni in DX11 e incrementi del 20% in DX12 (anche se incrementi la reale potenza del 25-30% le DX12 richiedono piu' movimentazione, quindi un rendimento di calcolo inferiore).
quindi ho pensato che per dare il classico +20% sulle prestazioni della precedente generazione avrebbero dovuto alzare ad un +30% il clock o +20% l'integrazione (portanto a 6 gli SM per GPC) o mediare tra queste due variabili.

(s'intende sulle DX11 e DX12 T1.. sulle DX12 avrà comunque vantaggio rispetto a Pascal)

PS:
Vega è morto ancora prima di nascere... sembra che faccia dai 70 ai 100 Mh/s.

Mikael84 · 4 Agosto 2017

lucusta ha detto:
quanto presumi che aumenti il conto dei transistors e quindi il consumo e la dimensione a parità di lavoro, non usando le DX12?
perchè io calcolavo che la riduzione nell'usare i 12nm compensassero il maggior spazio e consumo, ma... stesse prestazioni in DX11 e incrementi del 20% in DX12 (anche se incrementi la reale potenza del 25-30% le DX12 richiedono piu' movimentazione, quindi un rendimento di calcolo inferiore).
quindi ho pensato che per dare il classico +20% sulle prestazioni della precedente generazione avrebbero dovuto alzare ad un +30% il clock o +20% l'integrazione (portanto a 6 gli SM per GPC) o mediare tra queste due variabili.

(s'intende sulle DX11 e DX12 T1.. sulle DX12 avrà comunque vantaggio rispetto a Pascal)

PS:
Vega è morto ancora prima di nascere... sembra che faccia dai 70 ai 100 Mh/s.

In dx12 o 11 è uguale. Praticamente cambia che il GPC di Volta passa da 1,8/2 m/transistor di Pascal a 2,7m transistor, su un'area di quasi 100mmq2.
Ai 78,5mmq2 di Pascal, bisogna aggiungere 2 TPC (5mmq2 circa) più 256kb l2.
Quindi sono 7 TPC per GPC (3584cc su GV104).
In dx12, cambia poco, anzichè affidarti al contatore warp, che assegna i thread, con Volta ogni thread può effettuare chiamata, attesa ed elaborazioni, e di conseguenza è pronto per calcoli paralleli complessi.

Riguardo il clock, difficile valutare, ora come ora, un'affinamento elettrico solitamente porta un 10% sul boost finale, quindi potremmo anche vedere 2050mhz ma con annesso downclock per gradi o TDP.
Sul TDP Nvidia lo manterrà sui 180watt sicuramente (GV104), considerando che deve gestire meno rop's( una delle parte dolenti) e ben rasterizzatori in meno. Quindi elimini 10 cicli via P.E. 6 via raster, diminuisci i dati sullo z-cull. Inoltre eliminando la quantità di P.E, migliori pure la quantità di triangoli processati che spesso porta dati irrisori di 0,29 t, quando si può calcolare 0,36.

Vega va valutato dopo l'uscita della game, ma attualmente non è previsto per competere principalmente con la TI, ogni GPC equivale a circa 3 TF AMD, per pareggiarla ti servono quasi 16/18tf ed un'uscita in banda capace di garantire oltre 600gb/s.
I dati TF sono ben più reali su Nvidia visto che ha le funzionali sulla DU..
Dai test letti, incasinandosi nella compressione 2:1 (dato non decompresso), viene rilevato solo 250gb/s, praticamente un polaris a 384bit ne più ne meno. :)

lucusta · 4 Agosto 2017

quindi, per quanto scrivi, è incentrato tutto sul clock, sulle DX11, mentre sulle DX12 sulla diminuzione di cicli, migliorando cosi' il rendimento?

comunque intendevo base clock+20%, quindi anche io sui 2100mhz e appunto un aumento del 30% sui transistors.
ora bisogna vedere quanto il 12nm possa rendere effettivamente per riuscire a mantenere i 180W si una x080.
ottimi spunti per pensare, grazie.

Mikael84 · 4 Agosto 2017

lucusta ha detto:
quindi, per quanto scrivi, è incentrato tutto sul clock, sulle DX11, mentre sulle DX12 sulla diminuzione di cicli, migliorando cosi' il rendimento?

comunque intendevo base clock+20%, quindi anche io sui 2100mhz e appunto un aumento del 30% sui transistors.
ora bisogna vedere quanto il 12nm possa rendere effettivamente per riuscire a mantenere i 180W si una x080.
ottimi spunti per pensare, grazie.

DX11 dx12 è essenzialmente uguale con Volta (o almeno lo sarà).
Il giga thread invia ai warp i thread e questi vengono eseguiti.
Un warp, elabora 32 thread con annesso contatore che ne è a capo, e ne associa le varie unità funzionali, LDS (64bit)/SFU in rapporto 4:1:1
Con Pascal, in dx11 tutti i thread vengono elaborati (anche se non sempre vengono correttamente eseguiti sempre al 100%, in dx12 i calcoli paralleli spezzatano il warp, ed il contatore lo frammenta, lasciando stadi di idle. Ecco perchè un BF1 su dx12 perde frame.
Con Volta ogni thread, ha tutte le funzionalità del contatore, chiamata, elaborazione, coda, direzione conservative (ecco perchè Volta e Vega hanno cache giganti).
Quindi alla fin fine, finalmente si dovrebbero abbandonare le fasi di idle, ed anche AMD integrerà dei conservative, per sopperire alle latenze del rendering diretto.

Sul resto, purtroppo non si conosce nulla, ma pure io penso che tali clock li prenderemmo.
Ora Pascal è piombata con 3 resistenze da caduta da 0,05mohm.

Kosta99 · 23 Agosto 2017

buongiorno stavo pensando di farmi una 1080ti per giocare su un tv 4k ,ma non e che mi conviene aspettare volta visti i prezzi delle schede attuali?
avrei anche un altra curiosita come mai le vega pur avendo tanti teraflops 13... la 64 va parecchio meno della 1080 ti che ne ha 11e rotti saranno le differenze architetturali , compressioni in memoria o come sono fatte le pipeline non ho le idee molto chiare a riguardo (se si potesse includere anche volta in un discorso improntato allo sviluppo futuro sarebbe il massimo)?mi piacerebbe approfondire questa tematica se avete qualche link(anche in inglese) o vi va di segnalarmi post precedenti saro felice di leggerli

Sen · 23 Agosto 2017

Kosta99 ha detto:
buongiorno stavo pensando di farmi una 1080ti per giocare su un tv 4k ,ma non e che mi conviene aspettare volta visti i prezzi delle schede attuali?
avrei anche un altra curiosita come mai le vega pur avendo tanti teraflops 13... la 64 va parecchio meno della 1080 ti che ne ha 11e rotti saranno le differenze architetturali , compressioni in memoria o come sono fatte le pipeline non ho le idee molto chiare a riguardo (se si potesse includere anche volta in un discorso improntato allo sviluppo futuro sarebbe il massimo)?mi piacerebbe approfondire questa tematica se avete qualche link(anche in inglese) o vi va di segnalarmi post precedenti saro felice di leggerli

I tflops Nvidia sono sempre stati "più potenti" di quelli radeon o almeno è quello che ho capito io.. sicuramente @Mikael84 ti saprà dire di più XD.

Sul ritardare l'acquisto di Pascal per aspettare Volta, io ti direi di no.
La nuova gen la vedremo come minimo fra sei mesi, probabilmente a marzo.
Se hai necessità compra ora.

IlPresidente · 23 Agosto 2017

Sen ha detto:
I tflops Nvidia sono sempre stati "più potenti" di quelli radeon o almeno è quello che ho capito io.. sicuramente @Mikael84 ti saprà dire di più XD.

Sul ritardare l'acquisto di Pascal per aspettare Volta, io ti direi di no.
La nuova gen la vedremo come minimo fra sei mesi, probabilmente a marzo.
Se hai necessità compra ora.

no no, è il contrario... i TFLOPS AMD sono più "scarsi" :asd: in realtà FLOPS significa "Floating Operations Per Second", ed è un valore teorico per misurare la potenza di calcolo di un processore, in questo caso, grafico. si ottiene con questo calcolo: NCore * frequenza * 2. Moltiplicando per 4 se consideriamo operazioni in FP16, infatti per la 64 TFLOPS = 4096 * 1600 * 2 = 13.107.200, in tera diventa 13.1 (forse c'è qualche errore con le unità di misura, non so se la misura del flops è definita moltiplicando per Hz o MHz)

(da qui in poi come dice sen sapranno dirti meglio mikael e anche @lucusta )

il punto è che le nvidia sono strutturate in modo da sfruttare sempre tutti i Cuda Cores al 100%, senza mai lasciarli in idle, le AMD hanno molta più difficolta a farlo. Altrimenti vedremmo la Vega 64 più veloce della 1080 Ti del 15-20%... comunque col tempo, fra driver migliori e motori grafici che diventano più moderni magari utilizzando API come DX12 o Vulkan, si riesce a tirare sempre di più da queste schede, anche se spesso non si raggiunge mai la potenza di calcolo effettivamente indicata in game.

Le schede grafiche comunque non sono solo adibite al gaming (insomma nel computing), in altri settori professionali le AMD comunque riescono a sfoderare meglio la loro potenza di calcolo

Sen · 23 Agosto 2017

IlPresidente ha detto:
no no, è il contrario... i TFLOPS AMD sono più "scarsi" :asd: in realtà FLOPS significa "Floating Operations Per Second", ed è un valore teorico per misurare la potenza di calcolo di un processore, in questo caso, grafico. si ottiene con questo calcolo: NCore * frequenza * 2. Moltiplicando per 4 se consideriamo operazioni in FP16, infatti per la 64 TFLOPS = 4096 * 1600 * 2 = 13.107.200, in tera diventa 13.1 (forse c'è qualche errore con le unità di misura, non so se la misura del flops è definita moltiplicando per Hz o MHz)

(da qui in poi come dice sen sapranno dirti meglio mikael e anche @lucusta )

il punto è che le nvidia sono strutturate in modo da sfruttare sempre tutti i Cuda Cores al 100%, senza mai lasciarli in idle, le AMD hanno molta più difficolta a farlo. Altrimenti vedremmo la Vega 64 più veloce della 1080 Ti del 15-20%... comunque col tempo, fra driver migliori e motori grafici che diventano più moderni magari utilizzando API come DX12 o Vulkan, si riesce a tirare sempre di più da queste schede, anche se spesso non si raggiunge mai la potenza di calcolo effettivamente indicata in game.

Le schede grafiche comunque non sono solo adibite al gaming (insomma nel computing), in altri settori professionali le AMD comunque riescono a sfoderare meglio la loro potenza di calcolo

Io ho scritto la stessa cosa, cioè a pari tflops nvidia è messa meglio.
Non so i motivi dietro ciò, probabilmente anche per quello che hai scritto tu, ma dovrebbe essere così :sisi:

IlPresidente · 23 Agosto 2017

Sen ha detto:
Io ho scritto la stessa cosa, cioè a pari tflops nvidia è messa meglio.
Non so i motivi dietro ciò, probabilmente anche per quello che hai scritto tu, ma dovrebbe essere così :sisi:

WTF pensavo di essere nel topic vega :lol:

Kosta99 · 23 Agosto 2017

grazie delle risposte ragazzi ,ma quindi le istruzioni in floating point a 16 sarebbero la frammentazione della potenza di calcolo su piu thread di cui si parla qualche post sopra ...quindi un operazione a 64 e piu precisa ma piu lunga e lenta che a 16 la quale e veloce ma piu soggetta a errori ,e le operazioni a 64 devono essere frammentate in operazioni piu piccole da seguire con piu thread in base a quello che dicono le api.
non so se ho tratto le giuste conclusioni :vv:

Mikael84 · 24 Agosto 2017

Kosta99 ha detto:
buongiorno stavo pensando di farmi una 1080ti per giocare su un tv 4k ,ma non e che mi conviene aspettare volta visti i prezzi delle schede attuali?
avrei anche un altra curiosita come mai le vega pur avendo tanti teraflops 13... la 64 va parecchio meno della 1080 ti che ne ha 11e rotti saranno le differenze architetturali , compressioni in memoria o come sono fatte le pipeline non ho le idee molto chiare a riguardo (se si potesse includere anche volta in un discorso improntato allo sviluppo futuro sarebbe il massimo)?mi piacerebbe approfondire questa tematica se avete qualche link(anche in inglese) o vi va di segnalarmi post precedenti saro felice di leggerli

E' troppo complesso da spiegare nel dettaglio, perchè la differenza sta nelle unità funzionali.
Nvidia ad una tot. precisione in virgola mobile, affianca le unità funzionali.
Ovvero:
Cuda-LDS-FPU
Ogni cuda, per rapporto in virgola mobile, ha accesso ai registri immediati (512 a 64 bit) ed alle FPU da cui si ricava i pixel, oltre alle operazioni trascendentali (seno-coseno e calcoli simili).
32 cuda, sono veicolati da 8 LDS e 8 SFU.
AMD queste se le deve emulare.
Prendi un CU con 64 elementi, 4 vettori da 16, di cui ogni l'istruzione su 128 shader come nvidia viene elaborata in 11 cicli (1 SIMD più 1 di latenza)
Ogni CU da 64 per clock (fma2) offre un tot di potenza in virgola mobile.
La somma è uguale ad nvidia a frequenze per shader, ma AMD deve emularsi per l'appunto le unità funzionali.
Se sei costretto ad emulare i load store, la potenza effettiva cala ad 1/4
Se devi emulare sia le load store che le SFU, la potenza teorica crolla a metà, Nvidia la mantiene costante

Dopo di questo vanno calcolate tutte le varie parti della VGA, tra cui, rop's, banda, ed elementi funzionali come il gigathread, la sua funzione, l'elaborazione dei thread, il consumo di l2 (10-20 cicli) in accesso load store.
Una LDS permette di elaborare 512 istruzioni contemporanee, e non aggrava la cache (AMD queste le deve emulare, scaricando in cache).
Quindi un cuda oltre a fornire una prestazione matematica efficiente, riesce pure a sgravare la cache, e sgravare la cache significa, meno peso in banda e meno cicli di clock per la GPU.
Poi ci sono le rop's.
Ripeto è una sintesi, troppo complesso spiegare tutto.
Buona serata.:ok:

UFFICIALE Aspettando Nvidia Volta

Mikael84

Utente Attivo

Utente cancellato 79971

Ospite

Freenicco

Utente Attivo

Mikael84

Utente Attivo

lucusta

Mikael84

Utente Attivo

lucusta

Mikael84

Utente Attivo

Kosta99

Nuovo Utente

Sen

IlPresidente

Sen

IlPresidente

Kosta99

Nuovo Utente

Mikael84

Utente Attivo