UFFICIALE AMD RX Vega 56 e 64 - La risposta ai GP104

Pubblicità
più di un anno fa AMD ha depositato dei brevetti su architetture GPU di nuova concezione.
parlavano di una struttura delle pipeline non omogenea.
un calcolo finito necessita di essere processato da diverse unità base, che definiscono una pipeline di calcolo.
la differenza più marcata tra e architetture AMD e Nvidia consiste nell'esecuzione di questi calcoli;
un gruppo di queste unità forma un cluster.
se il calcolo da effettuare eccede un cluster, serve l'uso di un'altro cluster.
per continuare il calcolo su un'altro cluster impieghi una o più operazioni, da sommare a quelle di calcolo, impiegando quindi più tempo.
fino alle dx11 i calcoli avevano un numero più o meno fisso di operazioni da compiere, ed nvidia li eseguiva tutti in un cluster, mentre più giovane era GNC più passaggi si facevano, aggravando il calcolo da molte operazioni di spostamento.
con ac ed ace i calcoli non hanno più una lunghezza standard, ecco perché AMD ha vantaggio ad usare tali tecnologie, anche perché se il calcoli eccede un cluster ne devi usare un altro aggiungendo operazioni, ma se il calcolo non satura il cluster, lo devi comunque eseguire fino alla fine, e se il cluster é "lungo", per uscire dalla pipeline introduci l'attesa di tutti gli stadi che avanzano.
il brevetto consisteva nell'uso di cluster a diverso numero di unità, da solo 2 a gruppi di 16.
in questo modo si ha sempre un numero adeguato di unità che necessitano per il calcolo, senza sprechi.
per farlo, però, servono un numero di unità consistenti, perché non conviene associare tanti piccoli cluster quando i calcoli richiedono molti passaggi, e viceversa.
Navi dovrebbe garantire questo tipo di paradigma nella sua architettura.
tutto questo si può eseguire anche tramite vector processor, come i tensor core, in quanto il cluster base di processamento non é più monodimensionale (lunghezza), ma bidimensionale.
un vector processor si usa, però, kn un modo differente, troppo distante da come é scritto il codice oggi e troppo distante dalle API che si usano oggi ( non sono dx12, insomma); serve quindi un robusto layer d'interfaccia sotto forma di driver.
Quindi ancora una volta Nvidia sta pensando al futuro? Forse con le nuove dx 13 o quello che saranno si riuscirà ad utilizzare queste nuove tecnologie?

Inviato dal mio ASUS_Z017D utilizzando Tapatalk
 
Quindi ancora una volta Nvidia sta pensando al futuro? Forse con le nuove dx 13 o quello che saranno si riuscirà ad utilizzare queste nuove tecnologie?

Inviato dal mio ASUS_Z017D utilizzando Tapatalk

i vector processor sono una naturale evoluzione del calcolo matriciale, e nel 3D quello si fa.
i tensor core presentati da nvidia, però, sono per un mercato HPC: troppo grandi.
oltretutto si pensa che questa sia solo una parte di V100, cosa progettualmente controproducente, perché su un vettore puoi usare la base che vuoi, basta che l'HW la supporti (e poi puoi andare per aggregazione, aggiungendo cicli di traslazione al calcolo).
i tensor core nvidia sono cluster da 128x64... abnormi per l'uso gaming (almeno per altri 10 anni).
eseguono proficuamente anche spezzature (fino ad INT8), ma Nvidia ci ha mostrato che non gradisce "regalare" soluzioni PRO nel mercato gaming.
non so come riusciranno a non far usare queste soluzioni in ambito PRO (anche usando clustering a 32x32, sarebbero ottime per 4x16x16, quindi AI), ma... se hai una soluzione del genere, così versatile, la sfrutti.

per quanto riguarda l'anticipare in HW soluzioni tecniche che saranno usate in un futuro remoto, cadiamo nella stessa situazione di AMD con le 7000 adatte alle DX12, quando ancora si usavano le DX10, anche se le 11 erano da poco uscite; oggi solo incominciamo ad avere un adeguato sfruttamento.
 
Ultima modifica:
i vector processor sono una naturale evoluzione del calcolo matriciale, e nel 3D quello si fa.
i tensor core presentati da nvidia, però, sono per un mercato HPC: troppo grandi.
oltretutto si pensa che questa sia solo una parte di V100, cosa progettualmente controproducente, perché su un vettore puoi usare la base che vuoi, basta che l'HW la supporti (e poi puoi andare per aggregazione, aggiungendo cicli di traslazione al calcolo).
i tensor core nvidia sono cluster da 128x64... abnormi per l'uso gaming (almeno per altri 10 anni).
eseguono proficuamente anche spezzature (fino ad INT8), ma Nvidia ci ha mostrato che non gradisce "regalare" soluzioni PRO nel mercato gaming.
non so come riusciranno a non far usare queste soluzioni in ambito PRO (anche usando clustering a 32x32, sarebbero ottime per 4x16x16, quindi AI), ma... se hai una soluzione del genere, così versatile, la sfrutti.

per quanto riguarda l'anticipare in HW soluzioni tecniche che saranno usate in un futuro remoto, cadiamo nella stessa situazione di AMD con le 7000 adatte alle DX12, quando ancora si usavano le DX10, anche se le 11 erano da poco uscite; oggi solo incominciamo ad avere un adeguato sfruttamento.
in molti pochi titoli direi... spero che entro le prossime due generazioni si passerà definitivamente alle DX12 oppure si diffonderà ulteriormente Vulkan, ancora queste api possono dare parecchio. Gli unici giochi che mi viene in mente che valgono la pena essere giocati in DX12 sono Sniper Elite 4 (a cui sto giocando ora ed è ottimizzato benissimo), Rise of the tomb raider, so anche che Gears of war 4 è fatto per bene, e poi ovviamente c'è Doom con vulkan, che low level sono. Altri titoli importanti fra cui Battlefield 1 e Deus Ex MD hanno una parte DX12 terribile.

comunque che io sappia utilizzano pure le geforce (titan x) in deep learning... almeno così so che fanno nei laboratori della mia università, poi non so se utilizzano qualcosa di superiore...
 
Ultima modifica:
usare nvidia gtx sul deep learning non é la miglior cosa, ma di meglio non c'è, se non vuoi spendere capitali con P100.
come scrivevo Nvidia non gradisce che si usino soluzioni a basso costo in ambito pro, ma una 1080 o una Titan, pur se tarpate, hanno comunque 4 cuda core 16 bit a SM, e la titan ne conta 28, la titan xp 30.
di per se esprime una potenza, in 16 bit, comparabile ad una polaris 10, dove però devi usare openCL invece che Cuda e le sue primitive precompilate.
una delle soluzioni più strane di AMD sono le APU bristol ridge PRO... In fp16 hanno lo stesso potenziale di una titan xp, ma anche di una RX 580!
Purtroppo o per fortuna AMD usa, appunto, OpenCL, ma non é molto gradito, perché per ora é tutto a carico del programmatore.
 
i vector processor sono una naturale evoluzione del calcolo matriciale, e nel 3D quello si fa.
i tensor core presentati da nvidia, però, sono per un mercato HPC: troppo grandi.
oltretutto si pensa che questa sia solo una parte di V100, cosa progettualmente controproducente, perché su un vettore puoi usare la base che vuoi, basta che l'HW la supporti (e poi puoi andare per aggregazione, aggiungendo cicli di traslazione al calcolo).
i tensor core nvidia sono cluster da 128x64... abnormi per l'uso gaming (almeno per altri 10 anni).
eseguono proficuamente anche spezzature (fino ad INT8), ma Nvidia ci ha mostrato che non gradisce "regalare" soluzioni PRO nel mercato gaming.
non so come riusciranno a non far usare queste soluzioni in ambito PRO (anche usando clustering a 32x32, sarebbero ottime per 4x16x16, quindi AI), ma... se hai una soluzione del genere, così versatile, la sfrutti.

Io penso di poter dire con certezza che V100 in versione desktop non esisterà e semplicemente le versioni desktop (GV102, GV104 etc) il tensor core semplicemente non l'avranno.

V100 è 815mm2, ci saranno probabilmente uno o due die buoni ogni tre wafer, che va benissimo se ognuno lo vendi a 15k$ con volumi risibili, ma se li devi mettere su una scheda che al massimo del grasso colato costa 1200$ nella versione più uberpremium che nessuno compra vai in perdita secca su ogni pezzo venduto che usi quel chip.
 
... sono curioso come li faranno... sinceramente.
come hanno fatto con i pascal, tagliano tutto a livello di design e via non c'è nulla di particolare in volta gaming lato computazionale le migliorie ci saranno a livello di gestione thread.

Pascal è 5SM/PE per GPC, Volta è 7SM/PE per GPC.

gv106 → 1792cc - 14PE - 2GPC - 32Rops - 192bit se gddr5 o 128bit se gddr5x in 250/200mmq
se ci mettono le gddr5x possono anche usare solo 128bit rispetto ai 192bit della 1060, altrimenti se sono gddr5 saranno 192bit
gv104 → 3584cc - 28PE - 4GPC - 64Rops - 256bit gddr5x/gddr6 in 400mmq
gv102 → 5376cc - 42PE - 6GPC - 92Rops - 384bit gddr6 in 600mmq

i GPC e le Rops rimangono gli/le stessi/e di Pascal, ma aumentano i PE (1 SM = 1 PE) come i Cuda fp32, resta da vedere quindi i clock...
io prevedo circa un pareggio tra gv104 e gp102 con la prima in leggero vantaggio dato che la futura 1180 avrà clock sicuramente superiori e più stabili già a stock rispetto la 1080ti e considerando anche le migliorie a livello thread di volta su pascal...

se Vega RX terrà il passo di gp102/gv104 sarebbe già buono.
la stima di Vega è 490mmq, col calibro che non tiene conto dello spessore occupato dal coperchio del die è 20x26 = 520mmq, se togliamo quindi i bordi sono effettivi 19*25= 475mmq ~ 490mmq e Raja aveva dichiarato appunto poco meno di 500mmq in un tweet tempo fa.
 
Ultima modifica da un moderatore:
come hanno fatto con i pascal, tagliano tutto a livello di design e via non c'è nulla di particolare in volta gaming lato computazionale le migliorie ci saranno a livello di gestione thread.

Pascal è 5SM/PE per GPC, Volta è 7SM/PE per GPC.

gv106 → 1792cc - 14PE - 2GPC - 32Rops - 192bit se gddr5 o 128bit se gddr5x 250/200mmq
se ci mettono le gddr5x possono anche usare solo 128bit rispetto ai 192bit della 1060, altrimenti se sono gddr5 saranno 192bit
gv104 → 3584cc - 28PE - 4GPC - 64Rops - 256bit gddr5x/gddr6 400mmq
gv102 → 5376cc - 42PE - 6GPC - 92Rops - 384bit gddr6 600mmq

i GPC e le Rops rimangono gli/le stessi/e diPascal, ma aumentano i PE (1 SM = 1 PE) come i Cuda fp32, resta da vedere quindi i clock...
io prevedo circa un pareggio tra gv104 e gp102 con la prima in leggero vantaggio dato che la futura 1180 avrà clock sicuramente superiori e più stabili già a stock rispetto la 1080ti e considerando anche le migliorie a livello thread di volta su pascal...

La penso anche io cosi, se tra gv104 e gp102 ci passerà un 15% sarà già tanto, mi aspetto migliorerie sopratutto lato efficienza più che performance, un po come tra gk110 e gm204
 
La penso anche io cosi, se tra gv104 e gp102 ci passerà un 15% sarà già tanto, mi aspetto migliorerie sopratutto lato efficienza più che performance, un po come tra gk110 e gm204
dipende cosa consideri, se consideri la TXp non credo dato che il gp102 full avrebbe 256cc in più oltre che le Rops ma meno frequenza,direi un +5% al massimo a stock e in OC praticamente appaiate, se consideri la 1080ti che è gp102 cut si all'incirca un +10%...
 
dipende cosa consideri, se consideri la TXp non credo dato che il gp102 full avrebbe 256cc in più oltre che le Rops ma meno frequenza,direi un +5% al massimo a stock e in OC praticamente appaiate, se consideri la 1080ti che è gp102 cut si all'incirca un +10%...

Si io consideravo la gtx 1080ti, come dici te da titan xp sarebbe ancora più vicino il gv104
 
Si io consideravo la gtx 1080ti, come dici te da titan xp sarebbe ancora più vicino il gv104
come giustamente ricordavi non bisogna dimenticare l'incremento efficienza, la 1180 avrà un tdp ridotto sempre sui 180~200watt.
io credo che con Vega 10 e Volta gv104 rivedremo 390 e 390x vs 970 e 980
 
come giustamente ricordavi non bisogna dimenticare l'incremento efficienza, la 1180 avrà un tdp ridotto sempre sui 180~200watt.
io credo che con Vega 10 e Volta gv104 rivedremo 390 e 390x vs 970 e 980

Si potrebbe anche essere e sicuramente 1170 best buy se sarà molto vicina alla 1180 :) buon per le nostre tasche
 
come hanno fatto con i pascal, tagliano tutto a livello di design e via non c'è nulla di particolare in volta gaming lato computazionale le migliorie ci saranno a livello di gestione thread.

Pascal è 5SM/PE per GPC, Volta è 7SM/PE per GPC.

quello non è Volta.
Volta è su vector processor.
quello che descrivi è in Pascal GP10A piu' nutrito; nulla di diverso a quanto vediamo ora, con solo una sistemazione di ROP e texture process.
quindi stai dicendo che la nuova architettura non la vedremo nel comparto gaming.

per quanto riguarda la dimensione di Vega, un die shrink di Fiji porterebbe al massimo a 350mm^2
se è 490mm^2 è comunque il 40% superiore in integrazione... ma basta fare il rapporto sui transistors per capire che è un chippetto bello gonfio di novità.
 
Ultima modifica:
Pubblicità
Pubblicità
Indietro
Top