UFFICIALE AMD RX Vega 56 e 64 - La risposta ai GP104

Booker DeWitt · 20 Settembre 2016

Tanto non credo che Vega 20 sia vicino, IMHO sarà l'ultimo della famiglia Vega ad uscire, forse verso settembre.

Molys · 21 Settembre 2016

@lucusta hai letto il rumor? :D

lucusta · 23 Settembre 2016

si... e credo abbiano fatto un sacco di confusione trà schede gaming e schede pro.

a sensazione credo che AMD possa far uscire presto una scheda PRO 28nm basata su fuji e 16GB HBM2, probabilmente dual chip da 250W.
una doppia Nano, con bulk rivisto (perche' i 28nm stanno realmente maturando oggi... hai visto i bristol ridge?), con l'aggiornamento ad HBM2 e chip da 2GB e 4GB, che era una delle limitazioni maggiori di quella scheda nell'uso professionale.

per Vega si parla di prodotto bulk, e con GF non puo' pretendere di tirare molto su' le prestazioni.
anche se avrà parte dell'architettura Polaris (i cluster da 16SP), e' solo un'aggiustamento per le DX11 non per le DX12...
portera' un po' di vantaggio per la maggiore caches, ma... il miglior adeguamento di quel chip sara' l'ampliamento della ram da 4 a 8GB, e non e' detto che sarà HBM.

GF non puo' garantire un silicio che possa competere con quello TMSC.
quindi avrai un chip sui 380-390mm^2, che e' l'ampliamento a 4090SP di Polaris, 8GB di GDDR5 per 8GB di ram o eventualmente 4 chip da 2GB di HBM 2, per un clock sui 1100mhz massimo.

si tratta quindi di avere il 5% in piu' di prestazioni pure in computazione in confronto a fury X, ma nelle situazioni in cui e' richiesta molta piu' ram (2K e 4K), finalmente non ci sara' piu' il limite di 4GB, e le prestazioni potranno essere dedicate solo alla computazione e non a spostare roba in ram.
in DX11 invece ci sarà un buon saltot prestazionale; sul 20% in piu' rispetto ora con fury X.

il fatto di avere un die che e' 3/5 di Fuji XL e che consumi sui 210-215W permetterà di non usare kit liquido, ma solo dissi aria, di far commercializzare agli AIB (cosa molto importante per abbassare il prezzo, perche' ora le fa' uno per tutti e poi vengono venduti con i nomi dei vari AIB, quindi ci sono AMD, il produttore fisico e l'AIB che devono mangiarci sopra, mentre dopo le fara' direttamente l'AIB).

questo ti portera' ad un prezzo sui 450-550 euro a seconda di quanto sarà elaborata la scheda.

le prestazioni saranno esattamente a meta' tra' 1070 e 1080 in DX11, mentre in DX12 saranno il 5% in piu' di fury X, ossia circa il 33% sopra 480, e quindi nettamente superiori a 1080, almeno sui giochi che usano realmente le DX12 e non le tier 1.

quindi, probabilmente, esisterà anche un'altra scheda, che sostituirà la Fury, con decurtazione degli SP ed uso di soli 4GB di RAM, per contrastare la 1070.
andrà uguale in DX11 e il 10% in piu' in DX12, con un prezzo di un centinaio di euro in meno, quindi da 350 a 450 euro.

per farti un esempio questo e' Polaris 10:

Die Shot - AMD Polaris 10 - Annotated.webp

e' un chip da 17.3x13.4mm per 232mm^2, 36CU e 32ROPs per 2304SP, 8 controller memoria GDDR5 a 32 bit ed il resto del chip...
ho fatto un'allungamento, stile Fuji:

ed ora e' un chip da 72CU, 64 ROPs, al posto dei controller GDDR5 ho messo 4 HBM da 1024, il resto del chip e mi sono avanzati pure 2 controller GDDR5, da utilizzare proficuamente come caches o ramdac...
cosi' fatto e' 28.2x13.5mm, ossia 380mm^2, e la sua lunghezza predilige sia il raffreddamento che lo spazio laterale sufficiente a mettere 2 chip HBM2 per lato...
un chip da 4608 SP, il doppio di Polaris 10 XT, quindi anche con sufficiente garanzie di poter eliminare 4CU per aumentare la resa.

ad usarlo full farebbe il 10% in meno di Titan X... a 1ghz pero', ed in DX11.
quindi, qualsiasi cosa che tirano fuori, sarà appetitosa.
se vai a vedere il chip della Scorpio, ha piu' o meno questa forma... non usa le HBM, ma, come vedi, c'e' posto per mettere quasi 12 stack 32b di GDDR5 (384GB/s con le GDDR5 da 8Ghz), ed il fatto che MS dica che la nuova Xbox potrà fare il 4K non mi sembra cosi' fuori luogo, contando che sarà un chip che andrà a 900mhz.
ad occhio i 30fps a 4K con setting da PC li riuscirebbe a tenere, figuriamoci su una console.

in ultimo Vega 10 e Vega 11 potrebbero essere delle revisioni dello stesso schema uno con GDDR5 ed uno con HBM... d'altronde la Xbox andrà con GDDR5 e credo che abbandoneranno i chip APU per fare dei chip separati, non customizzati e quindi molto piu' economici...
e poi una Vega piu' mezzo Zen non ce li vedo convivere bene sullo stesso die... diventa una pizza!

Booker DeWitt · 23 Settembre 2016

Lucusta, quindi Vega 10 consumer immagino monterà 8GB di VRAM HBM2, con un TDP di quanto? Calcola che la Vega 10 Pro la danno a 225W. La consumer potrebbe consumare meno? Inoltre, quanta potenza TF potrà avere? 10 TF?

lucusta · 23 Settembre 2016

se usa HBM2 sara' sui 220 di TDP (ma conta che AMD indica il consumo dell'intera board, non del solo chip e che il consumo dpenderà da quanto oseranno con la frequenza); con le GDDR5 il consumo e' considerevolmente piu' alto, anche di 20-25W.
il chip GDDR5 potrebbe essere quello per Scorpio (se vai alla quasi presentazione che ha fatto MS vedrai che come dimensioni somiglia molto), che non sembra sarà dotata di HBM, ma non e' detto che non lo usino anche per i gamer con qualche SP tagliato e GDDR5, in modo da fare una scheda competitiva per 1070 ed abbattere il prezzo...
a 1Ghz farebbe 9TF 32b, 9.5TF @1050, 10TF @1100... non credo che per ora possano aumentare oltre la frequenza, se non in uno stato di booster...
in questo modo risulterebbe piu' o meno sulle prestazioni di 1080, come i 5.5TF di RX480 si possono confrontare con i 4.3TF della 1060.

se fosse cosi', come disegnato, percio' con 72CU e 4608SP c'e' il 12.5% d'incremento di componenti HW, quindi possono scendere con la frequenza a 950mhz per ottenere 10TF (e la RX480 piu' sta vicino a 900 meglio si esprimono in relazione al consumo, solo che avrebbe molte meno prestazioni). a quei livelli la board potrebbe rientrare nei 190-200W con 8GB HBM2.
non c'e' quindi frenesia di dover prendere i 2Ghz, con tutta quella roba.

difficile che la facciano da 16GB, soprattutto se HBM2.. con quella banda sulle memorie basterebbero pure 4GB, come la fury x.
in ambito PRO, invece, e' quasi necessario.

Booker DeWitt · 23 Settembre 2016

Lucusta te che sei un esperto, onestamente, faccio bene ad aspettare Vega 10 invece di prendermi prima una 1080? Anche te dici che starà su quei livelli, però, con un certo vantaggio in DX12, cosa non da poco nel medio e lungo termine.

SuperGiachi · 23 Settembre 2016

Conta che se vuoi aspettare l'attesa è bella lunga...

lucusta · 23 Settembre 2016

si, questo e' vero... almeno 2 mesi, e non sarà economica, almeno all'inizio, per lo stesso motivo della rx480: ci speculano perche' finiscono le scorte.
dipende anche quanto vuoi "rimetterci" con la 1080, perche' uscito Volta... e' come oggi chiederti se vuoi una 980Ti a 500-600 euro...
o una fermi...
non ha ne senso ne ragione: se ti serve e hai la possibilità nessuno puo' criticare la scelta... ad oggi c'e' quella, volente o nolente.

la questione di molte mie "precisazioni" e' non e' perche' a me stà antipatica nvidia o piaccia AMD, (anche se non comprero' mai piu' nvidia per me, ma sono scusato dal fatto che io non gioco con il PC, almeno finche' mia figlia non mi costringerà a farlo con lei... una APU per me e' specata..), ma perche' molti utenti ignorano quello che c'e' realmente dietro a queste prestazioni, facendo crescere l'enfasi per HW che poi, in effetti, non ha quel reale valore.

ma, scusami, tu riesci a distinguere se un gioco va' a 55 o 65fps (magari con un monitor in sincrono con i frame, gsync o free che sia)?
non cambia nulla...
e' come parlare di Apple VS android...
lamborghini e ferrari...
milan o juve...
stessa identica cosa.

io posso dirti solo che negli anni che ho passato davanti ai PC (ed ormai son tanti), ci ho speso un patrimonio, prima per giocare, poi per capire e ora per fare e capire... oggi guardo cosa offre il mercato, quali sono le mie esigenze del momento, e quanti soldi ho da buttare per comprare una cosa che probabilmente in verità manco mi serve, consapevole di farlo.
se qualcuno mi critica (perche' c'e' sempre chi ti critica), faccio spallette e mi giro... non e' che sto a chiedermi cosa ne pensano gli altri dei miei comportamenti compulsivi.
lora avranno i propri e non sono cosi' curioso da chiederli.

comunque, tornando al discorso 1080... fatti una 1070 che e' meglio (la 1080 non vale tutti quei soldi e la 1070 e' la piu' bilanciata).

baldussi · 26 Settembre 2016

condivido, nell'attesa ho optato per una 1070, molto più rivendibile

Booker DeWitt · 26 Settembre 2016

Probabilmente avrei preso una 1070 anche io, ma siccome non ho problemi, aspetto direttamente Vega 10.

lucusta · 30 Settembre 2016

Un'altro modo, piu' razionale, di vedere vega:
ora ha due processing units
il raddoppio di polaris, con 4 stack HBM, 4MB di caches 4608 SP, 72 ROPs, ed il resto di polaris sistemato qua e la'... anche questo mi viene da 380mm^2.
e' piu' probabile che sia cosi' che affidare ad un unico PU tutto il lavoro.
magari l'ho stretto un po' troppo...

_Gemba_ · 7 Ottobre 2016

Ragazzi c'è un rumor in cui si parla di vega 11 con 8GB di vram hbm2.
Volevo chiedere alla fine cosa cambia tra hbm2 e gddr5(x). C'è davvero un aumento di prestazioni/efficienza?

pribolo · 7 Ottobre 2016

_Gemba_ ha detto:
Ragazzi c'è un rumor in cui si parla di vega 11 con 8GB di vram hbm2.
Volevo chiedere alla fine cosa cambia tra hbm2 e gddr5(x). C'è davvero un aumento di prestazioni/efficienza?

Certo: consumano meno e sono molto più veloci.
Ma innanzitutto i consumi totali non risentono in maniera enorme del risparmio sulla VRAM: saremo sui 20 watt in meno rispetto a 12 chip di GDDR5X a spanne.

Inoltre, è vero che a livello di bandwidth sono molto più rapide delle GDDR5X: 4 stack di HBM2 fanno dai 750GB\s a 1TB\s a seconda del clock, mentre le GDDR5X 10Gbps su un BUS a 384bit farebbero 480GB\s. Però bisogna considerare anche che l''aumento di bandwidth non si riflette in modo proporzionale sulle performance della GPU perchè in molti contesti conta più la potenza della GPU stessa che la velocità della VRAM (che comunque ha una sua influenza). Per esempio le GTX980ti (custom) con 336GB\s di bandwidth sono spesso e volentieri davanti alla FuryX che hanno le HBM e hanno un bandwidth mostruoso di 512GB\s. Insomma, ok avere un bandwidth alto, ma per le prestazioni finali della scheda conta molto anche la capacità del chip.

lucusta · 8 Ottobre 2016

c'entra anche la capacità totale....

la ram non produce aumenti prestazionali, ma ne evidenzia i limiti.
poca banda o poca capacità portano a limitare le possibilità teoriche della logica (i processori della GPU), mentre averne in modo esagerato permette di escludere queste limitazioni, non certo a portare altri aumenti di prestazioni.

allegoricamente puoi vedere la ram come un serbatoio e la pompa dell'alimentazione di un motore da corsa che deve fare 100 giri di pista.
se il serbatoio e' piccolo, l'auto si ferma prima e dovrai rifare il pieno perdendo tempo; se la pompa ha poca portata di benzina in relazione all'apparato di alimentazione, le prestazioni saranno inferiori, e andrai piu' piano
con un serbatoio grande ed una pompa che ha una portata non limitante il motore puo' esprimere tutte le prestazioni che teoricamente puo' generare e lo puo' fare per molto molto piu' tempo... finendo la gara senza dover rifare il pieno e senza avere limitazioni prestazionali.
in tutto questo usi lo stesso motore, quindi con le stesse prestazioni teoriche.

da quanto si e' capito Vega 11 e' il rifacimento di Polaris 10, ossia della RX480, con la nuova GNC gen 5 (o V9 e comunque l'ultima incarnazione della tecnologia AMD).
già oggi la RX480 soffre, in alcuni frangenti, della velocità della ram (ha evidenti benefici nell'overclock di questa), mentre la capacità di 8GB la mette al riparo dalla saturazione, cosa che invece non avviene con fury e fury X (che hanno solo 4GB ma un potenziale largamente superiore a polaris 10).
fiji, con le sue HBM e i 512GB/s e' limitata solo dalla capacità; sfrutta la sua enorme banda per spostare piccoli quantitativi di dati e gestirli in un buffer piccolo.
difficile che, se non avesse la limitazione della capacità della ram, gli serviva tutta quella banda... probabilmente gia' con 384 o 420 non avrebbe avuto nessuna limitazione della logica; il problema e' pero' dovuto alla scarsità di spazio a disposizione.
se ti fanno una fji con HBM 2, sfruttando unicamente l'aumento di capacità di questa (e non l'ulteriore raddoppio di clock, portato da 2 a 4), con 8GB di ram, probabilmente ne vedresti il vero potenziale, ma al tempo non c'erano stack HBM oltre 1GB (oggi si parla invece che uno stack di HBM2 arrivi a 4GB).

in realtà Vega dovrebbe essere analizzato per la sua architettura, che, con le poche notizie che ci sono, sembrerebbe realmente un passo avanti.
si parla di disproporzione di clustering (se ho ben interpretato questa):

fino ad oggi l'architettura base di AMD si rifaceva unicamente ad un cluster base di 4 ALU semplici (SP).
hawaii e' l'espressione piu' compiuta di questo tipo di divisione.
le sue pipeline di calcolo sono la somma di tanti cluster da 4 SP ogniuno.
il problema e' che per fare una pipeline di calcolo da 64 step ne servono 16, e devi ogni volta ripassare per il processing unit per riprendere il calcolo; questi passaggi obbligati sono operazioni di spostamento e non di calcolo.
Maxwell invece ha una fila diretta per fare cio', e non ha passaggi intermedi.
questo, in soldoni, porta maxwell a fare un lavoro da 64 step in 66-68 step (lo spostamento finale lo deve fare anche lui), mentre porta hawaii a farne 96-98... a pari clock hawaii lavora fino a 98 ma produce 64, maxwell lavora fino a 68 e produce 64 (e poi maxwell clocka di piu'!) ecco l'enorme differenza prestazionale che si aveva.
in DX12 succede esattamente il contrario.
i calcoli non sono piu' da solo ed unicamente 64 step.
hawaii puo' fare un calcolo da 16 step con un lavoro di 24, maxwell deve eseguire tutta la pipeline per fare un lavoro da 16, quindi spende comunque fino a 68 (e non puo' fare diversamente, quindi se la possono menare quanto vogliono con gli AC implementati via SW, ma tanto rimane).
il problema di Hawaii e' pero' che... ben pochi giochi usano le vere DX12... sono sutte DX12 tier 1 e nemmeno con tutte le features!
quindi la minima frammentazione non e' 4 ma 32, adatta a Pascal (pascal fa' un lavoro "DX11" da 64 in 72 step, uno DX12 tier 1 da 32 step in 36; un lavoro DX12t1 vale 1/2 DX11, quindi il guadagno e' praticamente nullo... e solo fumo negli occhi l'uso di quel tipo di DX12).

fatto questo breve riassunto, passiamo a polaris.
polaris ha si un cluster minimo da 4 SP, ma riesce ad eliminare i passaggi su PU per 4 di questi.
quindi in DX11 un lavoro da 64 costa 72, come su Pascal.
se si usassero DX12 vere, con segmentazione a 16, farebbe quel lavoro in 18 step (che e' piu' o meno la stessa situazione di Pascal con la segmentazione a 32, ma per Pascal una segmentazione a 16 segnerebbe lo stesso handicap di maxwell).
se il lavoro e' sotto i 16 step, puo' ancora farlo senza perdite (puo' uscire dalla pipeline ad ogni cluster da 4).
e Vega?
Vega non usa piu' unicamente cluster da 4, ma da 8, da 4 e da 2, potendoli mischiare a piacere e probabilmente senza dover rientrare nel PU.
puo' cosi' adattare le sue pipeline nel modo migliore possibile alla frammentazione di codice.
ne puo' mettere due da 8 ed una da 2, per un lavoro da 18 step, che con l'uscita significa 20 step, quando Polaris e' obbligato ad usare una da 16, piu' uscita e rientro in un'altra, con uscita a 4, quindi 16+2+4+2=24 step.
totale versatilità HW, totale versatilità di codice.
solo frammentazioni dispare gli procurano un overload di 1 clock.... ma e' un peccato che si puo' perdonare...

in tutto questo come si comporterà?
a pari clock
in DX11, con la classica frammentazione a 64, andra' come maxwell.
in DX12(flase)t1 andra' come Pascal e Polaris.
in DX12(mai usate fin'ora a 16 step) andrà come Polaris.
il DX12(mai usate fin'ora a 4 step) andrà come hawaii.
in DX12(che credo mai useranno a 2 step) andra' come Vega, visto che e' l'unico che puo' contare una clusterizzzione a 2.

a pari clock... quindi si deve vedere quanto lo clockano per capire quanto il suo enorme potenziale possa essere sfruttato a dovere.

e, ben inteso, sempre dal codice di base dipende... da un codice merdoso non tiri fuori nulla di buono.

quindi anche il possibile disegno che ho fatto di Vega, non c'entra nulla.
i disegni saranno totalmente stravolti in funzione di questa diversificazione di clustering (e quindi sarà sicuramente piu' grosso).

pribolo · 8 Ottobre 2016

Lucusta però leggendoti sulla frammentazione del codice, mi viene da pensare che non vedremo nessun motore utilizzare codice a 4-16 step nel medio termine se ciò volesse dire azzoppare l'80% delle schede grafiche attualmente montate dai giocatori, cioè tutte quelle non GCN.
Ciò potrebbe avvenire solo quando buona parte dei giocatori enthusiast, i più attenti alle performance, avrà nel PC una scheda grafica in grado di gestire senza grossi handicap un codice più granulare: altrimenti non credo che qualche sviluppatore si azzardi a far uscire un gioco che va bene solo su una determinata architettura, per giunta minoritaria a livello di numeri sul mercato.

Quindi avere una GPU che gestisce bene tutti i codici, al momento e forse anche nel medio termine, non è fondamentale: anzi, se ciò si paga con maggiori dimensioni e in buona sostanza con maggiori consumi potrebbe addirittura essere uno svantaggio rispetto alle Pascal che sono ottimizzate per i carichi attuali. Chiaramente sto pensando soprattutto all'uscita sul mercato, perchè alla fine la maggior parte delle persone basano i propri acquisti sui bench dell'uscita (se li guardano), senza informarsi troppo sulle prospettive che una determinata architettura può dare al prodotto con il passare del tempo.

UFFICIALE AMD RX Vega 56 e 64 - La risposta ai GP104

Booker DeWitt

Molys

lucusta

Booker DeWitt

lucusta

Booker DeWitt

SuperGiachi

lucusta

baldussi

Utente Attivo

Booker DeWitt

lucusta

_Gemba_

Utente Attivo

pribolo

Moderatore

lucusta

pribolo

Moderatore