c'entra anche la capacità totale....
la ram non produce aumenti prestazionali, ma ne evidenzia i limiti.
poca banda o poca capacità portano a limitare le possibilità teoriche della logica (i processori della GPU), mentre averne in modo esagerato permette di escludere queste limitazioni, non certo a portare altri aumenti di prestazioni.
allegoricamente puoi vedere la ram come un serbatoio e la pompa dell'alimentazione di un motore da corsa che deve fare 100 giri di pista.
se il serbatoio e' piccolo, l'auto si ferma prima e dovrai rifare il pieno perdendo tempo; se la pompa ha poca portata di benzina in relazione all'apparato di alimentazione, le prestazioni saranno inferiori, e andrai piu' piano
con un serbatoio grande ed una pompa che ha una portata non limitante il motore puo' esprimere tutte le prestazioni che teoricamente puo' generare e lo puo' fare per molto molto piu' tempo... finendo la gara senza dover rifare il pieno e senza avere limitazioni prestazionali.
in tutto questo usi lo stesso motore, quindi con le stesse prestazioni teoriche.
da quanto si e' capito Vega 11 e' il rifacimento di Polaris 10, ossia della RX480, con la nuova GNC gen 5 (o V9 e comunque l'ultima incarnazione della tecnologia AMD).
già oggi la RX480 soffre, in alcuni frangenti, della velocità della ram (ha evidenti benefici nell'overclock di questa), mentre la capacità di 8GB la mette al riparo dalla saturazione, cosa che invece non avviene con fury e fury X (che hanno solo 4GB ma un potenziale largamente superiore a polaris 10).
fiji, con le sue HBM e i 512GB/s e' limitata solo dalla capacità; sfrutta la sua enorme banda per spostare piccoli quantitativi di dati e gestirli in un buffer piccolo.
difficile che, se non avesse la limitazione della capacità della ram, gli serviva tutta quella banda... probabilmente gia' con 384 o 420 non avrebbe avuto nessuna limitazione della logica; il problema e' pero' dovuto alla scarsità di spazio a disposizione.
se ti fanno una fji con HBM 2, sfruttando unicamente l'aumento di capacità di questa (e non l'ulteriore raddoppio di clock, portato da 2 a 4), con 8GB di ram, probabilmente ne vedresti il vero potenziale, ma al tempo non c'erano stack HBM oltre 1GB (oggi si parla invece che uno stack di HBM2 arrivi a 4GB).
in realtà Vega dovrebbe essere analizzato per la sua architettura, che, con le poche notizie che ci sono, sembrerebbe realmente un passo avanti.
si parla di disproporzione di clustering (se ho ben interpretato questa):
fino ad oggi l'architettura base di AMD si rifaceva unicamente ad un cluster base di 4 ALU semplici (SP).
hawaii e' l'espressione piu' compiuta di questo tipo di divisione.
le sue pipeline di calcolo sono la somma di tanti cluster da 4 SP ogniuno.
il problema e' che per fare una pipeline di calcolo da 64 step ne servono 16, e devi ogni volta ripassare per il processing unit per riprendere il calcolo; questi passaggi obbligati sono operazioni di spostamento e non di calcolo.
Maxwell invece ha una fila diretta per fare cio', e non ha passaggi intermedi.
questo, in soldoni, porta maxwell a fare un lavoro da 64 step in 66-68 step (lo spostamento finale lo deve fare anche lui), mentre porta hawaii a farne 96-98... a pari clock hawaii lavora fino a 98 ma produce 64, maxwell lavora fino a 68 e produce 64 (e poi maxwell clocka di piu'!) ecco l'enorme differenza prestazionale che si aveva.
in DX12 succede esattamente il contrario.
i calcoli non sono piu' da solo ed unicamente 64 step.
hawaii puo' fare un calcolo da 16 step con un lavoro di 24, maxwell deve eseguire tutta la pipeline per fare un lavoro da 16, quindi spende comunque fino a 68 (e non puo' fare diversamente, quindi se la possono menare quanto vogliono con gli AC implementati via SW, ma tanto rimane).
il problema di Hawaii e' pero' che... ben pochi giochi usano le vere DX12... sono sutte DX12 tier 1 e nemmeno con tutte le features!
quindi la minima frammentazione non e' 4 ma 32, adatta a Pascal (pascal fa' un lavoro "DX11" da 64 in 72 step, uno DX12 tier 1 da 32 step in 36; un lavoro DX12t1 vale 1/2 DX11, quindi il guadagno e' praticamente nullo... e solo fumo negli occhi l'uso di quel tipo di DX12).
fatto questo breve riassunto, passiamo a polaris.
polaris ha si un cluster minimo da 4 SP, ma riesce ad eliminare i passaggi su PU per 4 di questi.
quindi in DX11 un lavoro da 64 costa 72, come su Pascal.
se si usassero DX12 vere, con segmentazione a 16, farebbe quel lavoro in 18 step (che e' piu' o meno la stessa situazione di Pascal con la segmentazione a 32, ma per Pascal una segmentazione a 16 segnerebbe lo stesso handicap di maxwell).
se il lavoro e' sotto i 16 step, puo' ancora farlo senza perdite (puo' uscire dalla pipeline ad ogni cluster da 4).
e Vega?
Vega non usa piu' unicamente cluster da 4, ma da 8, da 4 e da 2, potendoli mischiare a piacere e probabilmente senza dover rientrare nel PU.
puo' cosi' adattare le sue pipeline nel modo migliore possibile alla frammentazione di codice.
ne puo' mettere due da 8 ed una da 2, per un lavoro da 18 step, che con l'uscita significa 20 step, quando Polaris e' obbligato ad usare una da 16, piu' uscita e rientro in un'altra, con uscita a 4, quindi 16+2+4+2=24 step.
totale versatilità HW, totale versatilità di codice.
solo frammentazioni dispare gli procurano un overload di 1 clock.... ma e' un peccato che si puo' perdonare...
in tutto questo come si comporterà?
a pari clock
in DX11, con la classica frammentazione a 64, andra' come maxwell.
in DX12(flase)t1 andra' come Pascal e Polaris.
in DX12(mai usate fin'ora a 16 step) andrà come Polaris.
il DX12(mai usate fin'ora a 4 step) andrà come hawaii.
in DX12(che credo mai useranno a 2 step) andra' come Vega, visto che e' l'unico che puo' contare una clusterizzzione a 2.
a pari clock... quindi si deve vedere quanto lo clockano per capire quanto il suo enorme potenziale possa essere sfruttato a dovere.
e, ben inteso, sempre dal codice di base dipende... da un codice merdoso non tiri fuori nulla di buono.
quindi anche il possibile disegno che ho fatto di Vega, non c'entra nulla.
i disegni saranno totalmente stravolti in funzione di questa diversificazione di clustering (e quindi sarà sicuramente piu' grosso).