UFFICIALE GTX 970 Discussione Ufficiale.

ashan · 26 Gennaio 2015

AnandTech | GeForce GTX 970: Correcting The Specs & Exploring Memory Allocation

pare sia la risposta da parte di nvidia.

SolidSnake1989 · 26 Gennaio 2015

ashan ha detto:
AnandTech | GeForce GTX 970: Correcting The Specs & Exploring Memory Allocation

pare sia la risposta da parte di nvidia.

ottimo.. anandtech rimangono sempre i migliori

pribolo · 26 Gennaio 2015

Wow, è forse una delle letture più illuminanti su una GPU che ho mai fatto finora: consiglio a chiunque sappia un minimo di inglese di cimentarsi perchè distrugge veramente ogni dubbio su come è fatta la GPU della 970...
In particolare questa immagine, anche da sola, è illuminante:

Provo a fare un riassunto comunque, vediamo se mi riesce.

- - - Updated - - -

Premessa: il mio obbiettivo non è la perfetta correttezza tecnica (poichè tra l'altro alcuni aspetti mi sfuggono), quanto piuttosto far capire la questione.

Nvidia, con la nuova architettura Maxwell è in grado di disabilitare parzialmente i cluster ROP: se prima questi potevano essere o completamente accesi o completamente spenti, ora Nvidia è in grado di disabilitarli anche parzialmente. Questo è proprio il giochetto che hanno deciso di fare con la 970, presumibilmente per ridurre i costi, e non è stato segnalato per un errore, almeno a detta di Nvidia (per approfondire, c'è l'articolo).

In particolare Nvidia ha disabilitato metà di un cluster ROP portando la conta totale dei ROP\s a 56 e facendo questo ha dovuto per forza disattivare una delle 8 unità di cache L2 (portando il totale a 1.75MB), poichè è legata strettamente ai ROP\s. I ROP\s, per chiarezza, sono quelle unità che si occupano di trasformare i calcoli della GPU in pixel che poi sono usati per comporre l'immagine. Hanno anche un ruolo importante nella applicazione dei vari temporal AA (MSAA in primis).

Ora tornando a noi... Possiamo dire che la cache L2 fa da ponte tra i controller di memoria, che a loro volta sono collegati con i chip VRAM, e la crossbar, dalla quali i vari SMM attingono le informazioni di cui necessitano per lavorare. Nella GTX970, tutti e 8 i controller di memoria a 32Bit sono attivi generando quindi un BUS di 256Bit e controllando 4GB di VRAM a tutti gli effetti, con bandwidth massimo di 224GB\s.
Ma se ci sono disponibili solo 7 ponti crossbar, perchè altrettanti sono i settori di memoria L2 attivi, come diavolo sono collegati gli 8 controller? :boh:

Beh, per forza di cose, a un ponte, sono attaccati ben 2 controller di memoria. Viene istintivo pensare che un ponte solo non possa sostenere le prestazioni di due controller di memoria a pieno regime (ed è così). Viene quindi da questo problema la decisione di Nvidia di fare una partizione primaria utilizzando solo 7 controller di memoria (su altrettanti ponti crossbar), che controllano 3.5GB di VRAM complessivamente. Facendo due calcoli, questa partizione può arrivare a un bandwidth complessivo di 196GB\s (228*7:8) usando un BUS aggregato di 224Bit, formato dai 7 controller.
Nvidia crea poi un'altra partizione da 512MB utilizzando l'ultimo controller di memoria, che può raggiungere un bandwidth di solo (si fa per dire) 28GB\s, avendo un BUS effettivo di soli 32Bit.
Per di più, essendo l'ottavo controller collegato anch'esso al settimo ponte, la scheda non è in grado di scrivere contemporaneamente e a piena velocità su entrambe le partizioni, in quanto condividono un ponte.

La situazione è intricata e per ridurre al minimo ogni impatto prestazionale è ovvio che gli ingegneri Nvidia hanno deciso di partizionare la memoria, favorendo la partizione più ampia e veloce da 3.5GB.
Solo quando questa partizione è piena, si può pensare, a malincuore, di attingere all'altra molto più lenta, gestita dall'ottavo controller, da 512MB, perchè è comunque decisamente più veloce della RAM di sistema.

Cosa succede quindi se un gioco richiede 4GB? Per forza di cose sarà usata la partizione lenta, ma non certo mettendo dati a caso. Nvidia ha implementato un protocollo euristico avanzato che si occupa di scegliere quali informazioni vanno a finire nella partizione veloce e quali vengono eventualmente spostate in quella lenta: candidati ideali alla partizione 2 sono per esempio i dati del S.O o delle applicazioni non in uso, la cache del gioco oppure texture\informazioni non usate da tempo. In questo modo si evita (o quasi) qualsiasi stuttering o rallentamento improvviso nel quale invece sarebbe possibile incorrere se non ci fosse questo algoritmo, eprchè la differenza di velocità tra le due partizioni è decisamente elevata.

Perchè mai io acquirente mi dovrei fidare di questo fantomatico algoritmo Nvidia? :oogle: Beh, semplice: perchè già viene usato e nessuno si lamenta. Le GTX660ti\660, con debite differenze, usano anche loro un sistema simile, visto che, anche loro, hanno la memoria asincrona (una parte è più veloce dell'altra). Quindi un sistema del genere è già collaudato, anche se veniva usato da schede di fascia inferiore.

Certo, permane il fastidio di avere una scheda pubblicizzata come modello con BUS da 256Bit quando in realtà esso è da 224Bit, anche nel migliori dei casi, ovvero con memoria allocata inferiore ai 3.5GB. Però, sapete che cosa: i benchmark fatti finora sono stati realizzati tutti con GTX970 fatte in questo modo e le performance sono ottime, come tutti vediamo. Quindi io non ho niente da recriminare per il mio acquisto, perchè l'ho fatto conoscendo specifiche false, ma performance vere, ed è questa la cosa più importante IMHO.

OK credo di aver finito. Spero che questo wall text sia utile a qualcuno: chi non ha voglia di leggersi 4 pagine in inglese apprezzerà. :asd:

P.S Questo casino spiega anche il motivo del distacco tra GTX970 e GTX980 in 4K, che era altrimenti pressochè inspiegabile. Il Bandwidth conta molto alle alte risoluzioni è già la GTX980 non ne ha tantissimo: la GTX970, come si è scoperto, ne ha ancora meno.
Tra l'altro, a tal proposito, c'è anche da aggiungere un interessante considerazione riguardante il pixel fiilrate massimo della 970, ma non mi dilungo ulteriormente. Vi lascio il link del luogo dove se ne parla però: Here's another reason the GeForce GTX 970 is slower than the GTX 980 - The Tech Report

ashan · 26 Gennaio 2015

Ottima spiegazione complimenti :)

GUKA81 · 26 Gennaio 2015

A me non è mai interessato, gioco su una TV a 180p e non intendo cambiare TV prima della scheda video.
PERÒ chi ha preso uno sli oppure vuole giocare in 2k o superiore ovvio che rode un pochino..
Che dire speri che nvidia offra gratis un gioco tipo gta5
o The Whitcer 3 per sdebitarsi

Utente cancellato 159815 · 26 Gennaio 2015

pribolo ha detto:
Wow, è forse una delle letture più illuminanti su una GPU che ho mai fatto finora: consiglio a chiunque sappia un minimo di inglese di cimentarsi perchè distrugge veramente ogni dubbio su come è fatta la GPU della 970...
In particolare questa immagine, anche da sola, è illuminante:
Visualizza allegato 145098

Provo a fare un riassunto comunque, vediamo se mi riesce.

- - - Updated - - -

Premessa: il mio obbiettivo non è la perfetta correttezza tecnica (poichè tra l'altro alcuni aspetti mi sfuggono), quanto piuttosto far capire la questione.

Nvidia, con la nuova architettura Maxwell è in grado di disabilitare parzialmente i cluster ROP: se prima questi potevano essere o completamente accesi o completamente spenti, ora Nvidia è in grado di disabilitarli anche parzialmente. Questo è proprio il giochetto che hanno deciso di fare con la 970, presumibilmente per ridurre i costi, e non è stato segnalato per un errore, almeno a detta di Nvidia (per approfondire, c'è l'articolo).

In particolare Nvidia ha disabilitato metà di un cluster ROP portando la conta totale dei ROP\s a 56 e facendo questo ha dovuto per forza disattivare una delle 8 unità di cache L2 (portando il totale a 1.75MB), poichè è legata strettamente ai ROP\s. I ROP\s, per chiarezza, sono quelle unità che si occupano di trasformare i calcoli della GPU in pixel che poi sono usati per comporre l'immagine. Hanno anche un ruolo importante nella applicazione dei vari temporal AA (MSAA in primis).

Ora tornando a noi... Possiamo dire che la cache L2 fa da ponte tra i controller di memoria, che a loro volta sono collegati con i chip VRAM, e la crossbar, dalla quali i vari SMM attingono le informazioni di cui necessitano per lavorare. Nella GTX970, tutti e 8 i controller di memoria a 32Bit sono attivi generando quindi un BUS di 256Bit e controllando 4GB di VRAM a tutti gli effetti, con bandwidth massimo di 224GB\s.
Ma se ci sono disponibili solo 7 ponti crossbar, perchè altrettanti sono i settori di memoria L2 attivi, come diavolo sono collegati gli 8 controller? :boh:

Beh, per forza di cose, a un ponte, sono attaccati ben 2 controller di memoria. Viene istintivo pensare che un ponte solo non possa sostenere le prestazioni di due controller di memoria a pieno regime (ed è così). Viene quindi da questo problema la decisione di Nvidia di fare una partizione primaria utilizzando solo 7 controller di memoria (su altrettanti ponti crossbar), che controllano 3.5GB di VRAM complessivamente. Facendo due calcoli, questa partizione può arrivare a un bandwidth complessivo di 196GB\s (228*7:8) usando un BUS aggregato di 224Bit, formato dai 7 controller.
Nvidia crea poi un'altra partizione da 512MB utilizzando l'ultimo controller di memoria, che può raggiungere un bandwidth di solo (si fa per dire) 28GB\s, avendo un BUS effettivo di soli 32Bit.
Per di più, essendo l'ottavo controller collegato anch'esso al settimo ponte, la scheda non è in grado di scrivere contemporaneamente e a piena velocità su entrambe le partizioni, in quanto condividono un ponte.

La situazione è intricata e per ridurre al minimo ogni impatto prestazionale è ovvio che gli ingegneri Nvidia hanno deciso di partizionare la memoria, favorendo la partizione più ampia e veloce da 3.5GB.
Solo quando questa partizione è piena, si può pensare, a malincuore, di attingere all'altra molto più lenta, gestita dall'ottavo controller, da 512MB, perchè è comunque decisamente più veloce della RAM di sistema.

Cosa succede quindi se un gioco richiede 4GB? Per forza di cose sarà usata la partizione lenta, ma non certo mettendo dati a caso. Nvidia ha implementato un protocollo euristico avanzato che si occupa di scegliere quali informazioni vanno a finire nella partizione veloce e quali vengono eventualmente spostate in quella lenta: candidati ideali alla partizione 2 sono per esempio i dati del S.O o delle applicazioni non in uso, la cache del gioco oppure texture\informazioni non usate da tempo. In questo modo si evita (o quasi) qualsiasi stuttering o rallentamento improvviso nel quale invece sarebbe possibile incorrere se non ci fosse questo algoritmo, eprchè la differenza di velocità tra le due partizioni è decisamente elevata.

Perchè mai io acquirente mi dovrei fidare di questo fantomatico algoritmo Nvidia? :oogle: Beh, semplice: perchè già viene usato e nessuno si lamenta. Le GTX660ti\660, con debite differenza, usano anche loro un sistema simile, visto che, anche loro, hanno la memoria asincrona (una parte è più veloce dell'altra). Quindi un sistema del genere è già collaudato, anche se veniva usato da schede di fascia inferiore.

Certo, permane il fastidio di avere una scheda pubblicizzata come modello con BUS da 256Bit quando in realtà esso è da 224Bit, anche nel migliori dei casi, ovvero con memoria allocata inferiore ai 3.5GB. Però, sapete che cosa: i benchmark fatti finora sono stati realizzati tutte con GTX970 fatte in questo modo e le performance sono ottime, come tutti vediamo. Quindi io non ho niente da recriminare per il mio acquisto, perchè l'ho fatto conoscendo specifiche false, ma performance vere, ed è questa la cosa più importante IMHO.

OK credo di aver finito. Spero che questo wall text sia utile a qualcuno: chi non ha voglia di leggersi 4 pagine in inglese apprezzerà. :asd:

P.S Questo casino spiega anche il motivo del distacco tra GTX970 e GTX980 in 4K, che era altrimenti pressochè inspiegabile. Il Bandwidth conta molto alle alte risoluzioni è già la GTX980 non ne ha tantissimo: la GTX970, come si è scoperto, ne ha ancora meno.
Tra l'altro, a tal proposito, c'è anche da aggiungere un interessante considerazione riguarda al pixel fiilrate massimo, ma non mi dilungo ulteriormente. Vi lascio il link del luogo dove se ne parla però: Here's another reason the GeForce GTX 970 is slower than the GTX 980 - The Tech Report

Da applausi. Hai pure linkato il test sul Pixel fillrate che ti segnalavo. Incredibile quanto sia più raffinata la gestione memoria di GTX 970 e lineare quella di GTX 980.

Segnalo anche questa: Nvidia: the GeForce GTX 970 works exactly as intended - The Tech Report - Page 1

pribolo · 26 Gennaio 2015

Lordpkappa ha detto:
Da applausi. Hai pure linkato il test sul Pixel fillrate che ti segnalavo. Incredibile quanto sia più raffinata la gestione memoria di GTX 970 e lineare quella di GTX 980.

Segnalo anche questa: Nvidia: the GeForce GTX 970 works exactly as intended - The Tech Report - Page 1

La leggerò, anche se credo che aggiungere qualcosa a quella di Anand sia difficile... Beh, Lord, alla fine io ho tradotto e riassunto, non è farina del mio sacco. :lol: Comunque grazie.
A proposito, ci sarà da modificare, al primo post, l'immagine del GM204 castrato, magari prendendo proprio quella di Anandtech e la tabella con le specifiche. Bisognerebbe indicare i 56ROP\s, la cache da 1.75MB e i 224Bit di BUS (sebbene poi non sia corretto al 100% nemmeno questo valore).

Utente cancellato 159815 · 26 Gennaio 2015

Sto pensando di fare un post riassuntivo quando si calmano le acque.

SolidSnake1989 · 26 Gennaio 2015

GUKA81 ha detto:
A me non è mai interessato, gioco su una TV a 180p e non intendo cambiare TV prima della scheda video.
PERÒ chi ha preso uno sli oppure vuole giocare in 2k o superiore ovvio che rode un pochino..
Che dire speri che nvidia offra gratis un gioco tipo gta5
o The Whitcer 3 per sdebitarsi

nah in 2k non perde poi cosi tanto, in 4k però confronto le 290x perdono parecchio soprattutto in config multi gpu

demadavide · 26 Gennaio 2015

pribolo ha detto:
La leggerò, anche se credo che aggiungere qualcosa a quella di Anand sia difficile... Beh, Lord, alla fine io ho tradotto e riassunto, non è farina del mio sacco. :lol: Comunque grazie.
A proposito, ci sarà da modificare, al primo post, l'immagine del GM204 castrato, magari prendendo proprio quella di Anandtech e la tabella con le specifiche. Bisognerebbe indicare i 56ROP\s, la cache da 1.75MB e i 224Bit di BUS (sebbene poi non sia corretto al 100% nemmeno questo valore).

Per i rops e la cache ok, ma il bus, anche se si trova sull'ottavo ponte, è utilizzabile sempre come passaggio dati, quindi è sempre effettivo. Inoltre con un aggiornamento via software (ovvero driver) Alben ha detto che anche quei 512 MB potrebbero essere veloci quanto i 3.5, aggiungendo che comunque, già così, la differenza con una 980 in quel piccolo segmento è infima. E che tutto è voluto comunque per far si che i primi sette ponti di memoria (3.5) siano al massimo dell' efficienza. Perché se è vero che a risoluzioni alte come il 4k la 970 è più lenta di ben un 30 % rispetto alla 980 è altrettanto vero in effetti che con un overclock di 200 mhz ne rasenta le performance a 1080 p e si avvicina anche nel 2k.

- - - Updated - - -

E anche per i rops comunque, se posso, non scriverei 56 ma 56+8 perché non sono disabilitati, ma soltanto in pausa, e quando chiamati ad agire agiscono alla stessa velocità degli altri 56, quindi i rops non risentono del gap di memoria
. Comunque ammetto che "grazie" a questa architettura mi sono dovuto fare una bella cultura in più sul funzionamento gpu. Non tutto il "sale vien per cuocere". :D

GUKA81 · 27 Gennaio 2015

SolidSnake1989 ha detto:
nah in 2k non perde poi cosi tanto, in 4k però confronto le 290x perdono parecchio soprattutto in config multi gpu

Sì infatti in 1080p sta davanti in molti giochi alla 290x.
Cmq alla fine i benck non sono fallati, quelle erano le prestazioni e tale rimangono.
infatti l unico errore di Nvidia è stato non specificare correttamente l hardware.

demadavide · 27 Gennaio 2015

Una cosa che non capisco però è sull'uso del bus a 256 bit. Nel senso, prendiamo una 770 con 2Gb di memoria (so che sono ovviamente due architetture diverse). I 2 Gb della 770 vengono fatti passare sempre da un bus da 256 bit, ma se uso un giga invece? 256 o 128?
In tutte le schede il bus è dato dalla somma delle parti utilizzate, quindi in teoria dovrebbe essere relativo alla memoria che sto utilizzando, noo?
Come nel caso della 970, se uso i tanto discussi 3.5 Gb uso un bus da 224 ma se ne uso meno, mettiamo 2 Gb di v ram?

- - - Updated - - -

Comunque sia anche sul sito di Anandtech (ho ricontrollato ora per sicurezza) anche nella versione corretta il bus rimane di 256 bit.

ashan · 27 Gennaio 2015

demadavide ha detto:
Per i rops e la cache ok, ma il bus, anche se si trova sull'ottavo ponte, è utilizzabile sempre come passaggio dati, quindi è sempre effettivo. Inoltre con un aggiornamento via software (ovvero driver) Alben ha detto che anche quei 512 MB potrebbero essere veloci quanto i 3.5, aggiungendo che comunque, già così, la differenza con una 980 in quel piccolo segmento è infima. E che tutto è voluto comunque per far si che i primi sette ponti di memoria (3.5) siano al massimo dell' efficienza. Perché se è vero che a risoluzioni alte come il 4k la 970 è più lenta di ben un 30 % rispetto alla 980 è altrettanto vero in effetti che con un overclock di 200 mhz ne rasenta le performance a 1080 p e si avvicina anche nel 2k.

- - - Updated - - -

E anche per i rops comunque, se posso, non scriverei 56 ma 56+8 perché non sono disabilitati, ma soltanto in pausa, e quando chiamati ad agire agiscono alla stessa velocità degli altri 56, quindi i rops non risentono del gap di memoria
. Comunque ammetto che "grazie" a questa architettura mi sono dovuto fare una bella cultura in più sul funzionamento gpu. Non tutto il "sale vien per cuocere". :D

Quindi,scusate se dico una fesseria,con dei driver migliori le performance potrebbero anche aumentare?

demadavide · 27 Gennaio 2015

ashan ha detto:
Quindi,scusate se dico una fesseria,con dei driver migliori le performance potrebbero anche aumentare?

Non è una fesseria, con i driver nuovi, come da prassi, le performance aumenteranno di sicuro (in fondo sono schede neonate di appena 4 mesi). Il bello è che se riescono anche a abilitare del tutto i 3 input disabilitati via software ( perché in effetti fisicamente ci sono), potremmo avere delle sorprese ancora più gradite. E forse forse, per farsi "perdonare" ci sta proprio di sì, ho un vago presentimento. Buona notte a tutti

ashan · 27 Gennaio 2015

demadavide ha detto:
Non è una fesseria, con i driver nuovi, come da prassi, le performance aumenteranno di sicuro (in fondo sono schede neonate di appena 4 mesi). Il bello è che se riescono anche a abilitare del tutto i 3 input disabilitati via software ( perché in effetti fisicamente ci sono), potremmo avere delle sorprese ancora più gradite. E forse forse, per farsi "perdonare" ci sta proprio di sì, ho un vago presentimento. Buona notte a tutti

Ottimo direi.Speriamo allora :)

UFFICIALE GTX 970 Discussione Ufficiale.

ashan

Utente Attivo

SolidSnake1989

Ospite

pribolo

ashan

Utente Attivo

GUKA81

Utente cancellato 159815

Ospite

pribolo

Utente cancellato 159815

Ospite

SolidSnake1989

Ospite

demadavide

GUKA81

demadavide

ashan

Utente Attivo

demadavide

ashan

Utente Attivo