UFFICIALE Aspettando Nvidia Volta

  • Autore discussione Autore discussione Utente cancellato 159815
  • Data d'inizio Data d'inizio
Pubblicità
Io stavo pensando di fare un anno sabbatico in realtà. Per il 2018 il pc lo lascio proprio perdere. Compro solo giochi e stop. Sarà dura ma ci provo :asd:
 
Madonna se solo la metà di ciò che c'è scritto è vero la prossima titan spinge a bestia

Inviato da MotoG3 tramite App ufficiale di Tom\\\'s Hardware Italia Forum

I cambiamenti sono praticamente in DX12.
Con Pascal-Maxwell il giga thread prende i dati dalla memoria e passa tutto al Giga thread. Il Giga thread si occupa di dar lavoro ai warp e di recuperare i dati tramite le pipeline dei raster (dove si sprecano tanti cicli).
Il Giga thread manda tutti i dati ad elaborare tramite i warp. All'interno del Warp i 32 thread, tutti i processi vengono effettuati da un contatore, che divide le chiamate e ne alloca le corrispettive.
In DX12, succede che, il warp viene spezzettato e si crea un grosso problema, Alcuni thread eseguono alcuni dati secondari, altri primari. Buona parte di shader rischia l'Idle ed altri vengono memorizzati in cache e richiamati.
Ogni cuda, può reindirizzare 512 istruzioni FP32.
Con Volta, ogni thread non sarà più indipendente dal warp, ma può eseguire qualsiasi calcolo, chiamata, attesa come fosse un generico warp.
Questo fa si che i 32 thread del warp, possano lavorare come indipendenti, ed il buffer cache aumentato (probabili istruzioni), migliora il conservative rasterizer.
Sul Conservative rasterizer ci ha lavorato anche AMD, per evitare latenze molto elevate sui 55ms.
Il valore dei buffer passa sui ns.
 
Ultima modifica:
I cambiamenti sono praticamente in DX12.
Con Pascal-Maxwell il giga thread prende i dati dalla memoria e passa tutto al Giga thread. Il Giga thread si occupa di dar lavoro ai warp e di recuperare i dati tramite le pipeline dei raster (dove si sprecano tanti cicli).
Il Giga thread manda tutti i dati ad elaborare tramite i warp. All'interno del Warp i 32 thread, tutti i processi vengono effettuati da un contatore, che divide le chiamate e ne alloca le corrispettive.
In DX12, succede che, il warp viene spezzettato e si crea un grosso problema, Alcuni thread eseguono alcuni dati secondari, altri primari. Buona parte di shader rischia l'Idle ed altri vengono memorizzati in cache e richiamati.
Ogni cuda, può reindirizzare 512 istruzioni FP32.
Con Volta, ogni thread non sarà più indipendente dal warp, ma può eseguire qualsiasi calcolo, chiamata, attesa come fosse un generico warp.
Questo fa si che i 32 thread del warp, possano lavorare come indipendenti, ed il buffer cache aumentato (probabili istruzioni), migliora il conservative rasterizer.
Sul Conservative rasterizer ci ha lavorato anche AMD, per evitare latenze molto elevate sui 55ms.
Il valore dei buffer passa sui ns.

Ottimo quindi miglioramenti architetturali in dx12 senza latenze, finalmente ottimizzeranno anche in dx12, senza vedeee più peformance altalenanti in certi titoli, per quel poco che si è visto di dx12.

Quindi mike come vedi il futuro gv104 con 4gpc full (3584cc 64 rop's, 256bit, gddr6 ecc..) almeno dovrebbe essere cosi, per poi lanciare i chipponi con 6 gpc, come da tradizione ormai..

Boh io non so che clock tireranno fuori, vedendo tesla volta ha quasi lo stesso clock di p100, però c'è da considerare che questa tesla è più completa avendo pure i tensor core, credo siano inutili in gaming, magari le varianti gaming avranno clock più elevati di pascal, boh è tutto da vedere.. tu cosa ne pensi per i clock?

Come ti aspetti gv104 vs 1080ti? Ci sarà quel pochissimo gap visto tra 980 e 780ti oppure andrà ben oltre secondo te..
 
Ultima modifica da un moderatore:
Ottimo quindi miglioramenti architetturali in dx12 senza latenze, finalmente ottimizzeranno anche in dx12, senza vedeee più peformance altalenanti in certi titoli, per quel poco che si è visto di dx12.

Quindi mike come vedi il futuro gv104 con 4gpc full (3584cc 64 rop's, 256bit, gddr6 ecc..) almeno dovrebbe essere cosi, per poi lanciare i chipponi con 6 gpc, come da tradizione ormai..

Boh io non so che clock tireranno fuori, vedendo tesla volta ha quasi lo stesso clock di p100, però c'è da considerare che questa tesla è più completa avendo pure i tensor core, credo siano inutili in gaming, magari le varianti gaming avranno clock più elevati di pascal, boh è tutto da vedere.. tu cosa ne pensi per i clock?

Come ti aspetti gv104 vs 1080ti? Ci sarà quel pochissimo gap visto tra 980 e 780ti oppure andrà ben oltre secondo te..

Con Pascal, le operazioni parallele, non sono semplici da programmare, perchè il tutto è limitato al contatore del warp.
Il warp, come ben sai, gestisce 32 thread, e lui si occupa di tutto.
Quando svolgi lavori paralleli, lo spezzetti in parti, mentre alcuni dati vengono memorizzati nel conservative. Di conseguenza, rischi che thread sono costretti ad aspettare la chiamata o a cercare nel buffer, sprecando tanti cicli.
Con Volta, ogni thread può lavorare come se fosse un warp da 32, di conseguenza, ognuno può produrre il suo calcolo e gestirsi automaticamente. Ogni thread esegue la sua istruzione, senza aspettare qualcuno che lo coordini, di conseguenza non ci troveremmo più, griglie di thread ad aspettare o calcolare altro, per poi, solo metterlo in buffer.
Ecco perchè alcuni test vanno male in dx12, perchè il warp lascia troppi stadi in idle.

Riguardo Volta, il lavoro elettrico porta ad un 10% sul clock medio, a questo però devi aggiungere la semplificazione del circuito.
Piloti meno rop's(bestia nera dei chip) e lavori su 4 rasterizzatori, questo permette di ottenere valori poligonali più elevati ( da 0,33 a 0,36/38 per P.E) ed il giga thread ha molto meno lavoro, senza considerare che ogni raster spreca 8 stadi di pipeline. 2, 16 stadi.
Gli SMM dovrebbero essere da 32 thread (cuda) x2 su 32k istruzioni, quindi qua nessun miglioramento.

Diciamo che le potenzialità ci sono, ma non è detto che si notino al lancio, salvo riuscire dal punto di vista elettrico.
Le Pascal sono bloccate con resistenze da caduta.
Quindi nulla esclude, clock ben più alti, sopratutto in OC. :)
 
Io stavo pensando di fare un anno sabbatico in realtà. Per il 2018 il pc lo lascio proprio perdere. Compro solo giochi e stop. Sarà dura ma ci provo :asd:

Quoto, e mi sa che ci scappa una ps4 pro usata per giocarmi Crash e recuperare Bloodborne e qualcos'altro :D , e fifa me lo gioco tranquillo sul divano sul 50 pollici :asd:
 
Con Pascal, le operazioni parallele, non sono semplici da programmare, perchè il tutto è limitato al contatore del warp.
Il warp, come ben sai, gestisce 32 thread, e lui si occupa di tutto.
Quando svolgi lavori paralleli, lo spezzetti in parti, mentre alcuni dati vengono memorizzati nel conservative. Di conseguenza, rischi che thread sono costretti ad aspettare la chiamata o a cercare nel buffer, sprecando tanti cicli.
Con Volta, ogni thread può lavorare come se fosse un warp da 32, di conseguenza, ognuno può produrre il suo calcolo e gestirsi automaticamente. Ogni thread esegue la sua istruzione, senza aspettare qualcuno che lo coordini, di conseguenza non ci troveremmo più, griglie di thread ad aspettare o calcolare altro, per poi, solo metterlo in buffer.
Ecco perchè alcuni test vanno male in dx12, perchè il warp lascia troppi stadi in idle.

Riguardo Volta, il lavoro elettrico porta ad un 10% sul clock medio, a questo però devi aggiungere la semplificazione del circuito.
Piloti meno rop's(bestia nera dei chip) e lavori su 4 rasterizzatori, questo permette di ottenere valori poligonali più elevati ( da 0,33 a 0,36/38 per P.E) ed il giga thread ha molto meno lavoro, senza considerare che ogni raster spreca 8 stadi di pipeline. 2, 16 stadi.
Gli SMM dovrebbero essere da 32 thread (cuda) x2 su 32k istruzioni, quindi qua nessun miglioramento.

Diciamo che le potenzialità ci sono, ma non è detto che si notino al lancio, salvo riuscire dal punto di vista elettrico.
Le Pascal sono bloccate con resistenze da caduta.
Quindi nulla esclude, clock ben più alti, sopratutto in OC. :)
Ottimo, grazie mike, ora ho capito!
 
Con Pascal, le operazioni parallele, non sono semplici da programmare, perchè il tutto è limitato al contatore del warp.
Il warp, come ben sai, gestisce 32 thread, e lui si occupa di tutto.
Quando svolgi lavori paralleli, lo spezzetti in parti, mentre alcuni dati vengono memorizzati nel conservative. Di conseguenza, rischi che thread sono costretti ad aspettare la chiamata o a cercare nel buffer, sprecando tanti cicli.
Con Volta, ogni thread può lavorare come se fosse un warp da 32, di conseguenza, ognuno può produrre il suo calcolo e gestirsi automaticamente. Ogni thread esegue la sua istruzione, senza aspettare qualcuno che lo coordini, di conseguenza non ci troveremmo più, griglie di thread ad aspettare o calcolare altro, per poi, solo metterlo in buffer.
Ecco perchè alcuni test vanno male in dx12, perchè il warp lascia troppi stadi in idle.

Riguardo Volta, il lavoro elettrico porta ad un 10% sul clock medio, a questo però devi aggiungere la semplificazione del circuito.
Piloti meno rop's(bestia nera dei chip) e lavori su 4 rasterizzatori, questo permette di ottenere valori poligonali più elevati ( da 0,33 a 0,36/38 per P.E) ed il giga thread ha molto meno lavoro, senza considerare che ogni raster spreca 8 stadi di pipeline. 2, 16 stadi.
Gli SMM dovrebbero essere da 32 thread (cuda) x2 su 32k istruzioni, quindi qua nessun miglioramento.

Diciamo che le potenzialità ci sono, ma non è detto che si notino al lancio, salvo riuscire dal punto di vista elettrico.
Le Pascal sono bloccate con resistenze da caduta.
Quindi nulla esclude, clock ben più alti, sopratutto in OC. :)
Quindi non ci sarà un grande passo in avanti a parte maggior potenzialità di oc e un clock più elevato?

Inviato dal mio ASUS_Z017D utilizzando Tapatalk
 
Pubblicità
Pubblicità
Indietro
Top