é la parte che setta il percorso del calcolo sulle unità di esecuzione.rileggevo... cosa intendi per parte engine e parte computazionale? :)
riceve il set da eseguire, lo imposta sulle pipeline, e lo fa eseguire.
Segui il video qui sotto per vedere come installare il nostro sito come web app sulla tua schermata principale.
Nota: Questa funzionalità potrebbe non essere disponibile in alcuni browser.
Pubblicità
é la parte che setta il percorso del calcolo sulle unità di esecuzione.rileggevo... cosa intendi per parte engine e parte computazionale? :)
Quindi ancora una volta Nvidia sta pensando al futuro? Forse con le nuove dx 13 o quello che saranno si riuscirà ad utilizzare queste nuove tecnologie?più di un anno fa AMD ha depositato dei brevetti su architetture GPU di nuova concezione.
parlavano di una struttura delle pipeline non omogenea.
un calcolo finito necessita di essere processato da diverse unità base, che definiscono una pipeline di calcolo.
la differenza più marcata tra e architetture AMD e Nvidia consiste nell'esecuzione di questi calcoli;
un gruppo di queste unità forma un cluster.
se il calcolo da effettuare eccede un cluster, serve l'uso di un'altro cluster.
per continuare il calcolo su un'altro cluster impieghi una o più operazioni, da sommare a quelle di calcolo, impiegando quindi più tempo.
fino alle dx11 i calcoli avevano un numero più o meno fisso di operazioni da compiere, ed nvidia li eseguiva tutti in un cluster, mentre più giovane era GNC più passaggi si facevano, aggravando il calcolo da molte operazioni di spostamento.
con ac ed ace i calcoli non hanno più una lunghezza standard, ecco perché AMD ha vantaggio ad usare tali tecnologie, anche perché se il calcoli eccede un cluster ne devi usare un altro aggiungendo operazioni, ma se il calcolo non satura il cluster, lo devi comunque eseguire fino alla fine, e se il cluster é "lungo", per uscire dalla pipeline introduci l'attesa di tutti gli stadi che avanzano.
il brevetto consisteva nell'uso di cluster a diverso numero di unità, da solo 2 a gruppi di 16.
in questo modo si ha sempre un numero adeguato di unità che necessitano per il calcolo, senza sprechi.
per farlo, però, servono un numero di unità consistenti, perché non conviene associare tanti piccoli cluster quando i calcoli richiedono molti passaggi, e viceversa.
Navi dovrebbe garantire questo tipo di paradigma nella sua architettura.
tutto questo si può eseguire anche tramite vector processor, come i tensor core, in quanto il cluster base di processamento non é più monodimensionale (lunghezza), ma bidimensionale.
un vector processor si usa, però, kn un modo differente, troppo distante da come é scritto il codice oggi e troppo distante dalle API che si usano oggi ( non sono dx12, insomma); serve quindi un robusto layer d'interfaccia sotto forma di driver.
Quindi ancora una volta Nvidia sta pensando al futuro? Forse con le nuove dx 13 o quello che saranno si riuscirà ad utilizzare queste nuove tecnologie?
Inviato dal mio ASUS_Z017D utilizzando Tapatalk
in molti pochi titoli direi... spero che entro le prossime due generazioni si passerà definitivamente alle DX12 oppure si diffonderà ulteriormente Vulkan, ancora queste api possono dare parecchio. Gli unici giochi che mi viene in mente che valgono la pena essere giocati in DX12 sono Sniper Elite 4 (a cui sto giocando ora ed è ottimizzato benissimo), Rise of the tomb raider, so anche che Gears of war 4 è fatto per bene, e poi ovviamente c'è Doom con vulkan, che low level sono. Altri titoli importanti fra cui Battlefield 1 e Deus Ex MD hanno una parte DX12 terribile.i vector processor sono una naturale evoluzione del calcolo matriciale, e nel 3D quello si fa.
i tensor core presentati da nvidia, però, sono per un mercato HPC: troppo grandi.
oltretutto si pensa che questa sia solo una parte di V100, cosa progettualmente controproducente, perché su un vettore puoi usare la base che vuoi, basta che l'HW la supporti (e poi puoi andare per aggregazione, aggiungendo cicli di traslazione al calcolo).
i tensor core nvidia sono cluster da 128x64... abnormi per l'uso gaming (almeno per altri 10 anni).
eseguono proficuamente anche spezzature (fino ad INT8), ma Nvidia ci ha mostrato che non gradisce "regalare" soluzioni PRO nel mercato gaming.
non so come riusciranno a non far usare queste soluzioni in ambito PRO (anche usando clustering a 32x32, sarebbero ottime per 4x16x16, quindi AI), ma... se hai una soluzione del genere, così versatile, la sfrutti.
per quanto riguarda l'anticipare in HW soluzioni tecniche che saranno usate in un futuro remoto, cadiamo nella stessa situazione di AMD con le 7000 adatte alle DX12, quando ancora si usavano le DX10, anche se le 11 erano da poco uscite; oggi solo incominciamo ad avere un adeguato sfruttamento.
i vector processor sono una naturale evoluzione del calcolo matriciale, e nel 3D quello si fa.
i tensor core presentati da nvidia, però, sono per un mercato HPC: troppo grandi.
oltretutto si pensa che questa sia solo una parte di V100, cosa progettualmente controproducente, perché su un vettore puoi usare la base che vuoi, basta che l'HW la supporti (e poi puoi andare per aggregazione, aggiungendo cicli di traslazione al calcolo).
i tensor core nvidia sono cluster da 128x64... abnormi per l'uso gaming (almeno per altri 10 anni).
eseguono proficuamente anche spezzature (fino ad INT8), ma Nvidia ci ha mostrato che non gradisce "regalare" soluzioni PRO nel mercato gaming.
non so come riusciranno a non far usare queste soluzioni in ambito PRO (anche usando clustering a 32x32, sarebbero ottime per 4x16x16, quindi AI), ma... se hai una soluzione del genere, così versatile, la sfrutti.
come hanno fatto con i pascal, tagliano tutto a livello di design e via non c'è nulla di particolare in volta gaming lato computazionale le migliorie ci saranno a livello di gestione thread.... sono curioso come li faranno... sinceramente.
come hanno fatto con i pascal, tagliano tutto a livello di design e via non c'è nulla di particolare in volta gaming lato computazionale le migliorie ci saranno a livello di gestione thread.
Pascal è 5SM/PE per GPC, Volta è 7SM/PE per GPC.
gv106 → 1792cc - 14PE - 2GPC - 32Rops - 192bit se gddr5 o 128bit se gddr5x 250/200mmq
se ci mettono le gddr5x possono anche usare solo 128bit rispetto ai 192bit della 1060, altrimenti se sono gddr5 saranno 192bit
gv104 → 3584cc - 28PE - 4GPC - 64Rops - 256bit gddr5x/gddr6 400mmq
gv102 → 5376cc - 42PE - 6GPC - 92Rops - 384bit gddr6 600mmq
i GPC e le Rops rimangono gli/le stessi/e diPascal, ma aumentano i PE (1 SM = 1 PE) come i Cuda fp32, resta da vedere quindi i clock...
io prevedo circa un pareggio tra gv104 e gp102 con la prima in leggero vantaggio dato che la futura 1180 avrà clock sicuramente superiori e più stabili già a stock rispetto la 1080ti e considerando anche le migliorie a livello thread di volta su pascal...
dipende cosa consideri, se consideri la TXp non credo dato che il gp102 full avrebbe 256cc in più oltre che le Rops ma meno frequenza,direi un +5% al massimo a stock e in OC praticamente appaiate, se consideri la 1080ti che è gp102 cut si all'incirca un +10%...La penso anche io cosi, se tra gv104 e gp102 ci passerà un 15% sarà già tanto, mi aspetto migliorerie sopratutto lato efficienza più che performance, un po come tra gk110 e gm204
dipende cosa consideri, se consideri la TXp non credo dato che il gp102 full avrebbe 256cc in più oltre che le Rops ma meno frequenza,direi un +5% al massimo a stock e in OC praticamente appaiate, se consideri la 1080ti che è gp102 cut si all'incirca un +10%...
come giustamente ricordavi non bisogna dimenticare l'incremento efficienza, la 1180 avrà un tdp ridotto sempre sui 180~200watt.Si io consideravo la gtx 1080ti, come dici te da titan xp sarebbe ancora più vicino il gv104
come giustamente ricordavi non bisogna dimenticare l'incremento efficienza, la 1180 avrà un tdp ridotto sempre sui 180~200watt.
io credo che con Vega 10 e Volta gv104 rivedremo 390 e 390x vs 970 e 980
come hanno fatto con i pascal, tagliano tutto a livello di design e via non c'è nulla di particolare in volta gaming lato computazionale le migliorie ci saranno a livello di gestione thread.
Pascal è 5SM/PE per GPC, Volta è 7SM/PE per GPC.