GIGABYTE GTX 970 G1 Gaming

1. Maxwell Mark 2

La reingegnerizzazione di Maxwell parte dai blocchi piÃ¹ piccoli che costituiscono la GPU, ovvero dagli Streaming Multiprocessor.

GIGABYTE GTX 970 G1 Gaming 1. Maxwell Mark 2 2

I Next Gen Streaming Multiprocessor (SMX) di Kepler: macroblocchi lineari con grande potenza computazionale, ma ridotta efficienza.

GIGABYTE GTX 970 G1 Gaming 1. Maxwell Mark 2 3

I moduli SMM di Maxwell: gli elementi costitutivi sono pressochÃ© i medesimi degli SMX, ma le nuove unitÃ sono piÃ¹ organizzate ed organiche rispetto a quelle di Kepler.

Le differenze sono evidenti a valle della parte comune alle due architetture, costituita dal Polimorph Engine, arrivato alla versione 3.0, e dalla porzione di cache dedicata alle istruzioni.

Le unitÃ SMX hanno i 4 warp scheduler allineati, ognuno collegato a 2 dispatch unit (unitÃ di smistamento dati), per un totale di 8, che accedono al medesimo registro a cui sono collegati in cascata i 16 differenti blocchi di esecuzione delle istruzioni.

In pratica, quindi, ogni warp scheduler ha accesso a tutti i blocchi di esecuzione, ovvero condivide con gli altri tutte le risorse di elaborazione CUDA Core, unitÃ per funzioni speciali (SFU-Special Function Unit) e unitÃ di Load/Store, i blocchi LD/ST.

Nelle unitÃ SMM, invece, l'organizzazione Ã¨ piÃ¹ ordinata e parcellizzata: gli warp scheduler, infatti, accedono esclusivamente ad un numero di blocchi di esecuzione ridotto e dedicato, non dovendo quindi condividere le proprie risorse con gli altri, eccezion fatta per le unitÃ di texture ed i CUDA Core FP64.

Questa riorganizzazione interna Ã¨ la prima modifica di Maxwell volta a ridurre l'assorbimento energetico della GPU.

Tutte le operazioni necessarie al buon funzionamento di un'architettura a risorse condivise, che richiede ad ogni blocco di essere sempre attivo, oltre ad una grande attivitÃ di verifica e coordinamento degli scheduler, non sono infatti piÃ¹ necessarie.

Razionalizzando l'architettura, e quindi facendone un uso piÃ¹ efficiente, Ã¨ facile intuire come per ottenere un livello di prestazioni paragonabili alle GPU di generazione precedente siano necessarie meno unitÃ elaborative, il che si traduce in meno silicio occupato e minor consumi.

NVIDIA non ha comunicato ufficialmente l'efficienza energetica delle unitÃ SMM, ma a livello di silicio possiamo dirvi che un SMM da 128 CUDA Core offre circa il 90% delle prestazioni di un SMX da 192 CUDA Core utilizzando, ovviamente, molto meno spazio.

Per quello che riguarda il chip completo segnaliamo che GM204 Ã¨ suddivisa in 4 blocchi GPC (Graphics Processing Clusters) dotati di 4 SMM ciascuno, di cui 13 vengono abilitati per le GeForce GTX 970 (GM204-200) e 16, ovvero tutti, per le GeForce GTX 980 (GM204-400).

Ogni SMM Ã¨ dotato di 8 Texture Unit, per cui avremo 104 Texture Filtering Unit sulle GTX 970 e 128 sulle GTX 980.

Un'altra importante differenza tra la vecchia e la nuova architettura, giÃ introdotta con il GM107 delle GeForce GTX 750/750 Ti, Ã¨ la dimensione della cache L2 portata da 512kB a 2MB.

Questo aumento, sebbene comporti una maggiore occupazione di spazio nel die (ma come abbiamo visto NVIDIA ne ha recuperato parecchio), permette di ridurre il traffico verso il bus di memoria migliorando sia le prestazioni, sia il livello di consumi.

Sempre a tale scopo, rispetto alla prima versione di Maxwell, gli SMM delle GPU generazione 2.0 sono dotati di un buffer condiviso piÃ¹ ampio, 96kB rispetto ai 64kB precedenti, che permette di ridurre ulteriormente l'accesso alla cache L2 integrata o alla memoria esterna alla GPU.

E a proposito di questo componente Ã¨ importante segnalare come le nuove GPU siano dotate di 4 controller a 64bit che vanno a costituire il bus a 256bit su cui si interfacciano i chip di GDDR5 a 7GHz che equipaggiano le schede.

Ãˆ il momento, quindi, di tornare sulla penultima frase della nostra copertina per introdurre le altre migliorie apportate da NVIDIA alle nuove GPU.

Come detto, Maxwell Ã¨ la prima GPU NVIDIA a offrire 16 ROP per ogni controller di memoria ovvero un totale di 64; queste unitÃ , l'ultimo anello della catena elaborativa che si occupano di effettuare lo Z testing, il blending dei pixel e l'applicazione dell'anti-aliasing, sono infatti il componente piÃ¹ avido di memoria e, in particolare, della relativa banda.

Con un bus a 256bit e GDDR5 a 7GHz i conti sono presto fatti: per Maxwell 224 GB/s di banda passante, ovvero 112 GB/s in meno di una GeForce GTX 780 Ti e 16 ROP in piÃ¹.

Ãˆ ovvio che se la banda diminuisce deve aumentarne l'efficienza, altrimenti l'aumento delle ROP Ã¨ totalmente inutile.

Ecco quindi che entra in scena la terza generazione della tecnologia di Delta Color Compression.

A differenza di una compressione colore per pixel o per aree del frame basata sulla somiglianza dei colori, come il nome suggerisce questo tipo di compressione si basa sulla differenza di colore e non di aree.

Risulta ovvio che questa tecnologia richiede uno studio ed una ricerca piÃ¹ approfondita in quanto, per essere efficiente, devono essere ricercati e sperimentati diversi modelli di differenza colore ma, alla fine, i risultati ottenuti in questa terza generazione permettono, stando a quanto riportato da NVDIA, un risparmio di banda superiore al 25% rispetto alle GPU Kepler.

Questo progresso ha permesso a NVIDIA di aumentare il numero delle ROP garantendo, pertanto, anche la potenza computazionale necessaria a gestire risoluzioni 4K su una scheda di fascia medio/alta.

La GPU GM204 offre poi il completo supporto alle specifiche Direct3D 11.2 e 11.3, oltre che una nuova serie di tecnologie e funzionalitÃ che andremo ora a esaminare piÃ¹ nel dettaglio.