ASUS ROG Poseidon GeForce GTX 1080 Ti

2.Â Tecnologie NVIDIA - Parte prima

Passiamo ora in rassegna le principali novitÃ tecnologiche introdotte con la GPU Pascal, partendo dalle implementazioni effettuate nel silicio per arrivare alle nuove funzionalitÃ software.

Enhanced Memory Compression

Come per le precedenti generazioni di GPU NVIDIA, sono state implementate tecniche di compressione per ridurre il consumo di banda passante, massimizzare le risorse a disposizione e minimizzare le scritture o i trasferimenti di dati tra le varie unitÃ della pipeline di rendering e le porzioni di memoria della scheda.

L'algoritmo piÃ¹ critico Ã¨ quello relativo al Delta Color Compression, ovvero la capacitÃ della scheda di analizzare blocchi di pixel e differenziarli per colore memorizzando poi le informazioni colore solo per alcuni pixel di riferimento, mentre per i restanti vengono memorizzati solo i valori che li differenziano (delta) dai pixel di riferimento.

Naturalmente, se le differenze tra i pixel di riferimento e quelli vicini sono piccole saranno necessari solo pochi bit e quindi il risultato della compressione (il pacchetto dei pixel di riferimento piÃ¹ i valori di differenza) puÃ² avere dimensioni inferiori anche della metÃ rispetto a quello dei pixel con informazioni colore non compresse.

Se questo accade, l'algoritmo di Delta Color Compression ha svolto correttamente il suo lavoro e i dati possono essere immagazzinati in metÃ dello spazio, ovvero con un rapporto di compressione 2:1.

Quello che Ã¨ stato fatto con Pascal Ã¨ stato rivedere l'algoritmo di Delta Color Compression, giunto alla quarta generazione, rendendolo piÃ¹ efficiente ed introducendo anche nuove e piÃ¹ spinte modalitÃ .

Per prima cosa, quindi, gli ingegneri NVIDIA hanno migliorato l'algoritmo in modo tale che risultasse efficiente molto piÃ¹ spesso garantendo il rapporto 2:1 nella maggior parte delle situazioni.

In seconda battuta Ã¨ stata introdotta una nuova modalitÃ di compressione 4:1 per gestire le situazioni in cui le differenze per pixel sono molto ridotte e risulta quindi possibile immagazzinare tutte le informazioni in un quarto dello spazio necessario ai dati non compressi.

In terza istanza, infine, Ã¨ stata introdotta una modalitÃ 8:1 che combina in maniera costante la modalitÃ 4:1 su blocchi di 2x2 pixel che sono a loro volta compressi in modalitÃ 2:1.

ASUS ROG Poseidon GeForce GTX 1080 Ti 2. Tecnologie NVIDIA - Parte prima 1

La slide rappresenta visivamente il funzionamento dell'algoritmo di Delta Color Compression di quarta generazione.

Come "applicazione pratica" andiamo a visionare tre frame di un gioco ...

Le tre immagini di Project Cars ci fanno apprezzare i nuovi limiti raggiunti da questo algoritmo in confronto alla terza generazione implementata in Maxwell: dal frame non compresso vengono evidenziate in magenta le aree che possono essere compresse con Maxwell prima e con Pascal oggi: praticamente quasi tutto il frame.

A detta di NVIDIA questa quarta iterazione dell'algoritmo di Delta Color Compression consente un risparmio di bytes per frame che si traduce in un incremento di banda a disposizione o, se preferite, riduzione di banda utilizzata, di circa il 20%.

Questo dato, unito all'incremento di banda passante garantito dalle GDDR5X, ha portato NVIDIA a dichiarare un fattore 1.7X di incremento di banda passante disponibile per le nuove GPU Pascal GP104 rispetto alle soluzioni GM204.

Asynchronous Compute

FunzionalitÃ introdotta con le librerie DirectX 12 su cui sia Microsoft che gli sviluppatori punteranno molto, soprattutto per i benefici in termini di opportunitÃ di utilizzo dell'hardware, l'Async Compute permette l'esecuzione di task multipli indipendenti che concorrono alla generazione della scena finale.

Si tratta quindi di una tecnologia molto appetibile per gli sviluppatori dei moderni titoli con scenari molto complessi e carichi di lavoro sempre piÃ¹ elevati per la gestione della fisica e degli effetti audio svolti in GPU, il post processing dei frame e le operazioni specifiche per VR come l'Asyncronous Timewarp.

Pascal supporta ovviamente Async Compute, come da specifiche Microsoft, e introduce alcune migliorie per venire incontro ai possibili scenari generati dalla sovrapposizione di piÃ¹ task sulla GPU.

Task simultanei/sovrapposti

Data l'attuale potenza di calcolo delle moderne GPU Ã¨ piÃ¹ che probabile che un singolo task, come ad esempio i calcoli della fisica di un oggetto che rotola sulla scena, non impieghi tutte le risorse a disposizione ed Ã¨ quindi possibile fare eseguire alla stessa altri compiti sfruttandone le risorse rimaste libere.

Per gestire al meglio i compiti concorrenti Pascal introduce una funzionalitÃ di bilanciamento dinamico dei carichi di lavoro in grado di gestire le risorse a disposizione allocandole autonomamente nella maniera piÃ¹ efficiente.

Nello specifico, i due task saranno eseguiti insieme e, se uno termina prima dell'altro, Pascal reindirizza automaticamente le risorse disponibili per l'esecuzione del task incompleto.

Si tratta indubbiamente di un notevole balzo in avanti rispetto alla modalitÃ statica implementata in Maxwell, in cui era lo sviluppatore a dover decidere quante risorse allocare per ogni task con il rischio di "sprecare" potenza elaborativa in caso di errata valutazione dei tempi necessari ai carichi grafici e a quelli computazionali concorrenti.

ASUS ROG Poseidon GeForce GTX 1080 Ti 2. Tecnologie NVIDIA - Parte prima 5

Dalla slide vediamo la modalitÃ statica di Maxwell e quella dinamica di Pascal: il processo grafico termina prima di quello computazionale ma, essendo il partizionamento di tipo statico, la parte di GPU dedicata va semplicemente in Idle costituendo quindi uno spreco di risorse.

In Pascal, invece, finito il task grafico la GPU reindirizza immediatamente tutte le risorse a quello computazionale: nessuna di queste viene sprecata ed entrambi i compiti sono portati a termine in un tempo inferiore.

Task time critical

Ci sono invece situazioni in cui la velocitÃ di esecuzione Ã¨ la chiave di tutto e la GPU deve saper gestire e "discernere" quali siano i compiti "time critical", che devono essere portati a termine prima di qualsiasi altro processo concorrente, e deve essere in grado di passare dall'uno all'altro nel minor tempo possibile.

La gestione di queste situazioni risulta estremamente importante in ambiente VR, sopratutto per il menzionato Asyncronous Timewarp (ATW).

Questo processo gestisce infatti la generazione di un frame intermedio, basato sul processo di rendering piÃ¹ recente della scheda con le opportune correzioni per la posizione della testa dell'utente, qualora il nostro dispositivo non fosse in grado di generare il frame corretto dopo il normale intervallo di refresh del display (11ms su uno schermo a 90Hz) evitando, quindi, un frame drop.

Risulta ovvio che per poter essere eseguito Ã¨ necessario che la GPU riceva una richiesta da parte del processo, nello specifico una prelazione (preemption) delle risorse che ovviamente necessita di un tempo tecnico di esecuzione.

Tecnicamente anche Maxwell Ã¨ in grado di gestire questo processo ma, dato che la preemption Ã¨ qui implementata solo a livello di chiamata, Ã¨ necessario che qualunque richiesta da parte di ATW sia inoltrata con "largo anticipo", situazione non ideale in quanto sarebbe bene che il processo entrasse in funzione il meno possibile e, nel caso, il piÃ¹ tardi possibile.

Per queste situazioni NVIDIA ha lavorato in maniera massiccia sugli algoritmi di prelazione aumentandone la granularitÃ a livello di pixel e riducendone i tempi di latenza in modo tale da permettere alle GPU Pascal di interrompere i compiti meno "time critical", dando la prioritÃ a quelli piÃ¹ critici in qualunque fase del processo di rendering.

A differenza quindi di una GPU tradizionale con preemption ad alto livello, Pascal non deve attendere che tutte queste operazioni finiscano prima di cambiare task.

Come si evince dall'immagine, Pascal, con la sua Pixel level preemption, puÃ² bloccare i processi di rendering in qualunque momento dato che Ã¨ in grado di tenere traccia dei progressi fatti e poi riprenderli esattamente dove li aveva interrotti dopo aver soddisfatto una richiesta di prelazione piÃ¹ sensibile al tempo di esecuzione.

ASUS ROG Poseidon GeForce GTX 1080 Ti 2. Tecnologie NVIDIA - Parte prima 7

Lo stesso livello di granularitÃ Ã¨ stato applicato per i carichi di tipo computazionale come Thread Level Preemption.

I carichi computazionali sono costituiti da griglie contenenti blocchi di thread e, quando arriva una richiesta di prelazione, quelli in esecuzione negli SM vengono completati e la loro posizione salvata in modo tale che l'operazione possa riprendere appena soddisfatta la richiesta ricevuta.

Sempre sul lato dei carichi computazionali, per quello che concerne in particolare il calcolo CUDA, segnaliamo che Pascal introduce anche qui un ulteriore livello di granularitÃ se confrontato con Maxwell (che era in grado soddisfare richieste di prelazione solo a livello di thread), potendo arrivare a livello di singola istruzione.

ASUS ROG Poseidon GeForce GTX 1080 Ti 2. Tecnologie NVIDIA - Parte prima 8

NVIDIA dichiara che l'intero processo di passaggio tra il task in corso e quello piÃ¹ "time critical" puÃ² essere effettuato in meno di 100 microsecondi dal termine della fase di shading del pixel in elaborazione o del thread in esecuzione al momento della chiamata.

Pascal, grazie alla combinazione del Pixel Level Preemption e del Thread Level Preemption, Ã¨ in grado di cambiare workload molto velocemente e con un overhead minimo sulle richieste di prelazione.

ASUS ROG Poseidon GeForce GTX 1080 Ti 2. Tecnologie NVIDIA - Parte prima 9

Per tornare quindi al nostro esempio di ATW, ecco la differenza tra Maxwell e Pascal: a sinistra un'operazione ATW con una GPU di vecchia generazione e preemption ad alto livello, a destra la stessa operazione su Pascal che dispone di preemption altamente granulare.

Dato che nel primo caso il tempo di prelazione non Ã¨ facilmente quantificabile e, quindi, non Ã¨ certo quando il processo ATW partirÃ , Ã¨ necessario inviare la richiesta con largo anticipo rubando del tempo al normale calcolo del frame, mentre, nel secondo caso, essendo molto piÃ¹ breve e facilmente quantificabile, i calcoli necessari per ATW possono essere inoltrati molto piÃ¹ tardi avendo comunque la sicurezza che siano completati prima del refresh del display in caso di necessitÃ .

username
password		ricordami
password dimenticata?		registrati

Un dissipatore ibrido rivoluzionato sia nelle prestazioni che nell'estetica per la GPU più ambita della gamma Pascal.

2.Â Tecnologie NVIDIA - Parte prima

Seguici

Supporto Tecnico Ufficiale

Antec

Microcool

Cooler Master

Top del mese

Nexthardware

Seguici

Servizi & info