1. RDNA 3 in pillole
In data giovedì 3 novembre, durante la presentazione in live streaming "together we advance_gaming" AMD ha annunciato la nuova serie di schede grafiche RX 7000 basate su architettura RDNA 3, introducendo per la prima volta in ambito GPU una struttura a chiplet.
Al momento, a comporre la famiglia basata su Navi 31 troviamo due schede: le Radeon RX 7900 XTX e RX 7900 XT.
Stando a quanto dichiarato dall'azienda di Sunnyvale, queste schede dovrebbero garantire un aumento prestazionale netto del 70% rispetto alle controparti della passata generazione, a fronte di un incremento di efficienza del 54%.
Il prezzo di lancio dei modelli "Reference" è stato fissato in 1169€ per la RX 7900 XTX e in 1059€ per la RX 7900 XT.
Architettura RDNA 3: GCD e MCD
Durante l'evento di lancio AMD non è entrata nello specifico sulla struttura interna, rilasciando tali informazioni solo in seconda battuta, dando maggiore spazio ai dettagli riguardanti il nuovo layout adottato e le tecnologie rese necessarie per raggiungere tale obiettivo.
Differentemente dall'approccio classico adottato negli anni passati, con RDNA 3 AMD ha scelto di suddividere in chiplet differenti la parte computazionale dal comparto memoria.
Le GPU di ultima generazione saranno infatti composte da un GCD (Graphics Compute Die) in combinazione con sei MCD (Memory Cache Die), realizzati, rispettivamente, con processo produttivo TSMC 5nm e TSMC 6nm.
Tra i vari vantaggi di questa scelta emerge la possibilità di focalizzare lo sforzo tecnologico all'interno della sezione principale, composta dagli elementi fondamentali di calcolo, ottenendo così consumi minori, maggiore frequenza di clock e migliore densità .
Parallelamente gli MCD ospitano i moduli Infinity L3 Cache ed i controller di memoria GDDR6 a 64 bit, entrambi elementi che non richiedono un processo produttivo costoso e raffinato, garantendo così all'azienda un notevole risparmio.
Similmente a quanto avviene all'interno di altri design, anche i processori grafici RDNA 3 avranno come componente scalabile proprio gli MCD che, all'occorrenza, possono essere disabilitati per l'applicazione su SKU differenti.
È il caso della RX 7900 XT, che potrà usufruire di soli cinque MCD su sei, ottenendo un bus di 320 bit e 80MB di memoria cache L3.
Il segreto dell'azienda per la realizzazione di questo inusuale design è l'utilizzo del suo EFB (Elevated Fanout Bridge) utilizzato all'interno degli acceleratori AMD Instinct basati su architettura CDNA 2, che per RDNA 3 vengono utilizzati come mezzo di interconnessione tra GCD e MCD.
Il risultato ottenuto è un sistema di interscambio da 5,3 TB/s che AMD chiama Infinity Link, riprendendo la nomenclatura del corrispondente sistema Infinity Fabric utilizzato sui processori Ryzen.
Rimanendo in tema, l'azienda dichiara che tale scelta di design comporta un lieve aumento nelle latenze, compensate tramite un boost clock del 43%.
Un tale aumento in frequenza è reso possibile dalla peculiare struttura di collegamento chiamata Infinity Fanout Link, appositamente progettata per garantire operatività a bassa tensione e a basso consumo.
Ci tuffiamo ora nel vivo dell'architettura RDNA 3 che ricordiamo essere composta da quasi 58 miliardi di transistor.
In merito al salto generazionale, il divario tra RDNA 3 e RDNA 2 è molto più ampio rispetto al passaggio tra la prima e la seconda generazione, avvenuto nel 2020.
Viene rivista l'organizzazione delle unità di calcolo, che passano da 64 a 128, organizzate all'interno di una singola Dual Compute Unit in grado di elaborare istruzioni in intero o virgola mobile adattandosi alle singole circostanze.
Grazie ad un dettaglio della singola unità computazionale possiamo osservare la pecularità dei due scheduler, entrambi composti da GPR scalari e vettoriali, che condividono l'accesso alla memoria Cache L0, oltre alle funzionalità di Load/Store, i filtri texture e i Ray Accelerators di AMD (l'equivalente degli RT Core di NVIDIA).
L'architettura AMD RDNA3, infatti, ha un design "Dual Issue", che ora può eseguire non uno, ma due comandi aritmetici FP32 contemporaneamente, il che significa che ogni CU può ora compiere 128 calcoli FP32 invece di 64 (RDNA2).
Stando a quanto dichiarato dal team AMD, questo approccio, definito "unified compute", dovrebbe garantire un notevole incremento nella generazione dei frame di gioco e nella risoluzione delle operazioni di intelligenza artificiale.
In realtà , per ottenere il massimo beneficio da questa struttura, AMD è costretta a fare totale affidamento sul parallelismo di istruzione (ILP o Instruction Level Parallelism) che, se in uno scenario ideale rappresenta la massima sinergia tra risorse hardware e software, nel caso di istruzioni consecutive dipendenti il livello di efficienza calerà drasticamente mantenendo inutilizzate le restanti unità di calcolo.
A riguardo, con la prima generazione RDNA l'azienda definì tale parallelismo una delle più grosse limitazioni di GCN, non essendo in grado di garantire consistenza al valore teorico tradotto in TFLOPs.
Tornando sul concreto, il notevole aumento di TFLOPs delle schede Radeon 7000 potrebbe vedere un incremento prestazionale 1:1 esclusivamente durante l'esecuzione di codice specificatamente ottimizzato per la piattaforma, con una perdita di consistenza in scenari alternativi.
Lato memoria Cache, ne viene parzialmente rivista la distribuzione interna sui vari livelli con un incremento di dimensione che varia dal 150% al 200%.
Nello specifico, la memoria Cache L2 vede un incremento di 1,5 volte rispetto a RDNA 2 raggiungendo un totale di 6MB, mentre i livelli L0 e L1 ammontano, rispettivamente, a 32kB e 256kB con un aumento relativo doppio rispetto alla passata generazione.
Unica eccezione riguarda la Cache L3, anche chiamata AMD Infinity Cache, che passa da 128MB a 96MB.
In questo caso, però, la riduzione è compensata da un considerevole aumento nella banda di interconnessione L2/L3, che raggiunge una portata di 2304 Byte per ciclo ad una velocità di 2,4GHz.
A supporto dei Dual Stream Processor, ogni unità sarà dotata di due acceleratori AI in grado di elaborare istruzioni con prestazioni quasi tre volte superiori rispetto alla passata generazione.
AMD, durante la presentazione non ha rilasciato particolari indiscrezioni a riguardo, focalizzandosi principalmente sulla potenza bruta di gioco.
L'azienda ha aggiornato inoltre l'hardware dedicato al Ray Tracing grazie un nuovo set di istruzioni dedicate, il supporto al DXR e diverse migliorie lato ray box sorting e traversal, ottenendo un incremento prestazionale che raggiunge nel migliore dei casi il 50% per singola unità computazionale.
A livello pratico, AMD ha messo a confronto le prestazioni RT in risoluzione 4K della nuova RX 7900 XTX contro l'ex top di gamma RX 6950 XT, evidenziando risultati che in maniera per lo più consistente si attestano sopra al fatidico limite dei 60 FPS.
Assente, per l'occasione, un diretto paragone con NVIDIA che, sotto questo aspetto, sembra tutt'ora irraggiungibile.
Rimanendo in tema, AMD ha anche annunciato l'arrivo nel 2023 della nuova versione della sua tecnologia di upscaling, FSR 3, che promette faville andando a migliorare le prestazioni sino a 2 volte sia in termini di Ray Tracing che di rasterizzazione pura, come mostrato in una demo di Unreal Ungine 5.
FSR 3 farebbe uso di un'innovativa tecnologia chiamata Fluid Motion su cui, però, non sono stati forniti dettagli.
Come se non bastasse, AMD sta introducendo un importante aggiornamento per i suoi driver, nello specifico una funzione chiamata HYPR-RX, in grado di migliorare prestazioni e latenza con un semplice clic.
In giochi come Dying Light 2, AMD dichiara prestazioni migliori fino all'85% con 1/3 della latenza.
Questa tecnologia dovrebbe essere diretta concorrente delle tecnologie NVIDIA Reflex e DLSS combinate.
Infine, le schede grafiche RDNA 3 sono le prime a supportare lo standard DisplayPort 2.1, rompendo gli attuali limiti di risoluzione e refresh rate.
Tramite quello che AMD chiama "Radiance Display Engine" è stata introdotta la piena compatibilità alla suite DP 2.x, che comprende i sistemi di interscambio UHBR 10 e UHBR 13.5, raddoppiando attivamente la larghezza di banda offerta dalle attuali schede.
Con uno sguardo rivolto al futuro, l'azienda punta all'industria dei monitor 8K di cui abbiamo avuto un primo assaggio durante il CES 2023.
Rimanendo in ambito multimediale, la nuova architettura è dotata di un nuovo dual media engine con completo supporto alla codifica e decodifica AV1 8K60 e operazioni simultanee H.264/H265.
Radeon RX 7900 XTX e 7900 XT, le specifiche tecniche ...
Dopo aver approfondito tutte le novità tecnologiche presenti nelle nuove GPU AMD, passiamo alle specifiche tecniche delle due schede lanciate il 13 dicembre.
La nuova top di gamma Radeon RX 7900 XTX raggiunge una velocità di clock media di 2,3GHz con un picco in boost di 2,5GHz ed è con 96 Dual Compute Units, 96MB di cache L3 e 24GB di GDDR6 da 20 Gbps su un bus di 384 bit.
Complessivamente, la nuova 7900 XTX raggiunge una banda passante di 960 GB/s, con un incremento del 66% rispetto alla passata generazione.
Il consumo a pieno carico è di 355W.
Meno impressionante la configurazione della sorella minore Radeon RX 7900 XT, che è dotata di meno CU, meno memoria video, 80MB di cache L3 e frequenza operative inferiori.
Questo modello, infatti, è caratterizzato da 84CU, 20GB di GDDR6 su un bus a 320 bit e velocità di clock di 2GHz.
Il TBP scende a 300W.
Vi lasciamo ad una breve tabella comparativa tra le nuove e le precedenti top di gamma di casa AMD.
Modello VGA | AMD Radeon RX 7900 XTX | AMD Radeon RX 7900 XT | AMD Radeon RX 6950 XT | AMD Radeon RX 6900 XT |
GPU | Navi 31 XTX | Navi 31 XT | Navi 21 KXTX | Navi 21 XTX |
Stream Processor | 12288 (96 CU) | 10752 (84 CU) | 5120 (80 CU) | 5120 (80 CU) |
Clock Speed | 2,3GHz | 2,0GHz | 2,1GHz | 2,15GHz |
Boost Clock Speed | 2,5GHz | 2,4GHz | 2,31GHz | 2,25GHz |
VRAM | 24GB | 20GB | 16GB | 16GB |
Velocità memoria | 20 Gbps GDDR6 | 20 Gbps GDDR6 | 18 Gbps GDDR6 | 16 Gbps GDDR6 |
Bus memoria | 384 bit | 320 bit | 256 bit | 256 bit |
Larghezza di banda | ~ 960 GB/s | ~ 800 GB/s | 576 GB/s | 512 GB/s |
Cache L3 | 96MB | 80MB | 128MB | 128MB |
Prestazioni FP32 | 61,56 TFLOPS | 51,61 TFLOPS | 23,65 TFLOPS | 23,04 TFLOPS |
Transistor | 57,7 miliardi | 57,7 miliardi | 26,8 miliardi | 26,8 miliardi |
Processo produttivo | TSMC 5nm (GCD) TSMC 6nm (MCD) | TSMC 5nm (GCD) TSMC 6nm (MCD) | TSMC 7nm | TSMC 7nm |
TBP | 355W | 300W | 335W | 300W |
Prezzo di lancio | 999 USD | 899 USD | 1099 USD | 999 USD |