1. Architettura HD 6900 – VLIW4
La GPU “Cayman” nasce dall’esigenza di AMD di migliorare l’architettura “Cypress” al fine di aumentarne l’efficienza nell’elaborazione grafica, computazionale e nella gestione del motore di tassellazione. Quest’ultimo è stato introdotto da ATI nella GPU della XBOX 360 e poi implementato da tutti i produttori come componente fondamentale per il supporto alle librerie DirectX 11; purtroppo la versione inclusa nelle HD 5800 non si è dimostrata all’altezza della concorrenza, mostrando risultati non sempre soddisfacenti sia con i benchmark sintetici (Unigine Heaven 2.1) che con giochi che fanno largo uso di questa funzionalità. Già con le HD 6800, AMD è corsa ai ripari ma, con l’ottava revisione del motore di tassellazione incluso nelle HD 6900, il produttore americano dichiara prestazioni fino a 3 volte superiori alle HD 5870 in questo specifico ambito.
![]() |
Dual Graphics Engine |
Il design del core della GPU è stato rivisto e diviso in due blocchi che possono operare in parallelo, eseguendo, di fatto, due "primitive grafiche" in contemporanea o bilanciando il carico tra le unità di elaborazione disponibili. La presenza di due Graphics Engine ha portato alla duplicazione di alcune unità (Rasterizer, Tessellator, Geometry e Vertex Assembler), di conseguenza si è dovuto operare in altre aree al fine di impedire la crescita delle dimensioni del die della GPU, modificando l’architettura di ogni Thread Processors.
![]() | ![]() |
GPU Cayman - Architettura Video | GPU Cayman - Architettura Computazionale |
Dalle Radeon HD 2800 ad oggi, AMD ha utilizzato una architettura basata sulla tecnologia VLIW5, caratterizzata dalla presenza di quattro unità di elaborazione generiche più una speciale per ogni Thread Processors. Ogni unità può eseguire un solo tipo di operazione in contemporanea, nel caso fosse necessario eseguire una operazione speciale, le altre 4 unità generiche presenti nel Thread Processors sarebbero inutilizzate, riducendo notevolmente la potenza di calcolo complessiva della scheda. Le GPU Cayman superano questo limite con l'introduzione di VLIW4, riducendo a 4 il numero di unità di elaborazione per ogni Thread Processors e uniformandone le capacità di calcolo; in ogni caso non sarà possibile svolgere quattro operazioni speciali in parallelo, ma lo “spreco” di unità durante questo tipo di operazioni sarà minore.
Al pari delle nuove GPU “Fermi” di NVIDIA, è ora possibile eseguire più di un compute kernel in contemporanea, dedicando ad ognuno un certo spazio di indirizzamento virtuale per la memoria video. I compute kernels rappresentano l’istanza in esecuzione di un applicativo GP-GPU e possono essere considerati al pari dei processi nei tradizionali sistemi operativi. Al fine di migliorare ulteriormente le capacità GP-GPU della scheda video, sono stati introdotti i controller DMA (Direct Memory Access) bidirezionali, che permettono la lettura e scrittura in contemporanea della memoria video.
Il design VLIW4 porta, secondo AMD, ad un incremento del 10% delle performance per mm^2, semplificando inoltre la gestione dei registri delle unità di elaborazione e gli algoritmi di scheduling che si occupano di assegnare le operazioni ai vari Thread Processors.
Le novità non si limitano alle unità di elaborazione “pure”, ma riguardano anche i Render Back-Ends che raddoppiano la loro capacità di calcolo, sia a 16 che a 32 bit di precisione.
![]() | ![]() |
Thread Processors VLIW4 | Render Back-Ends |
Come diretto effetto del passaggio all’architettura VLIW4, le capacità di calcolo in doppia precisione sono migliorate, è ora possibile, infatti, eseguire una operazione per ogni quattro unità di elaborazione contro il rapporto 1 a 5 delle passate generazioni di schede video AMD.
La riduzione delle unità di elaborazione e la riorganizzazione dei blocchi ha consentito ad AMD di innalzare le frequenze di funzionamento della GPU, incremento possibile anche grazie alla tecnologia AMD PowerTune di cui parleremo più avanti.
Il BUS della memoria è fisso a 256 bit ma, a differenza delle precedenti generazioni di schede video, il quantitativo minimo di memoria GDDR5 è stato portato a 2GB, fornendo un migliore supporto alla stereoscopia e alla tecnologia Eyefinity per configurazioni multimonitor ad alta risoluzione.