Radeon DNA
1. 개요
[image]
AMD가 개발한 GCN 마이크로아키텍처의 후속 GPU 마이크로아키텍처로,[1] 고성능 게이밍을 목표로 하는 아키텍처라고 한다. 9세대 콘솔 게임기인 엑스박스 시리즈 X와 플레이스테이션 5에도 채택된 GPU 아키텍처이기도 하다.
2. 세대별 RDNA
2.1. RDNA 1 (Navi 1X, gfx1010)
- AMD Next Horizon: GAMING 발표 슬라이드
- INTRODUCING RDNA ARCHITECTURE Whitepaper
- "RDNA 1.0" Instruction Set Architecture Reference Guide
- 그래픽스 커맨드 프로세서
GCN 계열의 커맨드 프로세서를 계승하는 블록으로, CPU의 명령을 받아 각 하부 구조로 명령을 발행한다.
- ACE
GCN 계열의 ACE에 해당하는 블록. 그래픽스 커맨드 프로세서가 그래픽 연산 명령을 담당한다면, ACE는 GPGPU 연산 명령을 담당한다.
- HWS
3세대 GCN부터 탑재된 HWS에 해당하는 블록. ACE를 위한 특화된 스케줄링을 통해 ACE의 효율을 2배 높여준다.
- 지오메트리 프로세서
GCN 계열의 지오메트리 프로세서에 해당하는 블록. 이전 세대와 마찬가지로 버텍스 어셈블러, 지오메트리 어셈블러, 테셀레이터가 모두 포함되어 있지만, 셰이더 엔진마다 1개씩 배치되어 있던 구조에서 중앙의 1개만 독립적으로 재배치되었다. 그렇다고 지오메트리 성능이 크게 떨어진 것이 아니고, 기존의 지오메트리 프로세서가 수행했던 역할 일부가 프리미티브 유닛으로 분담하는 방식으로 조정되었기 때문에 프리미티브 유닛이 없는 복수의 지오메트리 프로세서 구조와 동등한 성능을 발휘할 수 있게 되었다.
- 셰이더 엔진
2세대 GCN부터 도입된 셰이더 엔진을 계승하는 블록으로, 지오메트리 프로세서가 셰이더 엔진에 귀속되지 않고 고정 기능 유닛 형태로 독립되면서 역할이 조금 줄어들긴 했지만 그래도 GPU의 체급을 결정하는 대단위 블록인 점은 여전하다. 각 셰이더 엔진에는 셰이더 어레이(Shader Array)가 2개씩 포함되어 있다.
- 프리미티브 유닛
기존에 있었던 지오메트리 프로세서의 성능 효율을 보조해주기 위한 유닛으로, 본래 5세대 GCN인 Vega에서 처음 발표되어 같은 지오메트리 프로세서 개수라도 추가된 프리미티브 셰이더 개수만큼 성능 효율이 향상됨에 많은 기대를 모았지만, 성능 효율 문제로 비활성화 되어서 4세대 GCN인 Polaris와 다를 바 없는 지오메트리 프로세서 구조가 되었다.
그러다가 RDNA 기반의 Navi 10부터 프리미티브 셰이더가 제대로 구현되었는데, Navi 10 기준으로 지오메트리 프로세서가 4개에서 1개로 대폭 축소되었지만 그 대신 셰이더 엔진에 귀속되지 않은 독립적인 고정 유닛으로 재배치되었고, 셰이더 엔진에 2개씩 포함되어 있는 셰이더 어레이에서 프리미티브 셰이더가 1개씩 배치되었다. Navi 10 기준으로 총 4개가 탑재되었으며, 기존의 지오메트리 프로세서 4개일 때와 동등한 수준의 성능을 보여주었다.[2]
지오메트리 프로세서에서 담당했던 3가지 기능인 지오메트리 어셈블러, 버텍스 어셈블러, 테셀레이션 중에 일부 기능이 프리미티브 셰이더가 가져가 분담하는 구조로 변경되었으며, GCN까지는 프리미티브 생성 속도와 컬링 속도가 같았으나, RDNA부터는 프리미티브 셰이더 덕분에 컬링 속도가 2배 빨라졌다. 유닛 하나에 클럭 사이클당 2개의 프리미티브 컬링 성능을 보여준다.
그러다가 RDNA 기반의 Navi 10부터 프리미티브 셰이더가 제대로 구현되었는데, Navi 10 기준으로 지오메트리 프로세서가 4개에서 1개로 대폭 축소되었지만 그 대신 셰이더 엔진에 귀속되지 않은 독립적인 고정 유닛으로 재배치되었고, 셰이더 엔진에 2개씩 포함되어 있는 셰이더 어레이에서 프리미티브 셰이더가 1개씩 배치되었다. Navi 10 기준으로 총 4개가 탑재되었으며, 기존의 지오메트리 프로세서 4개일 때와 동등한 수준의 성능을 보여주었다.[2]
지오메트리 프로세서에서 담당했던 3가지 기능인 지오메트리 어셈블러, 버텍스 어셈블러, 테셀레이션 중에 일부 기능이 프리미티브 셰이더가 가져가 분담하는 구조로 변경되었으며, GCN까지는 프리미티브 생성 속도와 컬링 속도가 같았으나, RDNA부터는 프리미티브 셰이더 덕분에 컬링 속도가 2배 빨라졌다. 유닛 하나에 클럭 사이클당 2개의 프리미티브 컬링 성능을 보여준다.
- 래스터라이저
GCN 계열의 래스터라이저에 해당하는 블록. 이전 세대와 마찬가지로 Scan Converter, Hierarchical-Z도 함께 포함되어 있다.
- WGP (Work Group Processor)
2개의 CU가 결합된 DCU(Dual Compute Units) 구조가 되었으며, 캐시 메모리와 같은 자원을 공유한다. AMD에서는 이를 'WGP'라고 부르며, 구조적으로는 NVIDIA의 SM(Streaming Multiprocessor)에 가깝다. 그동안 CU가 SM에 대응되는 단위로 취급되었다가 DCU를 보면 SM 2개씩 묶인 TPC(Texture Processing Cluster 또는 Thread Processing Cluster)에 가까운 모습으로 보일지라도, TPC 레벨에 존재하는 블록이 지오메트리 처리와 테셀레이션을 담당하는 폴리모프 엔진(Polymorph Engine) 말고는 아무 것도 없기 때문이다. 다시 말해서 TPC 레벨에서 두 SM을 서로 공유하는 메모리 계층이 아예 없다.
GCN의 컴퓨트 유닛은 4개의 SIMD16에 1개의 공유 벡터/스칼라 유닛이 명령어 디코드와 발행을 하는 구조였지만, RDNA에서는 2개의 SIMD32에 각각 벡터/스칼라 유닛이 붙게 되었다. 따라서 1개의 CU를 완전히 채우는 데 GCN은 4개의 사이클이 필요했던 반면, RDNA에서는 1사이클만에 가능하게 되었다.
또한 기본 실행 단위가 Wave64를 4개로 쪼개 SIMD16에 채우는 구조에서, SIMD의 넓이와 동일한 Wave32로 바뀌어 더욱 효율적인 명령어 처리가 가능해졌다. 참고로 NVIDIA의 CUDA에서도 동일한 크기를 사용한다.
GCN의 컴퓨트 유닛은 4개의 SIMD16에 1개의 공유 벡터/스칼라 유닛이 명령어 디코드와 발행을 하는 구조였지만, RDNA에서는 2개의 SIMD32에 각각 벡터/스칼라 유닛이 붙게 되었다. 따라서 1개의 CU를 완전히 채우는 데 GCN은 4개의 사이클이 필요했던 반면, RDNA에서는 1사이클만에 가능하게 되었다.
또한 기본 실행 단위가 Wave64를 4개로 쪼개 SIMD16에 채우는 구조에서, SIMD의 넓이와 동일한 Wave32로 바뀌어 더욱 효율적인 명령어 처리가 가능해졌다. 참고로 NVIDIA의 CUDA에서도 동일한 크기를 사용한다.
- 렌더 백엔드
GCN 계열의 렌더 백엔드에 해당하는 블록. 이전 세대와 마찬가지로 4개의 ROP이 묶여진 파티션 형태를 지니고 있으며, 기본적인 기능도 이전 세대와 큰 차이 없다.
- 캐시 메모리 계층 구조 변화
GCN 마이크로아키텍처에 속한 L1 캐시 메모리가 L0 캐시 메모리라는 이름으로 변경되었으며, 그 대신 셰이더 엔진(Shader Engine) 내부끼리 공유되는 영역에 L1 캐시 메모리가 추가되었다. 또한 ROP이 포함되어 있는 렌더 벡엔드(Render Backend)가 L1 캐시 메모리에 붙게 되면서 라데온 RX 5600 XT처럼 ROP과 L2 캐시 메모리가 서로 일정한 구성비로 유지할 필요가 없어졌다. GCN에서 보여주지 못 했던 RDNA의 scalable이 드러나는 특징 중에 하나이기도 하다.
LDCC(Lossless Delta Color Compression)라고 부르는 무손실 델타 컬러 압축 알고리즘이 개선되었으며, 내부적으로도 LDCC를 사용하게 변경되어 대역폭 절감이 가능해짐과 동시에 메모리 의존도가 낮아졌다. 경쟁사의 튜링 마이크로아키텍처만큼은 아니지만 파스칼 마이크로아키텍처 수준까지는 따라잡았다는 평. 이러한 캐시 메모리의 구조적 변화로 레이턴시 측면에서 L0 캐시 메모리 21%, L1+L2 캐시 메모리 24%, 그래픽 메모리라고도 부르는 전역 메모리 7%가 단축되었다고 한다.
LDCC(Lossless Delta Color Compression)라고 부르는 무손실 델타 컬러 압축 알고리즘이 개선되었으며, 내부적으로도 LDCC를 사용하게 변경되어 대역폭 절감이 가능해짐과 동시에 메모리 의존도가 낮아졌다. 경쟁사의 튜링 마이크로아키텍처만큼은 아니지만 파스칼 마이크로아키텍처 수준까지는 따라잡았다는 평. 이러한 캐시 메모리의 구조적 변화로 레이턴시 측면에서 L0 캐시 메모리 21%, L1+L2 캐시 메모리 24%, 그래픽 메모리라고도 부르는 전역 메모리 7%가 단축되었다고 한다.
- CLRX에서는 GCN ISA 1.5 버전
GCN 마이크로아키텍처는 원래 연산 성능을 위주로 개발되었기에[3] 파이프라인이 굉장히 길어서 레이턴시가 늘어지는 등 게이밍 GPU로서는 확실한 약점이 있었는데, RDNA에서는 파이프라인을 짧게 하여 좀 더 게이밍에 적합하게 변경하였다.
하지만 게이밍 성능과는 다르게 순수 FP32 연산 성능이 크게 떨어졌다. 라데온 RX 5700 XT에 사용된 Navi 10 풀칩조차 이전 세대 라데온 VII에 사용된 Vega 20 컷칩보다도 적은 컴퓨트 유닛이기 때문. 컴퓨트 유닛 개수만 따지면 7년 전 1세대 GCN 시절 HD 7970에 사용된 Tahiti 풀칩(컴퓨트 유닛 32개)과 HD 7870에 사용된 Pitcairn 풀칩(컴퓨트 유닛 20개)의 격차와 맞먹는다. 반대로 생각해보면, 같은 렌더 백엔드 스펙(렌더링 성능)일 때 컴퓨트 유닛의 개수를 늘림으로써 연산 성능이 증가될 때마다 게이밍 성능의 효율 저하가 덜 해진다는 뜻이기도 하다. 즉, 컴퓨트 유닛 개수에 따른 게이밍 성능 스케일링이 뚜렷해졌다는 것.
3DMARK 벤치마크 스타일도 Fire Strike 점수가 낮고 Time Spy 점수가 잘 나오는 식으로 NVIDIA의 맥스웰 이후 마이크로아키텍처와 비슷하게 변했다. GPU 채굴로 두 회사가 홍역을 한 번 치른 후에 NVIDIA에서는 레이 트레이싱으로, AMD에서는 새로운 아키텍처 도입으로 컴퓨팅에는 구세대에 비해 별로 나아진 게 없고 게이밍에 도움이 되는 쪽으로 선회한 듯이다.
2.2. RDNA 2 (Navi 2X, gfx1030)
- AMD Financial Analyst Day 2020 Round-Up: Laying A Path For Bigger & Better Things
- AMD's RDNA 2 Gets A Codename: “Navi 2X” Comes This Year With 50% Improved Perf-Per-Watt
- "RDNA 2" Instruction Set Architecture Reference Guide
【정식 발표 전 정보 펼치기 · 접기】
- 셰이더 엔진이 최대 2개 → 4개로 확장
RDNA 계열 아키텍처 기반 GPU의 체급을 결정하는 대단위 블록인 셰이더 엔진이 이전 세대보다 2배 확장되었다. 셰이더 엔진 하나에 2개씩 구성되는 셰이더 어레이도 최대 총 4개에서 8개로 확장되었고, WGP도 최대 총 20개에서 40개로 확장되었으며, 128 KB인 L1 캐시 메모리도 최대 총 4개에서 8개로 확장되었다. 단, L2 캐시 메모리만 256 KB 슬라이스 16개에 총 4 MB 그대로 유지되었다.
- 전력 대비 성능이 최대 54% 향상
공정 미세화 없이 전성비가 최대 목표치였던 50%를 넘어 최대 54%로 달성되었다. 54% 안에는 16% 기여도의 클럭 포텐셜, 17% 기여도의 전력 최적화, 21% 기여도의 클럭당 성능 강화가 합산된 값이다. 그런데 다른 슬라이드(PUTTING IT ALL TOGETHER)에서는 클럭당 성능의 그래프가 약 16%에 근접한 길이로 보여져서 어느 쪽이 맞는지는 확실하지 않다.
- 지오메트리 성능 효율성 개선
프리미티브 유닛이 최대 4개로 이전 세대와 동일하다. 다만, 이전 세대에서는 효율이 낮은 편이었는데, 이번에는 효율이 개선되어 지오메트리 성능이 최대 80%까지 향상되었다. 어떻게 효율이 향상되었는지는 불명. 어찌 되었든 효율이 크게 개선되어서 유닛 개수를 굳이 늘리지 않았던 것일 수도 있다.
- 래스터라이제이션 성능 2배 증가
래스터라이저는 최대 4개로 이전 세대와 동일하지만, 래스터라이제이션 성능이 16 픽셀/클럭 사이클에서 32 픽셀/클럭 사이클로 향상되었다. 정황상 래스터라이저와 함께 있던 Scan Converter가 2배로 증설된 듯.
- 레이 엑셀러레이터 (Ray Accelerator)
경쟁사의 지포스가 RT 코어가 탑재된 것과 같이, 라데온에도 컴퓨트 유닛 내부에 레이 트레이싱 전용 가속 장치가 1개씩 탑재되었다. 하지만 HOT CHIPS 32에 발표된 XBOX SERIES X의 아키텍처 설명회에서 설명했던 '컴퓨트 유닛 안에 클럭당 4텍스처링 또는 4레이 트레이싱으로 동작'이 그대로 반영되어 있는데, 이는 텍스처 유닛에 사용될 자원과 레이 엑셀러레이터에 사용될 자원이 서로 공유하는 구조이기 때문. 따라서, 1 클럭 사이클 내에서 텍스처링과 레이 트레이싱의 동시 연산이 불가능하다. 그것 뿐만 아니라 레이 트레이싱으로 인한 게임 프레임 레이트 하락을 막기 위해 저해상도로 렌더링 후 업 스케일링도 별도의 전용 하드웨어 없이 동작하기 때문에, 순수 레이 트레이싱 성능과 레이 트레이싱 + 업 스케일링 성능이 경쟁사보다 크게 떨어지는 결정적인 요인으로 꼽히고 있다.
- 렌더 백엔드 플러스 (RB+)
지금까지의 렌더 백엔드 블록은 4개의 ROP이 포함되어 있었고 스루풋도 4 픽셀/클럭 사이클과 16 Depth Samples/클럭 사이클을 유지했으나, 이번에는 8개의 ROP이 포함되는 구조가 되면서 8 픽셀/클럭 사이클로 2배 향상되었다. 그래서 블록 개수가 16개로 똑같아도 ROP이 128개가 된다. WGP가 최대 2배 확장된만큼 ROP도 2배 확장되었기 때문에 이전 세대 RDNA에서 지녔던 같은 렌더링 성능 대비 연산 성능에 따른 뚜렷한 게이밍 성능 스케일링 특성이 고스란히 적용되었다고 볼 수 있다. 하지만, 블록 1개에 여전히 16 Depth Samples/클럭 사이클이라서 완전한 ROP 8개라고 보기엔 애매하다.
- 컴퓨트 유닛(CU) 내부 L0 → L1 캐시 메모리 방향의 대역폭이 64 바이트/클럭 사이클 → 32 바이트/클럭 사이클로 절반 축소
컴퓨트 유닛 내부 기준으로 L0 → L1 캐시 메모리 방향의 대역폭이 이전 세대의 절반으로 크게 축소되었다. IPC를 높일 수 있는 요인이면서 고해상도 환경에 유리해질 수 있는 요인임에도 대역폭이 축소된 원인은 정확히 알 수 없으나, 캐시 메모리에 사용되는 SRAM의 슬라이스 개수와 SRAM 슬라이스의 비트 채널 개수에 따른 면적 문제이거나, 고클럭을 달성하기 위해 어쩔 수 없이 대역폭을 축소했을 것이라는 추측성 의견이 있다. 다행히, 반대 방향인 L0 ← L1 캐시 메모리 대역폭은 128 바이트/클럭 사이클로 유지되었으며, 셰이더 어레이 내부 기준 L1 ↔ L2 캐시 메모리 대역폭도 256 바이트/클럭 사이클 그대로 유지되었다.
- 인피니티 캐시 메모리 (Infinity Cache Memory)
CPU의 L3 캐시 메모리에 대응되는 메모리 계층이 추가되었다. 발표 전 루머로 알려졌을 때는 아무도 믿지 않았을만큼 레이 엑셀러레이터보다 더 주목 받은 신규 요소로, 5세대 GCN인 Vega 마이크로아키텍처부터 구축된 인피니티 패브릭 인터커넥트에 연동되어 있다. Navi 21 기준으로 64-bit 폭의 8 MB 슬라이스가 16개로 구성되어 총 128 MB가 탑재되었다. 최상위 GPU인 Navi 21조차 GDDR6 SGRAM이 256-bit 버스 폭으로 연결되어 있기 때문에 이에 따른 낮은 메모리 대역폭을 보강하기 위해 탑재되었으며, 이를 통해 인피니티 캐시 적중률은 게임에 따라, 해상도 환경에 따라 다르지만 720p HD 환경에서는 약 80%, 4K UHD 환경에서는 약 60% 정도라고 한다. 평균 레이턴시도 같은 256-bit 버스 폭인 라데온 RX 5700 XT 대비 약 34% 단축되었다.
L2 ↔ 인피니티 캐시 메모리 대역폭은 64 바이트/클럭 사이클인 슬라이스가 16개로 구성되므로 총 1024 바이트/클럭 사이클가 되며, 인피니티 패브릭 인터커넥트가 별도의 클럭 도메인으로 동작하는데 기본 클럭은 1400 MHz, 최대 클럭은 1940 MHz이다. 따라서, 유효 메모리 대역폭은 캐시 적중률이 겨우 35%만 되어도 (1.940 GHz × 1024 바이트 × 0.35) + (16 Gbps × 256-bit ÷ 8 × 0.65) = 1028.096 GB/s가 되어 사실상 1 TB/s급 이상을 구현할 수 있다. 참고로 1 TB/s는 16 Gbps인 GDDR6 SGRAM을 512-bit 버스 폭으로 구성했을 때의 메모리 대역폭이다.
Navi 21에 탑재된 128 MB의 인피니티 캐시 메모리는 GPU 전체에서 약 20%의 면적 비중을 차지하고 있는데, 이렇게까지 설계된 것은 GPU에 차지하는 면적 비중을 감안하더라도 유효 대역폭과 소비 전력 두 가지를 모두 잡기 위해 설계되었다고 한다. GPU 공정 미세화를 거쳐도 GPU 내부 GDDR6 SGRAM 컨트롤러와 물리 계층(PHY)이 좀처럼 줄어들지 않아 면적이 HBM 계열의 컨트롤러와 물리 계층보다 더 크고, 소비 전력도 HBM 계열보다 딱히 우위에 있지 않기 때문에, 전통적인 방식대로 GDDR6 SGRAM을 512-bit 버스 폭으로 무식하게 확장되었다면 전성비 우위를 가지기 어려웠을 것이고, 설령 그렇게 구성해도 GPU 전체의 면적에 대한 이득도 별로 없었을 것이다. 그 반면에 SRAM인 인피니티 캐시 메모리는 아예 없었을 때보다는 GPU 면적이 더 크지만 공정 미세화되면 면적이 감소되므로, 장기적인 관점에서는 같은 GPU 전체 면적 대비 뛰어난 유효 메모리 대역폭을 기대할 수 있다.
L2 ↔ 인피니티 캐시 메모리 대역폭은 64 바이트/클럭 사이클인 슬라이스가 16개로 구성되므로 총 1024 바이트/클럭 사이클가 되며, 인피니티 패브릭 인터커넥트가 별도의 클럭 도메인으로 동작하는데 기본 클럭은 1400 MHz, 최대 클럭은 1940 MHz이다. 따라서, 유효 메모리 대역폭은 캐시 적중률이 겨우 35%만 되어도 (1.940 GHz × 1024 바이트 × 0.35) + (16 Gbps × 256-bit ÷ 8 × 0.65) = 1028.096 GB/s가 되어 사실상 1 TB/s급 이상을 구현할 수 있다. 참고로 1 TB/s는 16 Gbps인 GDDR6 SGRAM을 512-bit 버스 폭으로 구성했을 때의 메모리 대역폭이다.
Navi 21에 탑재된 128 MB의 인피니티 캐시 메모리는 GPU 전체에서 약 20%의 면적 비중을 차지하고 있는데, 이렇게까지 설계된 것은 GPU에 차지하는 면적 비중을 감안하더라도 유효 대역폭과 소비 전력 두 가지를 모두 잡기 위해 설계되었다고 한다. GPU 공정 미세화를 거쳐도 GPU 내부 GDDR6 SGRAM 컨트롤러와 물리 계층(PHY)이 좀처럼 줄어들지 않아 면적이 HBM 계열의 컨트롤러와 물리 계층보다 더 크고, 소비 전력도 HBM 계열보다 딱히 우위에 있지 않기 때문에, 전통적인 방식대로 GDDR6 SGRAM을 512-bit 버스 폭으로 무식하게 확장되었다면 전성비 우위를 가지기 어려웠을 것이고, 설령 그렇게 구성해도 GPU 전체의 면적에 대한 이득도 별로 없었을 것이다. 그 반면에 SRAM인 인피니티 캐시 메모리는 아예 없었을 때보다는 GPU 면적이 더 크지만 공정 미세화되면 면적이 감소되므로, 장기적인 관점에서는 같은 GPU 전체 면적 대비 뛰어난 유효 메모리 대역폭을 기대할 수 있다.
- Direct3D Feature Level 12_2 (DirectX 12 Ultimate 포함)
DirectX 레이 트레이싱 이외에도 메시 셰이더, 샘플러 피드백, 가변 셰이딩(VRS) 기능도 지원한다.
- 스마트 엑세스 메모리 (Smart Access Memory)
메모리 레지스터 사이즈를 변경해서 CPU가 VRAM에 더 빠르게 접근하게 해주는 기능. Resizable Base Address Register 라고도 부르며 현재까지 이 기능을 지원하는 유일한 그래픽카드이기도 하다.[4]
- 레이지 모드 (Rage Mode)
그래픽 카드의 전력 제한을 완전히 해제하는 것은 아니고 어느 정도 완화하여 오버클럭 포텐셜, 온도, 전력이 허용되는 범위 한해서 더 높은 부스트 클럭으로 끌어 올리는 기능이다. 라이젠 CPU의 PBO에 대응되는 기능이라고 볼 수 있다.
2020년 10월 28일에 정식 발표되고 11월 18일에 출시된 2세대 RDNA 마이크로아키텍처. 이전 RDNA와 비교해서 확장된 구조, 전성비 50% 향상, 클럭 증가가 주된 특징으로, 가장 눈에 띄는 추가 기능은 레이 트레이싱 가속을 지원하는 RA(Ray Accelerator)와 인피니티 캐시 메모리라는 새로운 캐시 메모리 계층이다. 그 외에 기타 추가 기능도 있지만 기본적인 특징은 이전 세대와 동일.인피니티 캐시 메모리는 ZEN 계열 마이크로아키텍처의 L3 캐시 메모리를 기반으로 설계되었다. AMD의 설명에 따르면 인피니티 캐시는 DRAM 레이턴시를 감소시키며 매우 높은 메모리 대역폭을 제공하고 전력 소모량 감소 효과도 있다. (256-bit GDDR6 SGRAM 단독 사용과 비교했을 때 인피니티 캐시가 결합된 GDDR6 SGRAM 사용은 0.9배의 전력 소모로 2.17배의 대역폭을 제공받는 효과) 하이엔드 라인업 RDNA 2 기반 GPU인 Navi 21에는 128 MB 용량의 인피니티 캐시가 탑재된다.
실리콘 최적화를 통해 동일한 7nm 공정임에도 불구하고 전성비를 RDNA 1 대비 최소 50% 향상시켰으며, 클럭을 30% 향상시켰다. IPC 향상에 관해선 별다른 언급이 없었으나, 54% 전성비 기여도에서 클럭당 성능이 16~21%로 보여진 점, 앞선 개선점들을 전부 종합하면 지난 세대 Navi 10이 탑재된 RX 5700 XT 대비 RDNA 2 기반의 Navi 21이 탑재된 그래픽카드 성능이 평균 약 2배에 이른다.
또한, 기능적으로는 DirectX 레이 트레이싱, 메쉬 셰이더, DirectStorage API, Variable Rate Shading, 샘플러 피드백을 지원한다. AMD 스마트 액세스 메모리 기술이 공개되면서 라이젠 5000 시리즈 CPU는 RX 6000 시리즈 그래픽 카드의 GPU 메모리에 완전 접근이 가능해졌다. 즉 CPU가 좋은 자원을 끌어다 쓸 수 있도록 해준다는 것. 레이지 모드가 추가되면서 전력 제한을 어느 정도 완화하면서 부스트 클럭을 보증 가능한 범위 내에서 더 높일 수 있게 되었다.
2.3. RDNA 3 (Navi 3X, gfx????)
2020년 3월 5일, AMD 파이낸셜 데이의 GPU 로드맵에서 처음 언급된 RDNA 2의 후속 마이크로아키텍처. ZEN 2에서 처음 사용된 칩렛 방식을 그래픽 칩 최초로 적용할 예정이라고 밝혔다. 로드맵에서 드러나기 시작했을 뿐 공식 발표되지 않았으며, 2022년 즈음에 출시될 예정 말고는 아직까진 자세하게 밝혀진 정보가 없다.
3. 사건 사고
2020년 3월 24일 Navi 10의 Verilog 코드가 GitHub에 유출되는 사건이 일어났다.# 다행인 것은 유출된 코드가 핵심 로직에 대한 RTL(쉽게 말해 하드웨어 설계도)이 아닌 시뮬레이션, 검증에 관련된 코드로 보인다는 점이다. 지금은 AMD에서 DMCA takedown을 걸어 저장소가 삭제된 상태이다.# #
코드의 길이는 약 160만줄이고 958개의 소스 코드 파일로 이루어져 있다.
유출자가 자신의 암호화폐 주소를 README.md에 올리고 유출할 것들이 더 많이 있다고 적어두었기 때문에 실수가 아닌 고의적으로 코드를 유출시킨 악질적인 행위임을 알 수 있다.
3월 25일 AMD에서 이번 사건에 대한 입장을 표명했다.#
자신을 러시아인 여성 해커라고 주장한 유출자는 구매자가 나타나지 않는다면 공개하지 않은 나머지 Navi 10 코드와 ARDEN과 Navi 21의 소스코드도 무료로 배포해버리겠다고 협박하였다.# 처음 Navi 10의 코드가 유출되었을 때 소스 코드 파일 목록이 같이 포함되었는데 목록에는 RTL이 포함된 것으로 추정되는[5] 약 25000개의 verilog와 system verilog 파일이 있었다. 해커는 이걸 배포해버리겠다고 협박하면서 구매자를 모으는 중이라 볼 수 있다.
그 후 아무런 소식이 없었기 때문에 사건의 결말은 다음 3가지 중 하나로 추측된다.
- 익명의 구매자가 나타나서 소스 코드를 팔았다
- 유출할 소스 코드가 더 많이 남았다는 해커의 주장이 거짓말이었다.
- 해커가 검거되었다.
엑스박스 시리즈 X는 위에 설명되어 있듯 RDNA 1과 동클럭당 성능이 거의 비슷하며, RDNA 2의 특징인 AV1 하드웨어 디코딩도 빠져있다. 프론트 엔드와 컴퓨트 유닛이 RDNA 1 기반이고 RT코어와 랜더링 백엔드만 RDNA2라는 소문이 돌고 있었는데 이쪽은 빠른 해명으로 해당사실에 대해서 부정한뒤 아키텍처에 대해서 상세히 밝히면서 논란을 어느정도 해소했다[6]
[image][7]
플레이스테이션 5는 상황이 더 심각하다. RDNA 2의 주요 하드웨어 피처인 메쉬 셰이더나 샘플링 피드백 스트리밍, 가변 속도 셰이딩 등 온갖 기능들이 대부분 사용이 불가능하고, RDNA 1에 RT 코어만 붙인거라는 폭로가 나오고 있으며 AMD의 R&D 수석 부사장 데이비드 왕은 PS5가 NAVI 1.X라고 인터뷰하기도 했다.#
자세한 상황은 각 콘솔 항목 참조
4. 같이 보기
[1] 다만 RDNA 아키텍쳐가 게이밍을 중시한 아키텍처이기에 Radeon RX 시리즈는 RDNA 아키텍처를 이용하고 Radeon Pro나 Radeon Instinct 등은 FP32, 반정밀도 연산에 유리한 GCN 아키텍처를 사용해 2트랙으로 병행할 예정이며, 실제로 추후 출시될 악튜러스는 게임용이 아니라 GCN 구조를 활용한 개선판으로 연산 특화용이라고 한다. 2020년 3월 5일 파이낸셜 데이에서 CDNA 아키텍처가 발표됨으로써 기존에 알려진 악튜러스 GPU가 CDNA 아키텍처 기반일 가능성이 높아졌다.[2] 만약 VEGA에서 프리미티브 셰이더가 활성화 되있었다면 지오메트리 처리 성능은 VEGA56이 RX5700XT를 누루게된다.[3] GCN 마이크로아키텍처 발표시 "그래픽은 곧 연산, 연산은 곧 그래픽(Graphic is Compute, Compute is Graphic)"이라고 표현했을 정도이다. #[4] 엔비디아 측에서는 2021년 2월달부터 업데이트 할 예정이다.[5] 파일 이름으로 추정함[6] 또한 이 과정에서 RDNA2의 레이트레이싱 성능의 부족함등의 RDNA2의 예상성능을 어느정도 스포해 버렸으며. 이는 RX6000 시리즈의 성능을 예측할때 도움이 되었다.[7] 이 사진은 RDNA 2에서 발표한 DX12U 주요 사항에 대해서 설명해 놓았기 때문에 DXR을 미지원한다고 표기해놨는데 실제로는 PS5도 별도의 API로 레이 트레이싱을 구성하기 때문에 실기에서는 레이 트레이싱을 볼 수 있다.