TITAN V

1. 개요

2. 제원

3. 상세

4. 관련 문서

1. 개요

2017년 12월 7일, 12세대 아키텍처이지만 지포스로 출시되지 않은 제품군.[1] 코드네임은 볼타.
공식적으로는 소비자용 그래픽카드이지만 그 소비자가 일반적인 '''소비자(...)'''가 아님은 누구나 알 것이다. 그렇다. 3D 전문가용 보급형 카드다.

2. 제원

<rowcolor=white> 그래픽 카드 모델명	GPU				그래픽 메모리				TDP ^(W)	출고 가격 ^($)
	<rowcolor=white> 이름 _(공정) ^(면적)	FP32:INT32:TC:TMU:ROP ^{(RE, PME)}	클럭 ^(부스트) ^(MHz)	L2 캐시 ^메모리 ^(MB)	버스 ^(bit)	규격	클럭 ^{(비트레이트)} _(MHz) ^(Mbps)	용량 ^(GB)
<color=white> '''데스크탑용 제품군'''
<colbgcolor=black><colcolor=#76B900>'''TITAN V'''	GV100 _{(12 ㎚)} ^{(815 ㎟)}	5120:5120:640:320:96 (6, 40)	1200 (1455)	4.5	3072	HBM2	850 (1700)	12	250	2999
'''TITAN V ^{CEO EDITION}'''		5120:5120:640:320:128 (6, 40)	1200 (1530)	6	4096		848 (1696)	32		-
<color=white> 【이론적인 성능 계산식 펼치기 · 접기】 _{'''< 범용 연산 성능 >''' (GPU 클럭) × (FP32 유닛의 개수) × 2 ÷ 1000 = (FP32 연산 속도) [GFLOPS] (FP32 연산 속도) ÷ 32 = (FP64 연산 속도) [GFLOPS] (GPU 클럭) × (TC의 개수) × 2 x 64 ÷ 1000 = (FP16 연산 속도) [GFLOPS] (GPU 클럭) × (INT32 유닛의 개수) ÷ 1000 = (INT32 연산 속도) [GIPS] (FP16 연산 속도) × 2 = (INT8 연산 속도) [GOPS] (FP16 연산 속도) × 4 = (INT4 연산 속도) [GOPS] '''< 특수 연산 성능 >''' (GPU 클럭) × (PME의 개수) ÷ 2 ÷ 1000 = (삼각형 생성 개수) [GTriangles/s] (GPU 클럭) × (RE의 개수) × 16 ÷ 1000 = (래스터라이제이션) [GPixels/s] (GPU 클럭) × (ROP의 개수) ÷ 1000 = (픽셀 필레이트) [GPixels/s] (GPU 클럭) × (TMU의 개수) ÷ 1000 = (텍스처 필레이트) [GTexel/s] '''< 그래픽 메모리 성능 >''' (메모리 버스) ÷ 8 × (메모리 비트레이트) ÷ 1000 = (메모리 대역폭) [GB/s]}
<color=white> 【용어 전체 이름 펼치기 · 접기】 _{Single-Precision Floating-Point = FP32 Double-Precision Floating-Point = FP64 Half-Precision Floating-Point = FP16 32-bit Integer = INT32 8-bit Integer = INT8 4-bit Integer = INT4 CUDA Core = CC Compute Unified Device Architecture = CUDA Tensor Core = TC Texture Mapping Unit = TMU Render Output Pipeline = ROP Raster Engine = RE PolyMorph Engine = PME RT Core = RTC Thermal Design Power = TDP Total Graphics Power = TGP Graphics Card Power = GCP Max Power Consumption = MPC}

[1] 테슬라, 타이탄, 쿼드로 제품군에서만 출시되었다.

<rowcolor=white> GPU별 특성
<rowcolor=white> GPU 이름	그래픽 가속	GPGPU 가속	비디오 가속	호스트 인터페이스	메모리 규격	디스플레이 출력
<color=white> '''Volta'''
<colbgcolor=black><colcolor=#76B900>'''GV100'''	DirectX 12 ^{(FEATURE_LEVEL_12_1)} OpenGL 4.6 Vulkan 1.2	CUDA Compute Capability 7.0 OpenCL 2.0	PureVideo HD 9 ^{(VDPAU Feature Set I)} NVDEC 3 NVENC 6	PCIe 3.0 ×16	HBM2	HDMI 2.0b DisplayPort 1.4

3. 상세

NIPS 컨퍼런스에서 발표되었다. 정식 명칭은 NVIDIA TITAN V이며 볼타 아키텍처 기반 TITAN 그래픽 카드이다.
예전 로드맵에서 현 파스칼의 위치에 있었다가 사라져서 취소된 것으로 추측되었으나 로드맵이 재개정되면서 재등장, 연기된 것임이 밝혀졌다.
2017년 5월 10일, GTC 2017 NVIDIA 키노트에서 차세대 데이터 센터용 연산 가속기인 테슬라 V100과 함께 볼타 아키텍처가 공개되었다. 공개된 정보에 따르면 TSMC 12nm FinFET NVIDIA 공정으로 생산되었으며, NVIDIA를 위해 커스텀된 공정이라고 한다. 다이 면적은 무려 815㎟로 210억개의 트랜지스터가 집적됐다고 한다.
볼타 아키텍처 기반으로 개발된 GPU 칩셋은 GV100으로, 1개의 SM에는 CUDA 코어 128개씩이 아닌 64개씩 탑재되어 있는데 이는 GP102가 아닌 GP100의 특성을 따라간 것으로 보인다. 여기까진 GP100과 다를 바 없는 SM 내부 구조이지만 기본적으로 탑재된 CUDA, FP64 등의 유닛 말고도 딥 러닝에 특화된 전용 유닛인 텐서(Tensor) 코어 8개씩 더 탑재된 것이 파스칼 아키텍처와의 차별 포인트로, SM 개수 자체도 GP100보다 더 늘어나 기본적인 FP16/32/64 연산 성능도 그만큼 향상되었다.
GV100 풀스펙상 총 6개의 GPC에 42개의 TPC, 84개의 SM, CUDA 5376개,[2] Tenser 코어 672개로 구성되어 있으나 먼저 공개된 테슬라 V100과 마찬가지로 4개의 SM이 비활성화된 GV100 컷칩이며, CUDA 5120개(5120개의 FP32, INT8 코어, 2560개의 FP64 코어)와 Tensor 640개인 것으로 밝혀졌지만 부스트 클럭은 1530MHz에서 1455MHz로 감소됨에 따라 연산 성능이 FP64 기준 7.8 TFLOPS에서 7.45 TFLOPS로, FP32 기준 15.7 TFLOPS에서 14.9 TFLOPS로, 텐서 코어를 이용한 딥 러닝 연산 기준 125 TFLOPS에서 119 TFLOPS로 감소되었다. 테슬라 V100에 비해 상대적으로 떨어지는 스펙일 뿐, 딥 러닝 연산만큼은 테슬라 P100 대비 5.7배로 이 정도면 압도적이라고 부르기에 충분한 성능이긴 하다. 참고 자료
메모리 구성은 처음의 목표였던 마이크론의 3D 스택 메모리인 HMC가 아닌, 지난 세대 테슬라 P100과 마찬가지로 삼성전자의 HBM2가 채용되었지만 테슬라 V100과는 달리 HBM2 스택 1개가 비활성화되어 스펙이 하향되었는데 메모리 용량이 16GB에서 12GB로, 메모리 버스폭이 4096bit에서 3072bit로, 메모리 클럭이 878MHz(실효 1756MHz)에서 850MHz(실효 1700MHz)로 줄줄이 하향됨에 따라 메모리 대역폭이 900GB/s에서 652.8GB/s로 축소되었다. L2 공유 캐시 용량도 6MB에서 4.5MB로 감소되었다.
전체적인 스펙으로는 테슬라 V100의 하위 라인이 되어버렸지만, TITAN 시리즈의 컨셉 특성상 NVIDIA 연산 특화, 전문가, 게이밍 겸용 그래픽 카드로써 HBM2 규격의 메모리가 최초로 탑재된 것에 의의가 있는 모델이라고 볼 수 있다.
라데온 RX VEGA 64의 성능이 GTX 1080 정도에 불과한 것으로 밝혀지면서 경쟁의 필요성을 느끼지 못하는 NVIDIA가 게이밍용 볼타 GPU를 2017년 안에 출시하지 않을 것이라는 뉴스가 나왔다. 하이닉스의 발표자료에서도 볼타 고급 지포스 VGA를 위한 GDDR6 메모리가 2018년 1분기부터 양산된다고 되어 있다. 더욱이 2017년 10월 예상외로 GTX 1070Ti가 새로 출시되면서 볼타의 출시일은 더욱 불분명해졌다.
같은 TITAN 시리즈끼리 비교해보면 FP32 연산 성능은 이전 세대 TITAN Xp의 12.1 TFLOPS보다 약 24% 더 높지만 FP16 연산은 2배속을 지원하지 않으며, 텐서 코어를 이용한 딥 러닝 연산에 제한적으로 지원한다.[3][4] 텐서 코어를 이용한 딥 러닝 연산 성능은 약 119 TFLOPS이다. TITAN V는 TITAN Xp에 지원되지 않는 FP16 연산을 할 수 있으며 TITAN Xp보다 2배 이상 높은 딥 러닝 연산 성능을 보인다.[5]
SLI가 아닌 NVLink 커넥터가 있다. 하지만 NVLink 기능은 작동하지 않으며, NVLink 커넥터가 쿨러와 백플레이트 사이에 있어서 물리적으로 NVLink 브릿지를 장착할 수 없다. 즉, SLI와 NVLink 모두 지원하지 않는다.[6]
단, 바이오스 개조를 통해 NVLink 기능을 사용할 수는 있다.
쿨러 외형은 TITAN Xp와 동일하지만 컬러가 금색이다. 백플레이트는 TITAN Xp와 달리, 2개로 분리되지 않는다.[7] 또한 측면에 GEFORCE GTX가 아닌 TITAN 문구가 있으며 전체적인 색상은 연산 특화용 제품에만 사용된 금색이 사용되었다.[8] 백플레이트에서 GEFORCE GTX 문구가 사라졌는데 GEFORCE GTX 문구가 사라졌다는 것은 TITAN V가 게이밍용보다는 연산용에 더 가까운 제품이라는 것을 의미하는 것일 수도 있다. 쿨링 방식은 증기 챔버(베이퍼 챔버)를 이용한 방식으로 TITAN Xp와 같지만, 방열판 재질이 알루미늄에서 구리로 바뀌었다.[9]
PCB를 보면 전원부의 구성이 16 페이즈로 TITAN Xp보다 2배 가량 증가하였다. NVIDIA에 따르면, 전원부는 DrMOS 모스펫이며 실시간 전류, 온도 모니터링 기능이 통합되었다고 한다.
TDP는 TITAN Xp와 동일한 250W이며 8+6핀 전원부 커넥터를 가졌다.
출시 가격은 2999달러로 TITAN Xp 대비 약 2.5배 높다. 비싸기는 하지만, 10000달러를 넘는 가격의 테슬라 V100와 동급의 연산 성능을 가졌다는 점을 고려하면 연산용 그래픽 카드로써는 매우 좋은 가성비를 지닌 셈이다. 단, 게이밍용 그래픽 카드로는 가성비가 매우 떨어진다. 성능만 보자면 GTX 1080Ti는 물론이고 TITAN Xp마저 압살하는 수준이니 게임이 안 돌아갈 리는 없지만, 현재 출시된 어지간한 고사양 게임들도 타이탄은커녕 GTX 1080Ti 선에서 4K 60fps를 방어할 수 있으니 굳이 TITAN V를 살 이유가 없다.
TITAN V는 복잡한 3D 구조(geometry-heavy), 테셀레이션, 비동기식 연산에서 TITAN Xp보다 더 높은 성능을 보인다.(출처 참조) TITAN Xp보다 33% 정도 더 많은 CUDA 코어와 향상된 비동기 연산 성능 덕분에 DirectX 12와 Vulkan 같은 로우 레벨 그래픽 API 기준으로 TITAN Xp 대비 최대 41% 더 높은 성능을 보였지만, DirectX 11에서는 성능 향상 폭이 상대적으로 작거나 별로 없는 경우가 자주 보인다. DirectX 11이 5120개의 CUDA 코어를 제대로 활용하지 못하고, 부스트 클럭이 낮기 때문으로 추측된다. 또한 드라이버에 문제가 있는지 종종 TITAN Xp보다 못한 성능을 보이기도 한다.
2018년 2월 5일, 국내에서도 정식으로 출시되었다. 가격은 부가세 포함 '''3,990,000원'''.
국내 하드웨어 사이트 중에서는 퀘이사존에서 최초로 TITAN V 벤치마크를 공개하였다.
벤치마크는 2부로 구성하였으며, 1부는 게임 성능을 2부는 딥러닝 및 연산 성능을 다루었다.
2018년 6월 21일, 미국 솔트레이크시티에서 열린 컴퓨터 비전 및 패턴 인식 컨퍼런스에 참가한 20명의 AI 개발자에게 TITAN V CEO Edition이 제공되었다. 기존 TITAN V보다 메모리가 20GB 많고 모든 메모리 스택이 활성화되어 메모리 버스폭이 4096bit, 메모리 대역폭이 870GB/s로 강화된 제품으로 Quadro GV100과 같은 스펙이다.

4. 관련 문서

NVIDIA/GPU

[2] GK110 컷칩 기반으로 출시된 GTX TITAN의 2배에 달하는 스펙이다.[3] #[4] TITAN V가 2배속 FP16 연산을 지원하지 않는 것은 테슬라 V100와 향후 출시될 Volta 아키텍처 기반 쿼드로와 차등화를 두기 위한 것으로 보인다.[5] NVIDIA에 따르면, AI(딥 러닝)와 HPC(FP64 연산)에서 높은 성능을 발휘하는 것이 볼타 아키텍처의 목표였다고 한다.[6] TITAN V에 지원하지 않는 NVLink 커넥터가 있는 것은 TITAN V가 테슬라 V100 PCIe 타입 모델과 같은 PCB를 공유하기 때문이다.#[7] NVIDIA의 레퍼런스 그래픽 카드는 GTX 980부터 백플레이트가 2개로 분리되게끔 설계되어 있다. 이는 다수의 그래픽 카드가 가깝게 장착되어 있을 시, 공기 흐름 향상시킬 수 있도록 백플레이트 일부를 제거할 수 있게끔 설계되었기 때문이다.[8] 2017년 5월 22일, 엔비디아의 인턴을 통해 TITAN V의 사진이 유출된 적이 있다.[9] 구리는 같은 부피의 알루미늄보다 무겁다. 때문에 TITAN V는 TITAN Xp보다 무겁다.