인텔 제온 파이

 

1. 개요
2. 배경
2.1. Larrabee 프로젝트
3. 세대
3.1. Knights Ferry
3.2. Knights Corner
3.3. Knights Landing
3.4. Knights Mill
4. 사용 모델
4.1. 22 nm 마이크로프로세서
4.1.1. Knights Corner
4.2. 14 nm 마이크로프로세서
4.2.1. Knights Landing
4.2.2. Knights Mill


1. 개요


인텔에서 제작하는 병렬 연산용 마이크로프로세서.
GPGPU와 비슷하게 병렬 연산을 위해 디자인된 마이크로프로세서이며, 무시무시한 코어수와 더불어 높지 '''않은''' 클럭을 가지고 있다. 병렬 연산용으로 제작된 물건이라 클럭은 크게 중요한건 아니지만, 멀티코어를 활용한 병렬 연산에 최적화된 프로세서라 일반 게임을 이 제온 파이로 돌리면 당장에 당신 컴퓨터에 설치된 i5보다도 프레임이 안 나올 것이다.
스트림 프로세서 갯수만 수 백개가 넘는 그래픽카드에 비하면, 고작 코어 72개(4세대 기준)에 불과한 제온 파이는 병렬 연산에서 엄청 후달리는 듯 하지만, 애초에 코어 세는 단위가 다르기 때문에 저런 비교는 숫자놀음 신세를 벗어나기 힘들어서 의미가 없다. (일례로 RTX2080Ti는 4352의 CUDA 코어를 가지고 있지만, 6 GPC, 34 TPC, 68 SM이기도 하다. 그러니깐 같은 제온 파이 4세대 vs RTX2080Ti라도 뭘 기준으로 비교하느냐에 따라 72 vs 6, 34, 68, 4352로 숫자가 완전히 달라져 버린다....[1])
초기엔 HPC 분야에서 선전했다.(때문에 AMD가 망신을 당하기도 했다. 제온 파이보다는 먼저 이쪽 시장에 진입했는데 역전 당하는 바람에...) 제온 파이가 그래픽카드와 비교했을 때 가지고 있는 장점이라면, 기본이 CPU라 그래픽카드가 대처하지 못하는 복잡한 연산이 가능하며(무엇보다 x86 명령어 사용이 가능하다는 장점을 가지고 있다.), CUDA를 플랫폼으로 삼느라 굉장히 어려운 병렬 프로그래밍 난이도를 가진 그래픽카드와 비교했을 때 파이는 프로그래밍 난이도도 낮을 뿐더러 OpenMP를 플랫폼으로 삼아 범용성도 높다. IDF(인텔 개발자 포럼)로 대표되는 인텔의 빵빵한 개발자 지원도 한 몫 한다.
그러나 눈부시게 발전하는 엔비디아 테슬라, 쿼드로 프로세서들의 병렬 컴퓨팅 성능, 꼭 맞는 기계학습 시대 트렌드, 그리고 받쳐주고 있는 CUDA 개발 환경 때문에 시장에 밀리면서 결국 인텔이 제온 파이 제품군을 포기했다.# IDF도 없애 버렸다. 아는 사람은 알겠지만, IEEE 배밀도 부동소수점 연산이 대세이던 시절에는 잘 나갔으나 기계학습이 대세로 바뀌면서 16비트, 8비트 정수 연산을 대량으로 취급하는 쪽으로 바뀌면서 엔비디아가 독주하게 됐다. 오히려 새옹지마인지 제온 파이 덕분에 망신살 뻗었던 AMD는 라데온 인스팅트 MI50을 내놓는 등 여전히 살아있는 편이다.
하지만 그 유산은 일부 남아 AVX-512에 이어지는 듯 하다.# 그리고 제온 파이를 포기한 것이지 GPGPU 등의 고성능 컴퓨팅 자체를 포기한 것은 아니다. 라자 코두리와 짐 켈러를 데려간 것도 이 때문이라고# (물론 인터뷰 답변은 라자 코두리가 자기 PR을 하는 측면도 있기 때문에 적당히 걸러서 봐야겠지만).

2. 배경



2.1. Larrabee 프로젝트


인텔은 벡터 연산 능력을 강화시킨 펜티엄 P54C 코어를 대량으로 집적시켜서 x86 아키텍처를 사용하는 외장형 그래픽 카드를 개발하려고 했다. 기존의 인텔 GMA와는 별개로 개발되었고, 2009년 12월에 그래픽 카드 출시 계획을 발표했으나 개발 지연과 성능 부족으로 2010년 5월에 취소되었다. 인텔은 이 프로젝트의 유산 중 대량으로 코어를 집적시키는 부분을 살려서 GPGPU와 경쟁하는 고성능 연산 분야로 진출하기로 한다. Larrabee 프로젝트의 결과물은 Xeon Phi 프로토타입인 Knights Ferry로 공개되었으나, 시장에 출시된 것은 아니고 일부 수퍼컴퓨터 센터에만 납품되었다. 살아남은 제온 파이에서는 화면 출력이나 게임 가속 그런 거 없다. 제온 파이 카드를 쿨러만 보면 그래픽 카드 같아 보이기는 하나, 잘 보면 모니터 케이블을 연결할 곳이 없다! 심지어 나이츠 랜딩 세대(2세대, 라라비부터 따지면 3세대)부터는 CPU 소켓에 꼽아서 그냥 CPU처럼 쓸 수도 있는 제품도 출시된다.
GPGPU로 분류할 수도 있겠지만 사실 라라비나 제온 파이나 GPU 구조랑 전혀 상관 없는 작은 CPU를 수십 개 때려 박아서 GPU와 비슷한 병렬화 효과를 얻는 녀석이라 어떻게 봐도 GPU / GPGPU로 보기 어렵긴 하다. 그래도 초기 라라비 계획이 성공해서 이 녀석으로 PC에서 화면 출력도 하고 게임도 돌리는 등 전통적인 GPU 역할을 수행했다면 그 제품을 '그래픽 카드'라 불러도 손색은 없지 않을까? 엄밀히 따지고 들자면, 그 경우라면 "인텔 UHD External Graphics(가칭)"은 VGA는 맞지만 GPU나 GPGPU는 아닌 물건이 된다. Video Graphic Accelererater는 말 그대로 "영상 & 화상 가속기" 니까 화면 출력과 게임 그래픽 가속이 되는 인텔 외장그래픽(가칭)은 VGA의 정의에 부합한다. 그리고 VGA 카드 기판 위에는 VRAM과 각종 화면 출력 회로와 단자가 있을 것이다. 하지만 거기에 붙어있는 주 연산 칩셋은 엔비디아 지포스 시리즈 같은(지포스 시리즈는 페르미 불지옥을 겪고 난 뒤 GPGPU 연산 기능을 사실상 날리다시피하고 대신 CPU 연산에 의존하는 방식이다. Titan 시리즈 제외) GPU(그래픽 처리 유닛)도, 엔비디아의 나머지 시리즈나 AMD, ATI, 매트록스 같은 GPGPU(범용 연산 그래픽 처리 유닛)도 아닌 멀티코어 cCPU(보조 중앙 처리 장치 = 코프로세서)가 달려 있을 뿐.

3. 세대



3.1. Knights Ferry


Xeon Phi 프로토타입. Larrabee 프로젝트의 유산이었으며 45nm 공정으로 제조되었다.

3.2. Knights Corner


1세대 Xeon Phi.

3.3. Knights Landing


2세대 Xeon Phi. 인텔 14nm 공정으로 생산된다. 이전까지는 부팅하는 데 호스트 CPU가 필요하던 구조였지만, Knights Landing부터 독립적으로 부팅이 가능한 LGA3647 버전도 출시되었다. 프로세서 안에 최초로 마이크론의 HMC(Hybrid Memory Cube)를 사용한 16GB MCD RAM을 탑재하고 있다. Fabric이 통합된 제품은 제품명 뒤에 F가 붙으며, TDP가 15W 늘어나고 프로세서에 별도의 Fabric 전용 케이블이 생긴다. 가격은 $1881~$3368.
Knights Landing 마이크로아키텍처는 Silvermont 마이크로아키텍처 기반으로 개선된 아키텍처로, 기존 Knights Corner와 비교해 벡터와 스칼라 연산 성능 모두 크게 향상돼, 기존 제품의 3배의 스칼라 성능과, AVX-512 지원, NVIDIA의 테슬라 K80과 비교해 생명과학 분야에서 최대 5배, 시각화 분야에서 최대 5.2배, 금융 분야에서 최대 2.7배가 상승되었다. 또한 기존의 인텔 CPU의 ISA를 레거시 수준에서 지원해 일반 프로세서로 컴파일 된 명령어도 처리가 가능해졌다.
솔더링이 아닌 서멀 그리스가 사용되었다. 이전 세대 제온 파이들도 모두 솔더링이 아니다.

3.4. Knights Mill


3세대 Xeon Phi. 10nm 공정으로 나이트 힐(knights Hill)이라는 코드명이 예정이었으나 공정 지연으로 14 nm 공정에서 생산되었다.
데이터 베이스에 등록된 나이츠 밀의 제품군은 총 세가지다.
제온 파이 7295(72코어 / 288쓰레드, 베이스 클럭 1.50GHz, 터보 클럭 1.6GHz, L2 캐쉬 36MB, TDP 320W, DDR4-2400)
제온 파이 7285(68코어 / 272쓰레드, 베이스 클럭 1.30GHz, 터보 클럭 1.40GHz, L2 캐쉬 34MB, TDP 250W, DDR4-2400)
제온 파이 7235(64코어 / 256쓰레드, 베이스 클럭 1.30GHz, 터보 클럭 1.40GHz, L2 캐쉬 32MB, TDP 250W, DDR4-2400)
흥미로운 점은 배정밀도 연산은 나이츠 랜딩의 절반이지만 단정밀도 연산은 두배이며 Variable precision(가변 정밀도) 연산은 네배 정도의 성능을 자랑한다. 이런 특징으로 인해 인공 지능 연산 등에서 더 유리할 것으로 예상된다. 메모리 채널은 6채널 DDR4를 지원하며 통합 메모리 구조를 가져 메모리와 CPU가 하나의 패키지로 판매된다고 한다. DDR4의 경우 최대 384GB까지 지원하지만 메모리 대역폭이 부족할 경우를 대비해 16GB의 MCDRAM을 지원한다고 한다. 하지만 최근 인공지능 관련 라이브러리, API의 경우 대부분 엔비디아의 GPU에서만 작동하거나 최적화 되어 있기에 딥 러닝 부분에서 표준화는 시간이 필요할 것으로 추측된다.
참고(ANANDTECH)

4. 사용 모델



4.1. 22 nm 마이크로프로세서



4.1.1. Knights Corner


<rowcolor=white> 모델명
CPU
TDP
기타
<rowcolor=white> 코어
기본 주파수
(터보 주파수)
L3 캐시
서버/워크스테이션
Xeon Phi 7120A
61
1.24(1.33) GHz
30.5 MB
300 W
2014년 2분기
Xeon Phi 7120D
270 W
2014년 1분기
Xeon Phi 7120P
300 W
2013년 2분기
Xeon Phi 7120X
Xeon Phi 5120D
60
1.05 GHz
30 MB
245 W
Xeon Phi 5110P
225 W
2012년 4분기
Xeon Phi 3120A
57
1.10 GHz
28.5 MB
300 W
2013년 2분기
Xeon Phi 3120P

4.2. 14 nm 마이크로프로세서



4.2.1. Knights Landing


<rowcolor=white> 모델명
CPU
TDP
기타
<rowcolor=white> 코어
기본 주파수
(터보 주파수)
L2 캐시
서버/워크스테이션
Xeon Phi 7290F
72
1.50(1.70) GHz
36 MB
260 W
2016년 4분기
Xeon Phi 7290
245 W
Xeon Phi 7250F
68
1.40(1.60) GHz
34 MB
230 W
Xeon Phi 7250
215 W
2016년 2분기
Xeon Phi 7230F
64
1.30(1.50) GHz
32 MB
230 W
2016년 4분기
Xeon Phi 7230
215 W
2016년 2분기
Xeon Phi 7210F
230W
2016년 4분기
Xeon Phi 7210
215 W
2016년 2분기

4.2.2. Knights Mill


<rowcolor=white> 모델명
CPU
TDP
기타
<rowcolor=white> 코어
기본 주파수
(터보 주파수)
L3 캐시
서버/워크스테이션
Xeon Phi 7295
72
1.50(1.60) GHz
36 MB
320 W
2017년 4분기
Xeon Phi 7285
68
1.30(1.40) GHz
34 MB
250 W
Xeon Phi 7235
64
32 MB


[1] 그럼 엄밀히 따졌을 때 저 중에 정확한 비교는 뭐냐고? 정답은 그런 거 없다. 애초에 양측의 설계 사상부터가 다르기 때문에 어떤 기준으로 어떻게 비교하던 동등 비교가 성립하기 힘들다.