인텔 넷버스트 마이크로아키텍처

1. 개요

2. 상세

2.1. 배경

2.2. 특징

3. 사용 모델

1. 개요

2000년 IDF 2000 봄 시즌에 처음 소개된 후, 가을 시즌에 발표된 인텔의 마이크로아키텍처.

2. 상세

2.1. 배경

지금 시점에서는 믿기 어려울 수도 있지만, 명작으로 기억되고 있는 P6 마이크로아키텍처의 문제점을 해결하기 위해 설계되었다. 출시 직전까지의 기존 P6는 등장한지 이미 5년이 지난 낡은 마이크로아키텍처였는데, 180nm 공정으로 1 GHz 클럭을 돌파한 후 더 이상 클럭을 올리기 어려운 한계에 도달한 상태였다. 나온지 1년밖에 안 된데다 진보된 IPC로 바짝 추격하면서 1 GHz 클럭까지 먼저 돌파한 경쟁사의 K7 마이크로아키텍처를 상대하기엔 벅찬 상태였던 것. 인텔은 일반 소비자들이 똑같은 절대 성능과 전력 대비 성능이라도 높은 IPC보다는 고클럭에 눈길이 가는 것으로 파악하고 일종의 프로파간다 전략으로 문제를 해결하려고 했다.
인텔 아키텍처 연구소(IAL)가 2001년 와해 되기 전에 설계된 마지막 마이크로아키텍처이기도 하다. P6 마이크로아키텍처를 담당했던 이스라엘의 하이파 연구소가 설계한 마이크로아키텍처가 아니며, IAL이 해체된 후 IAL의 산하 연구소들 중 하나였던 미국 오리건 주의 힐스버러 연구소가 IAL의 후신으로써 존속하고 있다.

2.2. 특징

Hyper Pipelined Technology

펜티엄 3의 10개 파이프라인 단계에 비해 2배 늘어난 20개를 기본으로 한다. 90nm 공정으로 제조된 프레스캇과 65nm 공정으로 제조된 시더밀에서는 31개로 증가한다. 파이프라인의 단계가 늘어나면 분기 예측 실패시 다시 처음부터 처리해야 하기 때문에 느려지지만 제대로 처리만 되면 성능 상 이득을 많이 볼 수 있다.

Rapid Execution Engine

파이프라인의 강화, 그렇지만 늦어질 수 있는 명령어 처리에 있어서 보다 빠른 명령어 수행이 가능하도록 ALU(Arithmetic Logic Units)를 기존 동작속도의 두 배의 속도로 동작시키는데, 이로 인해 실행에 필요한 대기시간을 줄이고 보다 빠른 명령어를 수행할 수 있게 하는 것이다. 이는 파이프라인 구조와 함께 빠르게 처리되는 명령어들을 받아 바로 처리할 수 있게 하는 것이다.

Advanced Dynamic Execution

이 기능을 통해 분기 예측 능력을 향상시키며, 길어진 파이프라인에 대응할 수 있게 된다.

Execution Trace Cache/Advanced Transfer Cache

디코드 단계를 생략할 수 있게 하여 밟아야 하는 파이프라인 단계를 줄여 주는 캐시이다. L1 캐시보다도 내부에 있어서 일명 'L0 캐시'라고도 부르기도 했었다. 코어부터 네할렘 마이크로아키텍처까지는 없어졌다가 샌디브릿지 때 '마이크로옵(μop) 캐시'라는 이름으로 다시 등장하였다.

HyperThreading Technology

처음부터 있었던 기술은 아니고 IDF 2001에서 처음 알려진 기술이다. 1코어당 2개의 스레드, 그것도 SMT로 작동시키는 새로운 SMT 기술이지만, 당시 멀티(코어) CPU 시스템를 지원하는 프로그램이 거의 없고 소프트웨어 개발자들이 아직 그런 개념까지 와닿지 않았을 때라 별로 유용하진 않았다. 이 기술은 나중에 등장한 개량판 P6와 코어 마이크로아키텍처 때는 없어졌다가 2008년 네할렘 마이크로아키텍처에 들어서야 다시 등장하였다.

파이프라인 증대를 통한 버스속도 증대 (FSB의 쿼드펌핑. QDR)

실제로는 100 MHz로 동작하지만 데이터 전송량은 400 MT/s로 더 늘릴 수 있었다. FSB 값이 400→533→800으로 약간씩이 아니게 뻥튀기 되는 이유가 이 쿼드펌핑 때문. 어찌 됐던 이것은 100MHz를 400MHz로 네 배 뻥튀기 시키는 것인지라 클럭 자체가 낮아 말이 많았다.

SSE2 지원. 프레스캇은 SSE3까지 지원.

현재는 SSE 계열 명령어가 성능 향상을 넘어 운영체제에서도 필수적으로 요구하는 명령어지만 당시엔 SSE를 활용하는 OS는 커녕 응용 프로그램도 거의 없어서 실사용에서 별로 유용하진 않았다. 펜티엄4가 벤치마크로만 AMD 프로세서보다 뛰어났던 이유이기도 하다.

전체적으로 클럭을 올리기 쉬운 구조로 되어 있기 때문에(쿼드펌핑 이라든지), 3.93 GHz 같은 괴랄한 클럭을 가진 익스트림 모델 같은 것도 나왔다. 그러나 이를 위하여 연산 유닛의 수가 감소하는 등 IPC가 내려간데다 클럭을 올려도 소비전력을 감당할 수 없었기 때문에, 경쟁사의 K8 마이크로아키텍처 기반 프로세서들의 점유율이 높아지는 결과를 내게 된다.
인텔은 장점을 극대화하고자 CPU 이용 효율을 높이기 위해 하이퍼스레딩을 도입하고, 클럭을 더 높이기 위해 공정을 더 미세화하고, 파이프라인 스테이지 개수를 더 늘리며, 더 많은 전력을 인가할 수 있도록 CPU 소켓까지 변경했으며, L2 캐시 메모리 용량까지 더 증설하는 등 무려 6년 동안이나 시도했지만, 폴락의 법칙에 따른 4 GHz의 벽이 나타나는 바람에 그간 고집을 꺾고 넷버스트를 기반으로 하는 다음 아키텍처들을 취소할 수밖에 없었다. 서버 및 데스크탑 제품군에서는 이렇게까지 장기간 삽질했지만, 모바일 제품군에서는 삽질조차 할 수 없을만큼 도저히 써먹을 수 없었기 때문에 일찌감치 포기해서 P6를 다시 가져와 개량하며, P6에 다져 놓은 계보를 이어받아 코어 마이크로아키텍처로 갈아타는 원인이 된다.