벤치마크

이 글은 전자기기의 테스트에 관해 설명하고 있습니다. 경영학에서의 용어는 벤치마킹을 참고해 주세요.

1. 사전적 의미

2. 점수의 사용도

3. 의미가 없다?

4. 벤치마크 조작

5. 벤치마크 툴 목록

1. 사전적 의미

일반적으로 컴퓨터, 스마트폰 등 전자기기의 연산성능을 시험하여 수치화하는 것을 말하는 단어.
본디 벤치마크의 사전적 의미는 '토지 측량에서 사용되는 수준 기표'를 의미한다. 즉 어떤 것이 높고 낮음을 나타내는 기준점을 의미하는데, 현대 용어 사전에서는 이를 '명백한 판정으로 결정 지을 수 있는 표준'이라고 확대 해석하고 있다. 즉 벤치마크가 담고 있는 의미는 조사 대상을 여러 가지 방법으로 측정하여 누구라도 인정할 수 있도록 표준화시키는 과정이라고 할 수 있다. 특히 전산용어로써 벤치마크는 여러 가지 전자기기의 성능을 비교 평가하는 의미의 동사로 쓰이고 있으며 주로 소프트웨어보다는 하드웨어 부분에 많이 적용되고 있다.
컴퓨터 게임 상에서 종종 보이는 벤치마크 기능은 이를 보여주기 위해 게임의 엔진이 구현할 수 있는 최상급의 환경을 조성한 뒤, 사용자의 컴퓨터로 구동해보는 것을 말한다.

2. 점수의 사용도

벤치마크 점수는 매니아들의 심도 있는 구매 가이드와 같은 역할을 하고 있으나, 테스트 기준과 방법에 따라 의도적으로 잘못된 결과를 만들 수 있는 것 또한 가능한 일이기 때문에 일반 소비자들을 현혹시키는 데 악용될 수도 있다. 때문에 일반적으로 구매평 이라는 것과 상호보완될 때 벤치마크 점수는 제 역할을 할 수 있다고 보면 되겠다. 또한 단순히 점수를 합산하는 것보다 세부적인 항목에서 어떤 결과를 나타내는가 또한 더욱 중요해지고 있다.
벤치마크 시 중요한 점은 '''테스트 툴과 환경, 그리고 기기 상태에 따라 점수가 왔다갔다할 수 있다는 점'''이다. 이를 잘 고려하여 시행한 결과는 일반적으로 높은 신뢰도를 얻는다. PC의 그래픽카드에서는 크라이시스 등장 이후 필수요소화 되었다. 그 이후에는 메트로 2033이 있다. TV 업계에서는 자체적으로 테스트용 영상 샘플이 주어지는데 Demonstration Disc라는 이름으로 제조사(삼성전자, LG전자, 소니, 파나소닉)에서 자체적으로 벤치마킹 전용 디스크를 배포한다. 또는 대표적으로 아바타, 살아있는 지구 등이 자주 사용되는 편. 찰리와 초콜릿 공장 2005년판도 벤치마크용으로 훌륭하다고 인정받는다.

3. 의미가 없다?

OS가 다른 경우 벤치마크 테스트 결과 비교 분석이 의미가 없다는 주장도 있다. 특히 모바일 쪽에서 iOS와 안드로이드, 윈도우 기기간 벤치마크 테스트를 한 다음 비교 리뷰하는 게 무의미하다고 생각하는 이들이 있다. 선스파이더나 산드라 역시 Xcode쪽으로 최적화가 되어 있다는 소문이 있어 안드로이드의 점수가 iOS보다 비교적 안 좋게 나온다는 것. 그래서 구글은 Octane(옥테인)이란 벤치마크를 만들기도 했었다.
다만 위 주장은 과장이 있는 것이, 일부 벤치마크 소프트웨어가 한쪽에 최적화되어 있을 수는 있지만 그로 인해 생기는 오차는 생각보다 크지 않다. 참고로 말하자면 아이패드 에어나 아이패드 미니 레티나 모델은 구글이 내세운 옥테인에서도 높은 벤치마크 스코어를 찍었다. 애초에 벤치마크 테스트 결과가 사용자들이 느끼는 "체감 성능"을 수치로 설명하는데 널리 사용된다는 것을 보면 저런 걸 수치화하는 게 문제라고 볼 수는 없다. 안드로이드 기기의 이러한 한계는 단순 하드웨어 스펙 수치에서 나타나지 않는 소프트웨어 관련 부분이다.
당장 저 주장이 말이 된다면 iOS, 안드로이드, 윈도우 모바일 기기를 벤치마크 테스트로 지금도 열심히 비교분석하고 있는 대다수의 전문 IT 리뷰어들은 헛짓을 하고 있다는 말이 된다. 이들도 벤치마크 테스트의 한계를 모르는 게 아니기 때문에 벤치마크 테스트를 한개만 돌리는 게 아니라 5-10가지를 돌리면서 OS간 성능 비교분석을 하므로, 일반 사용자 입장에선 충분히 지표로 활용할 수 있다.
벤치마크 테스트에 여러가지 이유로 오차가 존재할 수 있다는 주장이 틀린 건 아니며 그건 수많은 IT 기기를 테스트하는 걸 업으로 삼는 전문가들도 모르는 게 아니다. 하지만 거기서 더 나아가 iOS와 안드로이드, 윈도우의 벤치마크 분석이 아예 무의미하다고 단정짓는 건 침소봉대급 주장이라고 봐도 무방하다.
한편, 같은 안드로이드끼리도 벤치마크 점수가 의미가 없다고 하기도 한다. 첫 번째로 서로 다른 기기의 경우 최적화 정도가 다를 때, 예를 들어 넥서스 5는 G2나 갤럭시 S4 LTE-A와 같은 AP인 스냅드래곤 800을 사용하고, 오히려 AP 외에 타 부분의 스펙은 조금 떨어지지만[1] 구글의 지원을 필두로 한 최적화가 잘 되어 반응성이 좋다고 평가되고 실제로 점수도 더 잘 나온다. 두 번째로 같은 기기에서 서로 다른 커스텀 롬을 올리는 경우. 이 경우는 스펙도 같고 최적화 정도도 비슷하지만 롬이나 커널 상에서 추가한 패치나 트윅이 체감에 비해 벤치마크 점수에 더 큰 영향을 미치는 경우다. XDA에서는 개발자들이 나서서 커스텀 롬을 점수로 비교하는 것은 무의미하다고 열을 올리기도 한다.
다만 또 다른 뜻의 "의미가 없다"라면 일정 부분 맞는 말이다. 요즘 스마트폰들의 성능이 워낙 상향 평준화 되었음에 반해 안드로이드나 iOS에서 할 수 있는 작업이나 구동 가능한 S/W의 사양이 별반 올라가지 않았기 때문. 이는 스마트폰과 7~9인치의 컨텐츠 소비 위주 태블릿 PC가 작은 화면, S/W 키보드, 터치스크린 기반 조작방식, ARM 아키텍처 프로세서 등의 한계로 컨텐츠 소비를 목적으로 하고 판매되는 기기이기 때문이다. 스마트폰과 소형 태블릿의 그 조그만 화면과 키보드, 터치 기반 인터페이스, 그리고 아무리 많아봤자 5000mAh 수준인 배터리 용량으로 클라이언트 용량이 50~70GB에 육박하는 PC/콘솔 게임을 하려 드는 사람은 많지 않을 것이다.

4. 벤치마크 조작

벤치마크 테스트도 소프트웨어를 돌려서 하는 것인만큼 조작이 가능할 수 있다. PC 쪽도 그런 일이 가끔 크게 한번씩 터졌고(관련 사건사고의 '원조' 드라이버 치팅 사건이 대표적이다), 애플도 2000년도 초기에는 매킨토시에서 의혹이 제기된 바 있다. 최근 모바일 기기 쪽에선 상당수 프리미엄급 안드로이드 기기들이 조작을 하다가 걸렸는데 삼성전자, HTC, LG 같은 제조사들이 그런 짓을 했다. 2013년에 IT기기 리뷰 사이트인 AnandTech에서 밝혀낸 것으로, 그 전부터도 일부에서 의혹은 제기되고 있었던 문제인데 "정말 그런가?"해서 한번 실험을 해보니 사실로 드러났던 것이다(...). 해당 기기들은 특정 벤치마크 앱이 구동되면 이걸 인식하고 평상시와 다르게 비정상적으로 풀가동을 함으로써 벤치마크 수치가 높아지도록 하게끔 코드를 심어놓았다가 걸린 것이었다. 삼성전자는 이 의혹에 대해 극구 부인하고 해명까지 올렸지만, 이 해명이 또 거짓인 게 밝혀진 후에는 함구하는 중. 이 때문에 한동안 해당 기기들에 대해 정정 리뷰들이 올라오기도 했다. 한 웹사이트에선 해당된 삼성과 HTC 기기들을 블랙리스트 처리까지 하는 등 여러모로 파장이 컸다. 그 이후로 AnandTech에선 이런 꼼수를 우회하는 방법을 찾아내 적용해왔다고. 방법은 의외로 간단해서 벤치마크 앱의 이름을 바꾸고 내부 애플리케이션 ID를 바꿈으로써 소프트웨어 인식이 안되도록 했다고 한다.
그렇게 잠시 논란이 사그라드나 했더니 HTC는 2014년에 출시한 HTC ONE M8에서 좀 더 치밀한 방식으로 조작을 했다는 게 드러났다. Anandtech은 용케 이것도 잡아냈다(...)
이와는 반대로, 벤치마크 앱 자체에서 특정 제조사에게 유리하도록 조작을 하는 경우도 있다. 벤치마크 앱 제조사가 뒷돈을 받은 모양. 이쪽 대표주자는 바로 Antutu인데, '''스마트폰 이름을 샤오미 것으로 바꾸니 벤치마크 점수가 급상승하는 기적을 보여줬다.'''#
치트를 잡아낼 목적은 아니지만, 플레이웨어즈의 쓰로틀링 테스트도 효과가 있다. 냉장고에서 Antutu 테스트 → 30분간 동영상 재생 후 Antutu → 30분간 웹서핑 후 Antutu 8회 연속 실행으로 나온 10개의 점수를 모두 나열하는 방식인데, '평상시와 다르게 비정상적으로 풀가동을 함으로써 벤치마크 수치가 높아지도록' 한다면 처음 점수들은 잘 나올 수 있어도 뒤로 갈수록 과열 누적으로 망신 수준의 결과가 나올 것이기 때문.
긱벤치 등의 벤치마크 테스트의 경우 지나친 ARM 편향성 및 OS 편향성이 지적되기도 하며 이에 대해 리누스 토르발즈가 비판하기도 하였다. #, 참조 실제로 안드로이드가 뜨면서 X86 CPU들도 이걸로 측정하는 일이 많아졌는데 긱벤치의 X86 벤치는 개차반에 가까울 정도로 조금만 환경이 바뀌어도 널을 뛰는 성질이 있어서 기준이 되지 못한다는 평이 다수다. 그러나 이러한 지적은 벤치마크 조작에 대한 비판과는 별 상관이 없는 벤치마크 자체에 대한 비판으로 봐야 한다. 벤치마크 조작이 비난받는 이유는 전자기기 제조사들이 벤치마크 테스트 결과가 기기 구매에 영향을 미친다는 것을 인지하고 그에 따라 결과가 긍정적으로 나오게끔 조작을 한 것이기 때문이다. 여기서 벤치마크 테스트 자체에 대한 비판은 논점 흐리기일 뿐이다.
컴퓨터나 스마트폰 외에서도 비슷한 사례가 발생하였으니 바로 디젤게이트 사건이다. 여러모로 위의 모바일 기기 벤치마크 조작 사건과 비슷한 사건이다.

5. 벤치마크 툴 목록

참고 기사: 어떤 벤치마크를 써야 하나요

Prime95 - AMD, 인텔 가리지 않고 사용하는 벤치마크 툴. 원래는 CPU 성능 테스트나 오버클럭과는 별 연관이 없는 프로그램이었다. 자세한 내용은 항목참조.
LinX(링스)&인텔번 - 인텔이 개발한 린팩 바이너리에 GUI를 씌워 더 직관적으로 만든 프로그램이다. 링스와 인텔번은 외형 상의 차이일 뿐 근본적으론 동일한 프로그램이란 얘기. 다만 버전의 갱신이 링스 쪽이 더 자주 이뤄지는데다, 더 직관적이라 현재는 인텔번은 반쯤 사장되었다. 원래는 인텔 Only가 아니었으나, AVX 도입 이후로는 주로 인텔 프로세서에서 안정화 확인을 위해 사용된다. 잔차 값과 GFlops 값이 비교적 일정하면 안정화가 된 것으로 보고, 차이가 많이 나거나 잔차값이 일정하지 않으면 불안정한 상태로 본다. 버전에 따라 지원 가능한 명령어의 종류가 차이가 있기 때문에 AVX/AVX2를 지원하는 CPU들은 버젼을 잘 보고 구동하면 된다. 당연히 최신 명령어를 구동하는 버전일수록 더 빡세다. 당연하지만 CPU도 그 명령어를 지원해야 한다. 하지만 기존 명령어에서도 최적화가 이뤄지므로 구형 CPU라도 최신 링스의 영향을 아예 안 받지는 않는다. 자세한 건 항목 참조.
3DMark - 이 분야의 창시자급 프로그램으로 PC의 CPU와 그래픽카드의 연산 성능을 측정한다.
Cinebench - 그래픽 계열에 3Dmark가 있다면 CPU 성능 측정을 할 때 많이 쓰이는 프로그램이다. 베이스는 Cinema 4D를 기반으로 하며, 미리 주어진 이미지를 렌더링함으로써 CPU의 성능을 측정한다. 베이스가 시포디기 때문에 버전명 역시 베이스가 된 시포디의 버전을 그대로 따라가며, 2020년 기준 가장 최신버전은 R23이다.
CrystalDiskMark - HDD, SSD, USB 메모리 등 컴퓨터의 저장장치의 성능을 측정
Geekbench - 전자기기의 CPU, 메모리 부분 측정을 위한 프로그램. 4버전에선 GPU 부분 측정 기능도 추가됨
GFXBench - 3.0과 3.1이 있으며 모바일 AP의 GPU 부분 측정을 위한 프로그램이다. 다른 벤치마크 프로그램과는 다르게 점수 계산은 일정 시간 동안 구동된 화면의 총 프레임 수로 계산된다.
- 상기 기재한 벤치마크 조작 등 여러 사건으로 아예 구글 플레이 스토어에서 제외 되어 버렸다. 구글 플레이 스토어 주소 관련뉴스
BAPCo MobileMark - 노트북 컴퓨터, 컨버터블 PC, 태블릿 PC등의 배터리 사용 시간을 재는 벤치마크 툴. 대부분의 PC 제조사들이 이 툴을 기준으로 배터리 가용 시간을 홍보하는데, JEITA와 함께 뻥튀기가 심하다는 평을 듣는다. BAPCo는 아래 SYSmark를 만든 회사이기도 하다.
SYSmark - 현재 벤치마크 사기 문제로 고소당했다. SYSmark 2012에서 사기치다 걸려서 NVIDIA와 AMD, VIA 등이 여기서 탈퇴했었지만 2014 버전에서도 여전히 문제가 많다. AMD에 의하면 다른 벤치마크에서는 6%, 7%밖에 차이가 나지 않는 AMD/인텔 프로세서가 SYSmark 2014에서는 무려 50%가 차이난다고 한다. 시스마크의 점수가 문제가 되는 이유는 실제 사용자 환경, 개발 환경에서는 그렇게 잘 쓰이지 않는 AVX 명령어의 최신 버전이 얼마나 잘 돌아가느냐에 따라 점수 뻥튀기가 심하게 되기 때문이다.
SPEC - 컴퓨터 사용 목적에 맞춰 특화된 벤치마크 도구들을 제공한다. 서버 벤치마크 등에 사용되지만 컴덕들 사이에서의 인지도는 조금 낮은 편. 사실 그럴 만한 이유가 있는데, 라이센스가 시스템 1대당 1000$씩이나 하기 때문이다.
Basemark - DX12, Vulkan, OpenGL 및 OpenGL ES 그래픽 API를 사용하여 다양한 그래픽 워크로드를 테스트 할 수있게 해주는 다중 API 벤치마크이다.
게임 - 점수에 집착하는 유저들이 아닌이상 벤치마크를 보는 목적 그 자체이자 가장 도움이 많이되는 벤치마크 툴. 일부 게임은 벤치마크로 쓸것을 고려해서 자체적인 벤치마크 기능을 넣어놓는 경우가 많다.
- 크라이시스 시리즈 - 게임성 보다 그래픽 때문에 벤치마킹용 툴로 더 많이 사용된 게임. 오죽하면 크라이시스 돌릴수 있냐가 밈이 될 정도.
- 컨트롤(게임) 출시 시점에서 최신 그래픽 API를 전부다 지원하고 사양도 어느정도 있어서 각종 API에 대한 성능차를 비교할때 많이 쓰이는 벤치마크용 게임이 되었다.
- 마인크래프트 RTX - 출시 시점에서 가장 레이트레이싱 부하를 많이 갈구는 게임인지라 레이트레이싱 성능을 집중적으로 비교하는 벤치마크에서 사용되는 모습을 많이 볼수있다.
- 배틀그라운드 - 고사양 게임으로 벤치마크 게임의 1인자이다 특히 IT유튜버인 잇섭이 자주 쓴다

[1] 단, 대부분의 벤치마크 프로그램이 AP와 램을 기반으로 한 성능을 측정해서 이를 제외한 다른 부분의 스펙 차이는 점수에 큰 영향을 미치지 않는다

분류

벤치마크