스탯티즈
[image]
- 홈페이지 : http://www.statiz.co.kr/
1. 개요
KBO 리그의 각종 야구기록에 세이버메트릭스를 전문적으로 도입한 최초의 통계 사이트 중 하나. 2011년 7월에 폐쇄되었다가 법인화 되면서 2015년 10월 14일 재오픈했다.
재오픈 직후인 현 상황에서는 세부기록 오류나 사이트 버그도 많이 보이는 편, 차차 재정리되길 기대하자. 또한 야수들의 출장 경기수 정보가 나오지 않고 있다.
2015년 10월 기준으로 가장 상세하고 자세한 데이터를 공개하고 있다.
2. 역사
2.1. 오픈
[image]
개장 초기의 스탯티즈.
당시 공과대 대학원생이었던 운영자 이동현 씨가 세이버메트릭스에 영향을 받아 스탯 위주의 사이트를 오픈한 것이 그 시초.
기존에도 기본적인 야구 기록은 인터넷 여러 사이트에서 찾을 수 있었으나 세이버메트리션들이 원하는 수준에는 미치지 못하였고, 아이스탯이 있었지만 회원만 열람이 가능하다는 아쉬움이 있었다. 또한 스포츠투아이는 영리기업이었기 때문에 원하는 자료가 있다면 일정한 금액을 지불해야 했던 상황이었다. 이런 상황에서 스탯티즈의 오픈은 한국의 야구 팬들에게는 가뭄의 단비와 같은 상황이었고, 베이징 올림픽 금메달 이후의 야구 붐으로 유입된 라이트 팬들을 헤비 팬으로 만드는데 큰 밑거름이 되었다. 특히 WAR 같은 수치는 포지션 보정이나 파크팩터에 대한 고려가 부족했다는 평은 있지만 대중에 공개된 것으로는 최초의 것이라는데에도 의미가 있다.
이후 스탯티즈의 운영자 이동현 또한 이러한 인지도를 바탕으로 출판사의 스카우팅 리포트 저자로 참여하는 등 활발한 활동을 보이기도 했다.
본격적으로 스탯티즈에 먹구름이 드리운 것은 2011년. 야구 기자 박동희 기자가 스포츠투아이의 특집 기사를 쓰면서 스포츠투아이가 함정기록을 일부 심어뒀으며, 이러한 함정기록을 통해 기록을 무단 사용하는 것에 대한 법적 문제를 제기할 수 있다는 내용을 실었던 것. 관련한 논란은 박동희 스탯티즈 논란 항목 참조. 결국 2011년 스탯티즈 운영자는 사이트 폐쇄를 선언하고 문을 닫았다.
2.2. 폐쇄 후
2012년 초 스탯티즈가 한국프로야구선수협회에 인수되어 재오픈한다는 소식이 들려왔으나, 얼마 지나지 않아 선수협 비리 사건으로 인해 손민한과 권시형 전 사무총장이 수사 대상이 되는 등 선수협 지도부가 완전히 물갈이되면서 없던 일이 되었다. 당시에 운영자가 이와 관련해 꽤 실망이 컸던 지 스탯티즈를 거진 포기한 것으로 보였다.[1] 2014년 초 최민규[2] 기자의 페이스북을 통해 스탯티즈가 부활한다는 소식을 알려왔다.
박동희 기자는 스탯티즈를 문닫게 하려는 의도가 없었을 뿐만 아니라 오히려 스탯티즈를 알리고 싶었지만, 결과가 폐쇄로 이루어졌다는 것에 대해 깊은 책임감을 느끼고 있다고 자주 언론을 통해 언급해왔다. 이후 박동희가 적극적으로 움직여서 새로운 세이버메트릭스 사이트인 KBReport가 개설되었다. 그리고 기존에 스탯티즈를 운영하려던 선수협은 스탯티즈 대신 KBReport를 자체적으로 운영하기로 결정했다.
2.3. 부활
15년 9월 KBReport.com에서 스탯티즈가 가까운 시일내에 오픈될거라고 공지했다.## 폐쇄전 운영 방식과는 다르게 법인 형태로 운영될 것이라고 한다.
그리고 2015년 10월 14일 정식으로 재개장했다.
3. 평가
3.1. 장점
우리가 쉽게 찾을 수 있는 1차 스탯(흔히 말하는 클래식스탯)을 세세하게 정리해놓은 부분은 높게 평가할 만 하다. 각종 포털 사이트나 KBO 홈페이지에서도 이를 찾아볼 수는 있지만 주요스탯 중 몇 가지는 누락되어있거나, 혹은 년도별로 누락이 있거나, 옛날 선수들의 기록을 찾기가 어렵거나, 년도별 각종 스탯의 순위별 나열이 어렵거나 등의 UI상의 불편한 점이 있단 점에서 스탯티즈의 나열 기능은 상당한 비교우위를 점한다고 할 수 있을 것이다. 또한 예전 istat을 제외하곤 찾기 힘들었던 각종 2차스탯들에 대한 접근성면에서도 높은 점수를 줄 수 있다. 기존에는 각종 계산식을 직접 스프레드시트 등을 통해 계산해서 비교하여야 됐다면 스탯티즈 이후로는 이를 쉽게 찾을 수 있다.
3.2. 단점
그러나 각종 기록측정의 어려움에 의한 세이버메트릭스 및 각종 2차스탯의 정확도부분은 단점이라 할 수 있을 것이다. '''사소한 변수 하나만으로도 큰 폭으로 틀어질 수 있는 것이 이러한 2차스탯'''이다. 이러한 2차스탯의 정확도가 스탯티즈의 책임은 결코 아니지만, 이런 스탯티즈의 데이터만 가지고 모든게 평가되는 양 나오는 것은 문제의 소지가 있다.
예를 들어 근래 각종 야구관련 키배의 근거로 사용되는 WAR의 경우 MLB관련 통계사이트에서는 Baseball Info Solution 사의 비디오 분석관들이 분석한 데이터를 이용한 UZR, DRS를 제공하지만 KBO는 여건상 그것이 불가능하기 때문에 기록지나 중계화면을 바탕으로 '''추정'''할 수 밖에 없으며 여기에서 일단 각종 통제변인 자체가 흐뜨러질 여지가 매우 크다. '''정확한 수비계측이 어렵기 때문에 WAR 자체의 의미가 퇴색'''될 수밖에 없단것인데 물론 이거라도 있는게 어디냐 싶겠지만 세이버메트리션들의 철칙인 '노이즈가 낀 데이터는 결코 완벽할 수 없다'라는 점에 위배된다는 점에서 한계점이 있다.
그래서 '''이토록 부정확함에도 수비 반영률이 높은 스탯티즈 WAR은 걸러야 한다'''고 주장하는 의견도 결코 적지 않고 일부 극단적인 이들은 ''KBO에서 WAR는 차라리 안 보는 게 낫다'라고까지 하는 마당이다.[3] 거의 매해 벌어지는 골든글러브 논쟁때도 sWAR은 제끼고 kWAR이나 wRC+로 논의하는 팬들이 많다.[4]
스탯티즈 본인들의 책임은 결코 아니지만, 메이저리그에서조차 끊임없이 말이 나오는 수비스탯 측정을 현 KBO에서 제대로 측정하는건 현실적으로 불가능하며 그럼에도 수비반영률이 높은 sWAR은 부정확한 데이터에 불과하다.[5] 이 부정확한 데이터로 인해 그릇된 야구관이 퍼져나갈 우려가 있다는 점을 유의해야만한다.
대다수의 야구팬들은 스탯티즈에서 종합 WAR 대신 타격 WAR를 참고하고 있고 스탯티즈에서도 타격 WAR을 우선으로 제공한다. WAR*로 표시. 세이버메트리스를 골든글러브 투표에 참조했다고 밝히는 기자들은 대게 이 WAR*만 참고한다.
하지만 수비 스탯에 대한 비판이 과한 점도 없지 않다. 레퍼런스나 팬그래프도 베이스볼 인포 솔루션(BIS)[6] 데이터가 없는 2000년대 이전의 수비 스탯을 측정할 때 TZ(Total Zone)라는 스탯을 이용한다. TZ란 타구 종류[7] , 방향[8] 을 이용해 수비수에게 책임을 부여하는 것이다.[9] TZ를 구할 때 쓰는 Play-by-Play 데이터가 바로 RetroSheet라는 기록지인데, 이 기록지라는 것이 별 거창한 게 아니고 그냥 '1회 아무개 좌익수 방향 뜬공, 아무개 우익수 방향 안타' 이런 거 써있는, 네이버 문자 중계 수준의 물건이다. BIS의 비디오 분석관들이라고 타임 머신을 타고 과거의 경기를 실측정할 수 없는 이상 어쩔 수 없이 이것을 이용해서라도 수비 스탯을 구한 것인데 당연히 거슬러 올라가면 갈수록 부정확하다.
스탯티즈의 수비 스탯 sFR이 바로 이 TZ를 벤치마킹한 것이다.[10] 실제로 한 블로거가 sFR와 TZ를 회귀분석한 결과 sFR의 R2값이 오히려 더 높았다. #
물론 sFR은 UZR,DRS에 비하면 떨어지는 스탯인 것은 맞다. 하지만 데이터의 한계가 있는 상황에서 TZ의 방법론을 참조하여 나름의 데이터를 제공한 것은 인정할 만하다. 적어도 실책 갯수 같은 것으로 줄세우는 것보다는 훨씬 낫다. 우스운 점은 박찬호, 김병현의 전성기 bwar[11] 나 아지 스미스, 앤드루 존스의 놀라운 Defensive WAR을 아무렇지도 않게 찬양하던 야구 커뮤니티 사람들이 스탯티즈의 WAR는 '유사 스탯(?)'이라며 거품을 물고 쓰레기라고 험담을 늘어놓는다는 것이다.[12] 실상은 둘 다 TZ 계열 스탯인데 말이다. 애당초 TZ스탯 자체가 UZR이 만들어진 이후 BIS데이터 없이도 이와 유사한 수비지표를 만들고자 고안된 스탯이기 때문에 UZR과 상관관계가 꽤 높기도 하며, UZR을 기반으로 war을 계산하는 팬그래프 또한 TZ를 'UZR과 DRS가 더 정확한 수비지표로 고려되고 있긴 하나 TZ또한 훌륭한 지표'라고 설명하고있다.
사실 그리 규모가 큰 사이트라고는 할 수 없다보니 리그 상수 등의 업데이트가 느린 편이다. 2019년에는 5월이 되어서도 작년의 리그 상수를 그대로 썼는데, 1시즌 사이 리그의 환경이 타고에서 투고로 급변하다 보니 리그 전체 wRC+가 80대 중반이 나오는 바람에 타자들의 wRC+가 실제보다 상당히 낮아지는 자료 왜곡이 일어났다.[13]
개명 선수의 데이터에 오류가 많이 생기고 있다. 예를 들어 2019년의 kt 오태곤의 출장 기록이 오승택 60경기, 오태곤 62경기 이렇게 분산되어 나타나는 식. 그런데 오태곤은 2019년 123경기에 출장했다(...). 그리고 개명한 지 오래 지나지 않은 선수들의 경우 개명 전 이름으로 검색해야 하는 불편도 있었는데, 다행히 2020 시즌 중 개선되었다.
2019년 시즌 이후 KBO가 1982~1996 시즌의 잘못된 기록들을 수정하면서 1천가지가 넘는 데이터가 수정되었는데, 스탯티즈는 아직 이 데이터를 반영하지 않고 과거의 잘못된 기록을 그대로 표기중이다.
사이트 내에서 광고가 너무 심할정도로 뜬다는 단점도 있다. 물론 스탯티즈가 규모가 큰 기업도 아니기 때문에 수익 창출로 꼭 필요한 부분이긴 하지만 가끔씩 시즌 기록실, 통산 기록실에서 선수 순위를 쭉 나열할 때 광고 때문에 가려지는 큰 문제점이 있다.
[1] 당시 선수협에서는 스탯티즈를 인수, 부활하기 위해 I회사를 설립했고 선수협 자금을 끌어다 쓰기로 결정했는데, 문제는 당시 선수협 비리가 터지면서 이 돈의 자금 출처가 불분명 하다는 주장과 이 돈을 통해 비자금을 조성할수 있다는 의견들이 나왔고 덩달아 스탯티즈 운영자도 비리에 연루된거 아니냐는 뒷말들이 나왔다.(당연한 말이지만 사이트 운영자는 이 사건과 무관했다.) 이 문제는 박재홍이 선수협 회장으로 취임하고 나서야 잠잠해 졌다.[2] 한국 1세대 세이버메트리션 중 하나이다. 한국야구학회의 회원이기도 하며, 아마 한국야구학회 활동을 통해 스탯티즈 운영자와 친분을 쌓은 것으로 보인다.[3] 세이버메트릭스 애호가들에 대한 가장 큰 편견이 '쟤들은 스탯 각각의 가치는 무시하고 그냥 WAR, WAR만 외친다'라는 것인데 이는 오해에 가깝다. 세이버메트릭스 애호가들은 그저 '노이즈가 낀 데이터'를 무시하는 것 뿐이며 절대적인 데이터는 오히려 없다는 쪽에 가깝다. 지금이야 그들이 WAR나 FIP같은 수치들을 선호하겠지만 더 좋은, 그러니까 외생변수를 최대한 제거하는 새 계산식이 나오면 얼마든지 갈아탈 사람들이다. [4] 다만 kWAR은 수비율과 파크팩터 등을 검토하지 않고 계산하여 아예 깡그리 무시해버리는 경향이 있어 이쪽도 비판점이 많다.[5] 이에 대해 스탯티즈 측에서는 각종 회귀분석이나 새로운 측정방식을 꾸준히 보완하여 그러한 노이즈들을 제거하고자 노력한다고 밝힌 바 있다.[6] 야구 통계 측정 전문가들이 비디오 데이터를 기반으로 야수들의 수비를 측정하며, 골드글러브의 대안인 필딩 바이블 어워드를 주최하는 곳이다.[7] 뜬공,땅볼,라인드라이브[8] 어느 수비위치에 타구가 떨어졌는가[9] 이것은 해당 시즌에 사용 가능한 데이터가 어느 정도냐에 따라 다르다. 베이스볼 레퍼런스의 Total Zone Data [10] 스탯티즈 측 답변에 따르면 타구위치와 수비 위치 사이의 거리, 타구의 방향, 타구의 종류를 고려한다고 한다.[11] 계산 과정에서 팀 수비 스탯이 사용된다.[12] 참고로 레퍼런스는 2003시즌부터 DRS를 제공하고 팬그래프는 2002시즌부터 UZR를 제공한다. 그 이전에는 TZ를 사용한다.[13] 무엇이 문제인 지 모르는 사람들을 위해 설명하자면, wRC+라는 스탯은 애초에 리그 전체 평균을 100으로 놓고 구하는 스탯이다.