SPSS

 

[image]
'''개발사'''
IBM Corporation
'''라이선스'''
상업소프트웨어
'''용도'''
통계분석, 데이터 수집
'''운영체제'''
Windows, Linux, Unix, Mac
'''사이트'''
바로가기
1. 개요
2. 문제점
3. 관련 문서


1. 개요


사회 과학용 통계 패키지. '''S'''tatistical '''P'''ackage for the '''S'''ocial '''S'''ciences. 1968년부터 개발되어 오는 통계 프로그램이며, 현재의 주인은 IBM이다. IBM에서 2009년 이를 개발하던 SPSS 사를 인수하여 현재 이름은 IBM SPSS Statistics, 2019년 12월 현재 최신 버전은 SPSS 26이다. 보통 대학교의 상경계나 사회과학 관련 통계 과목이라면 거진 SPSS 수업이다. 처음에 개발될 때는 메인프레임 컴퓨터에서 구동되게 만들어졌으며, 이렇기 때문에 완전 처음에는 데이터를 펀치카드로 넣어 작업했다지만, PC와 매킨토시 프로그램으로도 개발되어 현재에 이른다. 기본적으로 제공하는 분석이나 검증도 많긴 하지만, 본인이 실력만 되면 추가 분석 기법을 만들어서 SPSS에 탑재해 놓고 함께 돌릴 수 있다. 유틸리티 탭에서 사용자 정의 대화 상자를 클릭하고 .spd 확장자를 찾으면 된다. 역사가 꽤나 깊다보니 여러가지 오픈 소스 통계 프로그램들이 있으며, 이들 중에는 계량경제학에 특화된 gretl(#)이라든가, 자유 소프트웨어 재단에서 미는 PSPP (#) 등이 존재한다.
MS 엑셀과 유사해 보이기 때문에 진입 장벽이 낮지만 점점 STATAR 등이 인기를 끌고 있어서, 이 바닥에서도 통계 패키지 하나만 익혀서는 살아 남을 수 없는 시대가 오고 있다(...). SAS라는 통계 소프트웨어도 있고, 요즘엔 Python도 많이 쓴다. 그리고 사실 진입 장벽이 낮다고 하기도 어려운 게, 익히기는 쉬울지 몰라도 개인용으로 소장해서 연습을 하려면 부담이 엄청나다. 개인용 프로그램 가격이 무려 '''400~600만원.''' 기업용은 '''1000만원'''이 가볍게 넘어가며, 공용 네트워크 같은 데 쓰려면 라이선스 비용으로 '''1억원'''을 내야 한다(...). 따라서 대학의 경우 공용 컴퓨터실 혹은 강의실 컴퓨터에 SPSS의 설치 유무가 재단의 투자 규모를 짐작하는 수단이 된다고. 괴수급의 경우 MATLAB, SAS 등등 모든 데이터 프로그램이 깔린 경우도 있다. 돈이 없으면 불법 다운로드 하지말고 오픈 소스 통계 프로그램 JASP라도 쓰자.
2017년 IBM이 SPSS subscription 버전(월단위로 가입해서 기간동안만 사용하는 라이선스 정책)을 출시했다. Base edition은 한달에 14만원대에서 시작하므로 논문 기간중에 잠시 사용하는 사용자들에게는 기존 다운로드 버전보다는 비용 부담이 많이 낮아졌다.
공대에서 프로그래밍한다고 하면(낮은 수준에서는 프로그래밍이라기 보단 단순 코딩이지만) MATLAB을 떠올리지만, 정작 프로그래밍을 전공하는 컴퓨터과학 전공자들은 MATLAB을 잘 쓰지 않는다. 이와 유사하게 통계 프로그램인 SPSS를 통계학 전공자들은 잘 쓰지 않는다. 역시 사회과학용이라 그런듯.

2. 문제점


SPSS(Statistical Package for the Social Sciences)는 ‘요인 분석’(Factor analysis)이라는 통계기법의 메뉴에 엉뚱한 분석 기법인 ‘주성분 분석’(Principal Component Analysis, PCA)을 기본값으로 넣어 두었다. 이는 오랫 동안 요인 분석과 주성분 분석 간의 혼동을 불러일으켰다. “뇌영상 분석 기법에 심각한 오류 가능성” 논문 파장 2016. 07. 13
기능상의 한계로 가장 자주 거론되는 것은, 요인 분석(factor analysis)을 할 때 주축 분해(principal axis factoring) 방식이 아닌 주성분(principal component) 방식을 쓴다는 것이다. 그래서 이 작업을 할 때에는 SAS 등이 선호된다고. 그러나 이것은 사용자의 무지나 게으름에 기인한 오해다. SPSS에서는 '주성분', '일반화최소제곱', '최대우도', '주축요인', '알파요인' , '이미지요인' 등 다양한 요인추출방법을 제공하고 있다. 단지 이 중에서 주성분추출방법이 디폴트로 되어있기 때문에, 아무생각없이 분석하게되면 주성분추출방법으로 분석이 될 뿐이다.
이러한 현상은 SPSS처럼 업계에서 쓰는 프로그램 중 가장 하이레벨인 프로그램(컴퓨터적인 사고방식에서 멀어지고 인간이 사용하기에 특화된 프로그램)을 사용하다보면 나타날 수 있는 문제점이기도 하다. 직접 코드를 짜다보면 최소한 사용자 자신이 어떤 자료를 다루고 있는지, 무엇을 위해 어떤 분석을 해야하는지는 숙지해야만한다. 그런데 SPSS와 같이 어떻게든 결과를 내주는 프로그램을 쓰다보면 자신도 정확히 모르는, 어렴풋이 감만 잡고 있는 방법을 사용할 수도 있다. 거기에 더해서 잘 모르는 방법을 사용한 분석 결과를 해석하다보면 부정확한 해석을 하기 쉽다.
환경(하드웨어 등)에 따라 속도가 심하게 느려지기도 한다. 다른 프로그램에 비해 속도가 느린 편이라 많은 자료를 처리하긴 어렵다. 요즘 유행하는 빅데이터는 당연히 불가능하고, 자료가 많은 경제학이나 재무, 퀀트 쪽에서는 SPSS를 잘 안쓴다. 물론 이 동네는 옛날부터 R이나 SAS와 같이 통계학 전공자들이 쓰는 프로그램이나 GAUSS, MATLAB 등 공대 계산 프로그램을 주로 써왔다. 세부전공에 따라선 C나 Python을 쓰기도 하고...
막대 그래프 및 각종 시각화된 도표와 자료들이 매우 '''추하다.''' 과장이 아니라 그림판으로 그려도 이거보단 낫겠다 싶을 정도이고, 디자인에 조예가 있는 사람들은 실제로 빡치고도 남을 수준.(...) 물론 이리저리 손대면 디자인을 고칠 수 있고, 인터페이스도 지극히 쉽지만, 바쁜 연구자들 입장에서는 자원 낭비. SPSS의 데이터 시각화를 옹호하는 사람들은 SPSS도 나름 코딩을 할 수 있으며 이미지 편집을 사용한다면 된다고 한다. 반면 까는 사람들은 SPSS의 이미지 편집에는 한계가 있으며 그거 할 시간이면 공짜 프로그램인 R의 시각화 패키지 코드를 짠다고 응수한다.

3. 관련 문서


  • 통계학
  • 데이터 마이닝
  • 빅 데이터 프로세싱[1]
  • 통계적 방법
  • 질적 분석 소프트웨어
  • 사회조사분석사[2]

[1] SPSS로 빅데이터 분석을 할 수는 있겠지만 이 쯤되면 본인의 연구 목적을 잘 고려해봐야 한다. SPSS는 진입장벽이 낮다는 장점을 극대화하는 대신에 불러들일 수 있는 데이터 크기나 연산속도, 프로그래밍의 자유도를 포기한 프로그램이기 때문이다. 최악의 경우 빅데이터를 불러들였는데 컴퓨터가 멈추는 경우도 생길 수 있다.[2] 이 프로그램으로 실기시험을 본다. SAS나 MINITAB으로도 응시할 수 있지만 이들은 SPSS보다도 접근성이 낮고 깔려있는 시험장도 없다시피해서 거의 대부분 SPSS로 응시한다.

분류