척도
尺度 / '''Scale'''
1. 개요
측정을 목적으로 일정한 규칙에 따라 질적인 측정 대상에 적용할 수 있도록 만들어진 계량적 도구. 즉 '''측정 도구.'''
사회과학의 현장에서 굉장히 강조되는 연구방법론으로, 사회조사분석사 자격증을 위해서 공부하게 되는 주된 주제 중 하나이다. 종류가 굉장히 많이 개발되어 있고, 사용하는 척도에 따라서 결과 데이터 역시 차이가 발생할 것이 거의 확실시(…)되기 때문에 설문조사나 자료분석을 위해서는 절대로 경시할 수 없는 개념이다. 척도를 통해 측정하는 측정 수준(measurement level)에 대한 내용은 측정 문서를 참고.
유형별로 나누자면 비교 척도, 연속 척도, 누적 척도, 평가 척도, 구조 척도 등등의 다양한 분류법이 있다. 자료형의 종류에 대해서는 표본조사 문서를 참조하기 바란다. 이하에서는 사회과학의 현장에서 자주 쓰일 것으로 예상되는 척도의 종류들을 간략하게 다루어 보기로 한다. 물론 이 주제에 대해서도 작심하고 따지고 들어간다면 한도끝도 없겠지만, 여기서는 간단한 설명과 함께 사례를 하나씩 제시하기로 하겠다.
개념도 발음도 비슷한 측도와 혼동할 수 있는데, 측도는 척도의 일반화된 개념으로 생각하면 얼추 맞다.
2. 종류
(가나다순)
2.1. 거트만 척도
'''Guttman scale'''
거트만 척도(Guttman scale)는 누적 척도(cumulative scale)의 일종이다. 응답 항목들의 정도에 차이를 두어서 조사 대상자의 위치를 세밀하게 파악하고자 할 때 사용한다. 강한 문항에 긍정적인 견해를 표명한 사람은 그 보다 약한 문항에도 긍정적인 태도를 보일 것이라는 논리이다.
반응 중심적인 일차원 누적척도로서, 10개 이상의 문항들을 가지고 동일한 주제에 대해서 진술의 강도에 따라 오름차순 혹은 내림차순으로 정렬해 놓은 것. 연구자는 응답지를 가지고 그 결과를 스칼로그램(scalogram)이라 불리는 용지에 옮겨적으면서, 응답 분포에 따라 일정하게 배열하게 된다. 온건한 진술에 체크한 사람은 강경한 진술에도 체크한다는 보장이 없지만,[1] 강경한 진술에 일단 체크한 사람이라면 온건한 진술에도 당연히 체크하게 되리라고 생각할 수 있다.
이후 연구자는 재생 계수(CR; coefficient of reproducibility)라는 것을 구하게 되는데, 그 값은 반드시 0에서 1 사이에 위치하게 된다. 일반적으로 거트만 척도의 CR은 .90 이상이 나와야 바람직하다고 말할 수 있다. 서수적인 측면에서는 쉽게 쓸 수 있는 척도이긴 하지만, 현실적으로 쓸 일 자체는 그렇게 많지 않다.(…)
예) 당신이 반달에 대해 갖고 있는 생각을 다음의 항목에서 선택하여 주십시오.
1. 우리 동네에 들어오지 못 하게 하겠다.
2. 우리 집에 들어오지 못 하게 하겠다.
3. 우리 아이와 놀지 못 하게 하겠다.
4. 우리 아이와 결혼하지 못 하게 하겠다.
2.2. 리커트 척도
'''Likert rating scale'''
리커트 척도(Likert scale), 리커트 평정 척도, 총화평정 척도(summated rating scale, 총화평점법)은 어떤 태도에 대해 "긍정/부정(만족/불만족)"의 정도를 측정하는 척도이다. 일반적으로 5점 리커트 척도(매우 만족, 대체로 만족, 보통, 대체로 불만족, 매우 불만족)을 많이 사용한다. 보통을 제외한 4점 리커트 척도나 "만족, 보통, 불만족"의 3점 리커트 척도도 사용한다.
평정 척도(rating scale)의 한 종류로, 하나의 주제를 그 척도의 중심내용으로 삼아서 여러 개의 진술의 세트를 구성한다. 그리고 그 진술들에 대해서 응답자가 응답하는 전반적인 경향을 측정치로 합산하여 결과 점수를 도출하는 척도. 리커트 척도에서 가장 중요한 것은 동일한 주제를 다루는 서로 다른 진술들 사이에는 매우 높은 연관성이 보장되어야 한다는 것이다. 즉, 문항 간 내적 일관성이 높아야 한다. 일반적으로는 등간 수준(interval level)으로 간주되는 편이지만, 등간 수준과 서열 수준 사이에 위치한다고 보는 편이 더 적절하다.[2]
리커트 척도는 보통 5점, 7점, 9점 등 홀수 문항을 두는 경우가 많다. 만일 홀수 문항이 아니라면 이는 중도적 응답인 "보통이다" 를 삭제했거나, "잘 모르겠다" 같은 예외적인 응답을 추가한 경우. 일본 등의 문화권에서는 극단적인 응답을 가급적 자제하고 거의 대부분 중간 정도에서 응답하는 경향을 보이는데, 이것이 심할 경우 아예 "보통이다" 를 없애버리는 것도 가능하다. 특히 한 개인이 어느 쪽으로든 입장을 표명하는 것 자체가 중요한 경우. 이런 방법을 '''강제선택법'''(forced-choice method)이라고도 한다.
리커트 척도는 개인의 태도나 가치를 평가하기에 매우 유용하며, 굉장히 범용적이고 다루기에도 편하다. 그러나 총점을 계산하는 과정에서 각 문항 간의 응답자의 편차는 전부 사라지고, 총점이 의미하는 개념적 정의가 무엇인지에 대해서도 별도로 이론을 세워야 하며 그 자체로는 별 의미가 없다. 또한 자기보고(self-report) 식이기 때문에 주관성이 혼입된다는 문제점도 있고, 사람마다 각 점수가 의미하는 긍정/부정 및 동의/거부의 정도가 다 다를 수 있다.
또한 예를 들어 "당신은 현 집권여당에 대해 얼마나 지지하십니까?" 질문에 1점으로 대답하는 것은 여당에 아무 지지의견이 없음을 의미할 수도 있지만, 만일 1점을 "야당에 대해 강력히 지지한다" 로 정의할 때에는[3] 아무 지지의견이 없다는 반응이 중간값(5점 척도상에서는 3점)이 된다. 이처럼 각 값에서 정의되는 반응의 내용이 다르기 때문에 값에 대응되는 의미를 명확히 정의해야 하는데 이를 간혹 '''앵커링'''(anchoring)이라 부르기도 한다.
현실적으로 보면 리커트 척도는 한 마디로 '''학계에서 사회과학 논문 연구방법의 AK-47'''(…)이라고 해도 과언이 아닐 정도다. 주관성이 개입할지언정 계량화 자체는 보장되는 가장 간단한 양적연구 방법이기도 하고, 주어진 진술에 어떤 태도를 취하는지 보면 되기 때문에 연구자에게나 참가자에게나 굉장히 직관적이다. 특히 후속 통계분석을 준비하는 입장에서는 이런 거라도 있어야 t-검정을 할 수 있다.
예) 나무위키의 기존 이용자들이 너무 배타적이라 나무위키를 사용하기 어렵다고 생각하시나요?
1. 전혀 그렇지 않다. 2. 그렇지 않다. 3. 보통이다.
4. 그렇다. 5. 정말 그렇다.
그러나 한계점을 잘 모른 채 리커트 척도를 함부로 쓰면 곤란하다. 지도교수에게 갈굼을 듣게 된다.
2.3. 보가더스 척도
'''Bogardus social distance scale'''
보가더스의 사회적 거리 척도, 혹은 목적에 따라서는 인종 간 거리 척도(racial distance scale)라고도 한다.
미국의 사회학자 에머리 보가더스(E.S.Bogardus)가 개발했으며, 사회심리학이나 정치학, 여론조사에서 애용되는 척도. 인종이나 사회적 계층, 계급, 구성집단 사이의 관계를 확인하기 위한 척도로, 집단 간 관계를 측정한다는 점에서 소시오메트리와는 차이가 있다. 조사의 대상이 되는 특정 여러 집단들을 선정한 후, 그들과 교류하는 것을 상정하는 다양한 진술들의 세트를 제시한다. 누적적인 점에서는 거트만 척도와도 유사성이 있다. 단, 마지막 가장 극단적인 문항의 경우에는 누적되지 않는다.
집단 간의 친밀도 혹은 혐오감, 거리감을 평가할 수 있지만 어디까지나 예비적 조사로서의 성격이 강하다.
위키러 여러분도 자신이 어디까지 수용할 수 있는지 한번 해 보는 것도 좋을 것이다.
2.4. 상수 합계 척도
'''constant-sum scale'''
여러 속성들로 이루어진 값(value)들을 배치하고, 각각의 값들에 대한 응답자의 선호도를 측정하되, 총점의 총량을 미리 설정하여 각 속성들의 상대적인 중요성을 파악하기 위한 척도. 결과 데이터는 일반적으로 등간 수준에서 다루어지는 것이 보통이다. 응답 결과 사이의 변량이 충분히 크지 않아서 차후 분석에 곤란할 수 있다는 문제는 이 척도의 단점.
일반적으로 총점은 10점 혹은 100점으로 설정되는 경우가 많다.
2.5. 서열 순위 척도
'''rank-order scale'''
서열 척도의 한 종류로, 응답자가 특정한 태도나 가치에 관해서 여러 대상들을 값으로 정하고 상대적 순위를 정하도록 하는 것. 굉장히 단순하고 기초적인 척도로, 이것이 좀 더 버전업(?)을 하면 쌍대 비교 척도가 된다. 응답자 입장에서는 굉장히 손쉽고 단순한 질문.
반대로 연구자 입장에서는 굉장히 불편한데, 자료분석에 사용할 통계적 기법들이 극히 제한되고, 1위로 가장 빈번하게 나타나는 값만 의미가 있고 나머지는 큰 의미가 없는 것이 보통이다. 게다가 어떤 응답자가 특정 값을 1위로 선정했다 하더라도, 그것이 "이것을 가장 선호한다" 가 아니라 "그나마 이것이 가장 덜 싫다" 라는 의미일 수도 있으니 주의가 필요하다.
이 때문에 이 종류의 척도만을 대상으로 분석하는 결합분석 혹은 (그대로 음역한) '''컨조인트 분석'''(conjoint analysis)이라는 것도 만들어졌다. 이것은 경영학계에서 자신들만의 통계적 방법으로 자신있게 내놓을 만한 분석기법인데, 이는 이 분야에서 소비자들의 피드백을 받거나 상품 선호와 관련한 시장조사를 할 때마다 순위 척도를 워낙 빈번하게 써야 했기 때문이다.
2.6. 서스톤 척도
'''Thurstone scale'''
등현등간 척도(equal-appearing interval scale), 유사등간법이라고도 한다.
어떤 연구주제에 대한 예상가능한 태도에 대해서 가능한 한 많은 문항[4] 들을 확보한 뒤, 다수의 심사자들[5] 을 통해 일정한 기준에 따라서 그 문항들을 정렬한다. 심사자들은 이후 일정하게 지시된 10개 남짓의 하위 범주에 맞게 그 문항들을 분류하고, 어떤 문항이 그 범주에 얼마나 잘 부합하는지 점수화한다. 이후 연구자는 각각의 하위 범주를 대표할 수 있는 문항들을 몇 개씩 선정함으로써 척도를 구성하고, 심사자들 사이에 의견차가 심하게 나오는 문항은 신뢰하기 어려우므로 제외한다. 이것이 서스톤 척도이다.
보다시피 과정과 절차, 비용이 엄청나므로 절대로 가볍게 할 수 있는 조사는 아니다. 그러나 일단 모든 절차가 완료되어 질문 항목이 준비되면, 그 척도를 활용하는 평가자는 아주 전문적인 태도 측정의 역량을 갖출 필요는 없으며 이는 분명한 장점이 될 수 있다.[6] 서스톤 척도의 단점을 하나 더 꼽아보자면, 최초 심사자들을 어떻게 선정하는가에 따라서 결과 문항의 도출이 달라질 수도 있다는 것.
나는 일터에서 목표 달성에 매진한다.
그렇다.
그렇지 않다.
나는 일에 완전히 빠져있다.
그렇다.
그렇지 않다.
나는 자주 일에 빠져서 하루가 빨리 지나가 버린다.
그렇다.
그렇지 않다.
2.7. 소시오메트리
'''sociometry'''
미국의 정신의학과 의사인 제이콥 모레노(J.L.Moreno)가 개발했으며, 어떤 집단의 구성원들 사이에 존재하는 대인관계에 대한 자료를 수집하고 분석하며 도표화하는 인간관계 측정 방법. 보가더스 척도가 집단 간의 관계를 측정한다면, 소시오메트리는 집단 내의 관계를 측정한다는 차이가 있다. 또한, 보가더스 척도는 단순한 우호성과 적대성을 판단하기에 좋지만, 소시오메트리는 구성원 간의 매력과 반발심 외에도 이러한 정서에 의해 촉발되는 집단역동(group dynamics)까지 분석할 수 있다는 장점이 있다.
질문지에 대한 응답이 완료되면, 연구자는 이를 토대로 하여 소시오메트리 행렬이나 소시오그램(sociogram), 소시오메트리 지수 등으로 데이터를 산출하고, 결과 데이터를 도표로 만들 수 있다. 대표적인 계량적 분석방법이고 계량화 자체도 어려운 것은 아니지만, 이론적 밑바탕이 결여되어 있다는 지적도 있다.
2.8. 스타펠 척도
'''Stapel scale'''
얀 스타펠(J.Stapel)이라는 인물이 고안한 척도라고 알려져 있으며, 태도의 방향과 그 강도를 측정하기 위해 사용된다. 특정 주제에 관련된 표현들의 세트를 개발하고, 양수 값과 음수 값으로 이루어진 값의 범위를 정한다. 긍정적인 태도는 양수로, 부정적인 태도는 음수로 응답할 수 있으며, 이하에 설명할 의미 차별화 척도와는 달리 상반되는 두 개의 표현을 찾을 수고를 할 필요가 없다.
스타펠 척도는 문항들을 구성하기가 쉽고 간결하며, 적당한 반의어를 찾기 힘든 표현이 있을 경우 쓰기에 유용하다. 반면 스타펠 척도는 다소 직관적인 느낌이 부족하기 때문에 자칫 혼란을 불러일으킬 수도 있다.
2.9. 쌍대 비교 척도
'''pairwise comparison'''
서열 순위 척도의 확장판. 어떤 주제에 대한 다양한 값들을 정한 뒤, 응답자에게 그 값들을 둘씩 짝지어서 고르게 한 뒤 그 결과를 토대로 연구자가 직접 선호순위를 도출한다. 둘 중에 하나를 고르는 결과가 계속 누적되면, 그 자료를 가지고 연구자가 분석을 거쳐서 가장 선호받는 값과 가장 덜 선호받는 값을 얻게 되는 것. 확실히 응답자에게는 편하다. 서열 순위 척도처럼 여러 값들을 한꺼번에 응답자에게 던져주고 순위를 정하라고 하는 것보다는, 차라리 둘 중 하나를 고르게 하는 과정을 계속 반복하게만 하고 그 분석은 연구자가 알아서 하면 되니까. 연예인들의 이상형 월드컵을 예시로 들면 이해하기 쉬울 것이다.
하지만 응답자 입장에서 판단이 간결하다는 것과는 별개로, 쌍대 비교 척도는 경우에 따라 굉장히 다루기 불편할 수 있다. 특히 값들의 수가 많은 조사에서 그렇다.[7] 이렇게 되면 아무리 쉬운 판단이라 하더라도 응답자가 지치게 될 가능성이 있다. 그리고 두 값의 쌍 중에서 먼저 제시된 값을 선호하게 하도록 은연중에 압박이 작용할 위험도 있고, 사실 둘 중 하나를 고르는 것 자체가 항상 말처럼 쉬운 건 아니다.(…)
차라리 부먹 vs 찍먹처럼 개인 간의 입장차가 극명하다면 몰라도, 한 개인이 두 값 모두 선호수준이 비등해서 고르기 힘들어하는 경우도 충분히 있을 수 있다.
2.10. 의미 차별화 척도
'''semantic differential scale'''
의미 분화 척도(semantic differential scale, 의미 분별 척도, 어의 차이 척도, 의미 차별화 척도)는 어떤 대상이나 개념에 대한 응답자의 주관적인 의미를 여러 단계로 평가한다. 일직선 도표의 양쪽 끝에 상반되는 형용사를 배열한다.
서로 상반되는 양극성 형용사 표현을 양 끝의 극단에 표시하고 5점 내지 7점 정도를 배치한 뒤 그 사이의 적절한 위치로 응답하게 하는 척도. 기업이나 브랜드의 이미지를 확인하는 데에 유용하게 쓰인다. 측정된 데이터는 평균이나 중앙값 등을 분석할 수도 있다. 장점으로는 이해가 빠르고 결과에 대한 신속한 피드백이 가능하다는 것, 등간 척도로서 분석이 용이하다는 것 등이 있다. 반면 단점으로는 의미가 상반된 형용사를 적합하게 조합하기가 어려울 수 있다는 것 정도가 꼽힌다. 예를 들어 "적극적이다 vs 소극적이다" 정도는 무난한 쌍이 되겠지만, "진취적이다 vs 소극적이다" 의 경우는 어떻게 보아야 할까? 응답자가 혼란에 빠질 여지는 없을까?
예) 유전자 조작을 통한 유전병 치료에 대해 어떻게 생각하는지 표시해 주세요.
인간적이다. 1 2 3 4 5 6 7 비인간적이다.
안전하다. 1 2 3 4 5 6 7 위험하다.
2.11. 평정 척도
'''rating scale'''
측정할 대상이 연속성을 갖고 있다고 전제하여 일정한 등급법에 따라 평가하는 척도. 위의 리커트 척도가 평정 척도의 한 변형판이다. 교사가 학생을 수우미양가로 분류하거나, 교수가 학생의 학점을 ABCDF로 분류하는 것 역시 평정 척도의 한 종류라고 할 수 있겠다.
평정 척도는 매우 흔하게 발견되는데, 측정 항목에 사례로 나온 상당수도 바로 이 평정 척도에 속한다. 어찌보면 흔한 설문조사에서 가장 쉽게 발견될지도 모를 척도. 굉장히 다양한 방식이 있지만 여기서는 도표 척도와 범주 척도, 안면 척도를 사례로 들어 보기로 하겠다.
2.11.1. 도표 척도
수직선 비슷하게 선을 긋고 각 위치에 균등한 거리로 세로선을 그어서 각각의 값을 나타내 보여주는 척도. 이것이 등간 수준이라는 것을 직관적으로 알 수 있다.
2.11.2. 범주 척도
선을 긋는 것이 아니라 어떤 속성을 나타내는 표현들을 정도에 따라 오름차순 혹은 내림차순으로 배열하는 척도.
2.11.3. 안면 척도
각각의 값들을 글자로 보여주는 것이 아니라 사람의 얼굴 표정을 본뜬 이미지로 대체하는 척도. 웃는 얼굴은 긍정적 응답을, 찡그린 얼굴은 부정적 응답을 의미한다. 말로 설명할 방법이 없는 미묘한 값의 차이를 설명할 수 있다는 장점이 있지만, 긍정/부정 이외의 답변이 나올 문항에는 쓸 수 없다.
3. 관련 문서
[1] 즉 원하지 않는 임신의 경우 낙태해야 한다고 응답한 사람이, 어떤 경우에도 낙태는 절대 금지라는 진술에도 긍정한다고는 장담할 수 없다.[2] 사실 조사방법론 연구자들에게 "리커트 척도는 등간수준인가요 서열수준인가요?" 라고 물어보면 이들이 순식간에 두 패로 나뉘어서 치열하게 싸우는 모습(...)을 볼 수 있다. 서열 수준 측정은 회귀분석이 안 되는데, 어떤 리뷰어들은 리커트 척도에 서열 수준 측정의 성격이 있다고 보아 리커트 척도 결과를 가지고 회귀분석을 돌린 논문은 읽지도 않고 쓰레기통에 버린다.[3] 이럴 때는 리커트 척도가 아니라 스타펠 척도나 의미 차별화 척도를 쓰는 게 더 적절하다. 리커트 척도를 쓰려다간 자칫 지도교수에게 까일 수도 있다.[4] 대략 수백 개 정도를 작성하게 된다.[5] 수십 명에서 수백 명 정도가 된다.[6] 대신 심사자들은 그 주제에 대한 확실한 전문성을 갖고 있어야 한다. 그런 전문가들을 어디서 그렇게 많이 구할 수 있을까는 논외로 하자.(…)[7] 5가지 값을 가지고 만들어야 할 쌍의 수, 그리고 15가지 값을 가지고 만들어야 할 쌍의 수는 각각 수학적으로 몇 개가 나오는지 계산해 보자.