표본조사

 

標本調査, sampling
1. 개요
2. 표본조사의 필요성
2.1. 가상의 사례 1
2.2. 가상의 사례 2
3. 자료의 측정 수준
4. 표본추출
4.1. 확률 표본 추출법
4.1.1. 단순 무작위 추출법 (SRS)
4.1.2. 체계적 추출법
4.1.3. 군집 추출법 (집락 추출법)
4.1.4. 층화 추출법
4.2. 비확률 표본 추출법
4.2.1. 편의 추출법
4.2.2. 판단 추출법 (유의 추출법)
4.2.3. 할당 추출법
4.2.4. 눈덩이 추출법
5. 관련 문서
6. 외부 링크


1. 개요


사회과학의 연구에서, 연구의 주제가 되는 전체 모집단(population)의 일부를 일정한 방법에 따라 표본(sample)으로 추출하여 이들을 통해 얻은 정보를 바탕으로 모집단을 추정하는 추론 통계학적 방식. 그 의미상 표본조사는 전수 조사(complete observation)와 구분되는데, 전수조사는 연구의 주제가 되는 전체 모집단 개개의 단위들을 남김없이 조사하는 방법이다.
여기서 모집단이란 연구의 주제가 되는 전체 집단을 말하는데, 연구에 활용하기 좋을 만큼 그 수가 적을 수도 있긴 하지만, 대부분의 경우 모집단의 구성 단위 수는 어마어마하게 많아서 일개 연구자 수준에서는 연구의 엄두가 안 날 정도이다. 모집단의 대표적인 사례로는 대한민국 국민이 있다. 모집단은 다시 유한모집단무한모집단으로 나누어지는데, 모집단에 어떤 구성단위가 속하는 기준을 명확히 밝히지 않는다면 무한모집단이 되고, 명확히 밝히면 유한모집단이 된다. 일반적으로 사회과학의 각종 연구들에서는 유한모집단을 연구의 주제로 하며, 위의 대한민국 국민의 경우도 유한모집단화하기 위해 "2015년 현재 대한민국 영토 내에 거주하는 대한민국 국적 소유자" 와 같은 식으로 엄밀하게 한정하는 정의를 하는 경우가 많다. 모집단으로부터 튀어나온 데이터는 따로 모수(parameter)라고 하며, 연구자가 최종적으로 추정하고자 하는 대상이기도 하다.
연구자들은 모집단을 고스란히 연구하지 않고 별도로 표본을 추출해서 모집단의 성질을 추정하는데, 이때 모집단의 부분집단으로서 추출된 표본을 표본집단(sample)이라고 한다. 표본 집단은 연구자가 다루기 용이할 만큼 적은 수에서 그 규모가 결정되는데, 대부분의 경우 통계학자들이 열심히 연구한 끝에 "몇 단위에서 표본의 규모를 정해야 할지" 에 대해 벌써 다 찾아서 공식으로 만들어 두었다. 물론 사회과학자들은 통계학자가 아니므로 "왜" 이만큼의 표본만 있으면 되는지 궁금해할 필요가 없다. 단지 통계학자들이 인증한 대로 표본을 뽑아서 연구하면 그걸로 끝일 뿐. 표본 집단으로부터 튀어나온 데이터는 따로 통계량(statistic)이라고 하며, 이 데이터를 통해 연구자는 모집단의 성질을 추정하게 된다. 어떤 이는 이에 대해서 "모수가 표적지라면, 통계량은 가늠자 속 표적지의 모습" 이라고 비유하기도 했다. 연세대학교 배득종 교수는 한편 "모수가 오렌지 과육이라면, 통계량은 오렌지 맛 엑기스" 라고 표현하기도 했다.
물론 표본조사를 하게 되면 여러 모로 골치아파진다. 이 표본이 모집단을 제대로 대표하고 있는 것인가? 만일 그렇지 못하다면, 그 연구자가 수행한 모든 데이터는 전부 쓰레기통으로 직행하게 된다. 그 바닥에서 도는 명언처럼, 쓰레기를 집어넣으면 쓰레기가 나온다.(Garbage in, garbage out) 그렇기 때문에 연구자는 항상 표본을 선정하는 데 있는 힘을 다해서 심혈을 기울여야 한다. 물론 모집단의 성질과 완벽하게 동일한 표본집단을 찾는다는 건 수학적으로 불가능에 가깝기 때문에 아무리 잘 된 연구라도 통계량과 모수 사이에는 차이가 존재할 수밖에 없는데, 이를 가리켜서 표본 오차(sampling error)라고도 한다. 표준 오차(standard error)와는 절대로 같은 것이 아니다! 통계학을 배우는 사회과학도 학부생들이 흔히 헷갈리는 부분. 예를 들어 평균의 표본 오차는 μ-m 이라는 수식으로 간단히 표현할 수 있다.

2. 표본조사의 필요성


그렇다면 왜 괜히 골치아프게 연구자들은 표본을 선정하는 괜한 수고를 하고 있는 것일까? 왜 모집단의 성질을 직접 규명할 생각은 하지 않고 표본집단을 통해 모집단을 추정할 뿐일까? 그것도 그나마 표본오차를 무릅써 가면서? 사실, 표본조사는 전수조사에 비해서 몇 가지 압도적인 장점들이 있다. 여기서는 부득이 학술적인 엄밀함은 완화하는 대신, 가볍게 설명할 수 있는 가상의 사례 두 가지를 들어서 설명해 보기로 한다.

2.1. 가상의 사례 1


혹시 휴지 포장비닐 겉면에 적힌 제품설명서를 읽어본 적이 있는가? 휴지 따위가 뭐 그리 설명할 게 많겠는가 싶기도 하지만, 그 중에 "파열강도"(bursting strength)라는 게 있다. 종이나 휴지 같은 재료에다 수직으로 압력을 가했을 때 얼마나 잘 버틸 수 있는지를 보여주는 것으로, 이것이 높으면 그만큼 질기고 튼튼한 휴지가 되지만, 이것이 낮으면 약간의 압력에도 버틸 수가 없다. 이제 여러분이 휴지 제조회사의 품질 관리자(QM)라고 가정하자. 여러분의 회사에서 만드는 휴지가 사내 기준 파열강도를 충족시키는지 확인해서 보고서를 올려야 한다. 자, 어떻게 하는 게 좋을까?
생산 라인에서 쏟아져 나오는 휴지들이 기준 파열강도를 충족하는지 확인하기 위해, 우선 전수조사를 염두에 둔다고 해 보자. 만약 전수조사를 하게 된다면, 공장에서 나오는 모든 휴지들을 전부 찢어봐야 할 것이다. 물론 여러분은 품질 관리자로서, 우리 회사의 휴지들이 모두 품질 기준에 합격한다는 보고서를 써서 만족스럽게 제출하게 되겠지만, 뒤늦게 현장에 나타난 공장장은 기껏 만든 모든 휴지가 전부 갈기갈기 찢어발겨져 있다는 사실에 경악할 것이다. 시장에 내다 팔 휴지가 없어지는 것이다. 새로 만들어 낸 것만 팔면 되지 않겠는가 싶지만, 그럼 새 휴지들의 파열강도는 또 어떻게 보장할 것인가? 결국 또 일일이 찢어봐야 한다.
다른 상품들에 대해서도 마찬가지다. 여러분의 회사가 통조림을 판매하고 있고, 여러분은 통조림에 이물질이 들어가 있지는 않은지 확인하는 위생 조사를 해야 한다고 가정해 보자. 전수조사를 하게 되면, 모든 통조림이 전부 따이게 되고, 소비자들에게 팔아치울 통조림은 없어지고 만다. 다른 예를 들어 보자. 여러분의 회사에서 자동차를 만들고 있고, 안전성 테스트를 위해 더미 인형을 넣고 모의 충돌 실험을 기획하고 있다고 가정해 보자. 이번에도 전수조사를 하게 되면, 그 회사가 팔아치울 자동차들은 전부 형편없이 찌그러진 고철 덩어리로 변해버리고 만다. 또 다른 예를 들자면, 여러분의 회사가 전구를 생산하고 있으며 전구의 평균 수명이 얼마나 될지 측정해야 한다고 할 경우, 전수조사를 했을 때 어떻게 될지는 이제 굳이 설명하지 않아도 될 것이다. 이러한 종류의 조사들을 가리켜서 "파괴 검사" 라고도 한다. 상품가치를 보장하기 위해 실시하는 검사를 하려면 부득이 상품가치를 포기해야 하는 것.
결국 여러분은 모든 상품들에 대한 전수조사를 포기하고, 무작위로 아무 상품들이나 일부 골라서 그것들을 대상으로 조사를 실시하여 데이터를 얻게 될 것이다. 조사에 필요한 상품의 수는 너무 많아서도 안 되지만, 너무 적어서도 안 된다. 그리고 조사결과로 얻은 데이터는 물론 모든 상품들의 가치를 온전히 보장하지는 못하지만, 어느 정도 선에서는 모든 상품들의 일반적인 가치를 추정해 볼 수 있게 한다. 바로 이것이 표본조사의 한 가지 묘미다. 이런 종류의 조사에 있어서 표본조사는 사실상 필수이다.

2.2. 가상의 사례 2


여러분은 제2의 한국갤럽을 꿈꾸며 리서치 전문기관을 창립했다고 가정하자. 개업 후 처음으로 의뢰받은 일은, "학부모들이 인식하는 게임의 주관적 위험성" 에 대해서 설문조사를 통해 측정하여 발표하는 것이다. 여러분은 전화를 통한 설문조사를 하기로 결정했고, 이에 따라 설문 업무에 충분히 숙달된 면접원들을 채용 및 훈련해야 함도 알고 있다. 또한, 이 주제에 대해서 굉장히 많은 변인들이 개입할 수 있으며, 고객에게 가능한 한 정확한 데이터를 제공하는 것이 중요하다는 것도 인식하고 있다.
우선 이 주제를 조사하기 위해서 전수조사를 선택했다고 가정해 보자. 여기서 우리의 면접원들은 큰 위기에 봉착한다. 당장 대한민국에 학부모라고 불릴 만한 사람들은 천만 명 단위로 셀 수 있다. 그렇다면, 도대체 그들 모두에게 전화를 걸려면 면접원을 몇 명을 채용해야 할까? 열 명? 백 명? 아니면 천 명? 그들을 훈련시키는 시간과 비용은 또 얼마나 될까? 게다가 그 수많은 사람들을 일일이 추적해서 전화를 걸어야 하는데, 어떤 사람들은 전화가 집에 없을 수도 있고, 어떤 사람들은 장기 출타중일 수도 있으며, 어떤 부모들은 장애가 있어서 수어점자 등 다른 방법으로 설문조사를 해야 할지도 모른다. 이 모든 상황을 전부 고려하면 전수조사를 하기에는 모집단이 너무 커서 시간과 비용이 어마어마하다는 결론을 얻는다. 이건 그야말로 맨땅에 헤딩하기다.
그렇기 때문에, 어쩔 수 없이 많은 리서치 전문기관들은 통계적 절차를 따라서 일부 표본만을 제한적으로 뽑아서 그들을 대상으로 설문조사를 진행하고, 그들의 답변을 통해 전체 집단의 답변이 예상되는 범위를 대략적으로 추정해보게 된다. 예를 들면, 5천만 대한민국 국민의 의견을 얻기 위해 많은 기관들은 천 몇백 명 정도의 표본을 뽑아서 이를 통해 온 국민들의 반응을 플러스 마이너스 몇 퍼센트 정도 내에서 가늠해 보곤 한다. 모집단이 5천만인데 고작 그 정도 표본 가지고 괜찮겠냐고 생각할 수도 있겠지만, 다 방법이 있다. 전세계의 통계학자들이 빈둥빈둥 놀면서 연구비를 타서 챙긴 건 아니다.(…) 표본이 크면 비용과 시간이 감당할 수 없을 만큼 커지므로, 통계학적으로 확립된 수학적 지식에 기초하여 신뢰성을 담보할 수 있는 최소한의 표본 크기를 맞추는 것이다.

3. 자료의 측정 수준




4. 표본추출


표본표집, 표본선정이라고도 한다.
일단 전수조사보다 표본조사가 훨씬 현실적이고 합리적인 방법이라는 것은 알더라도, 남은 문제가 있다. 도대체 어떤 식으로 표본을 추출할 것인가? 그냥 어린아이들 방식처럼 "너, 너, 너, ..." 같은 식으로 지목하는 건 어떨까? 차후에 모집단 전체로 일반화(generalization)를 함에 있어서 잠재적인 위험성은 없을까? 대한민국 국민의 평균 키를 알고 싶어서 성인 남녀 100명을 추출했다고 가정하자. 하필이면 표본평균 값이 155cm로 나오는 바람에 대한민국이 호빗의 나라로 판단될 위험은 없을까? 결국 문제는 연구자 본인부터가 이 표본을 얼마나 신뢰할 수 있는가로 환원된다. 따라서 표본조사의 핵심은 표본추출을 어떻게 할 것인가에 달려 있다고 해도 과언이 아니다.
이상적인 표본추출은 흔히 "독립성과 불편성" 이라는 조건을 만족해야 한다고도 알려져 있다. 연구자 입장에서 모집단의 구성단위들을 뽑을 때, 특정 구성단위들을 뽑을 확률이 모두 동일해야 한다. 즉, 연구자의 편향적 추출이 금지되어야 한다. 또한, 구성단위 입장에서 연구자에게 뽑힐 때, 각 구성단위들이 연구자에게 뽑힐 확률이 모두 동일해야 한다. 즉, 특정 구성단위가 연구에서 배제되는 것이 방지되어야 한다.
표본추출을 위한 방법으로는 두 가지가 있는데, 하나는 수학적으로 그 신뢰성이 보장된 방법인 확률 표본추출이고, 다른 하나는 그보다는 신뢰하기 힘든 방법인 비확률 표본추출이다. 당연하겠지만 전자가 후자에 비해 독립성과 불편성이 더 잘 보장되어 있다. 물론 진지한 연구자라면 자신의 연구의 신뢰성을 담보하기 위해 가급적 확률 표본추출을 쓰게 되겠지만, 언제나 세상은 시간과 예산이 지배하고, 또한 이러한 방법론적인 측면에 별 신경을 쓰지 않는 사람들도 표본추출 활동을 할 수 있기 때문에 비확률 표본추출 역시 현실과 타협하는 차원에서 많이 쓰이고 있다.
일부 연구자들은 Amazon's Mechanical Turk 사이트를 활용해서 간편하게 연구 참가자들을 모집하는 방안도 구상하고 있다.[1] 비용도 싼 데다 표본 대표성도 만족스럽다고. 물론 이에 대해서도 사회적으로 바람직한 응답에 의해 오염된다는 등의 방법론적 비판이나, 지나치게 저가에 응답자들을 착취하는 게 아니냐는 윤리적 비판도 있다.[2]

4.1. 확률 표본 추출법


확률 표본 추출법은 여러 면에서 이상적이지만 그만큼 정밀한 연구과정과 많은 비용, 시간을 필요로 한다. 모집단의 모든 구성단위들의 추출확률을 파악하는 것이 가능하며, 일반화가 쉽고 편향으로부터 자유롭다고 간주된다. 더불어, 표본오차를 추정하는 것 역시 가능하다. 많은 준비를 필요로 하기는 하지만, 부득이한 경우가 아닌 이상, 많은 연구들에서 채택되고 있는 방법이다.
확률 표본 추출법으로는 단순 무선 추출법, 군집 추출법(집락 추출법), 체계적 추출법, 층화 추출법 등이 있다.

4.1.1. 단순 무작위 추출법 (SRS)


simple random sampling
단순 무작위 추출법은 다음의 조건을 만족시켜야 의미가 있다.
  • 표본을 $$X_1, X_2,\cdots ,X_n$$이라 할 때
    • 서로 독립: $$P(X_1)P(X_2)\cdots P(X_n)=P(X_1,X_2,\cdots ,X_n), Cov[X_i, X_j]=0\;\textsf{for all}\;i,\;j\;(i\neq j)$$
    • 선택될 확률이 동일: $$P(X_1)=P(X_2)=\cdots=P(X_n)$$
    • 같은 확률 분포를 따름: $$E(X_1)=E(X_2)=\cdots=E(X_n),\;Var[X_1]=Var[X_2]=\cdots=Var[X_n]$$ 등
모집단의 각 구성단위가 표본집단의 구성단위로 선택될 확률을 동일하게 하는 추출법. 영어로는 SRS라고도 불리는데, "simple random sampling" 의 약어이다. 가장 단순한 확률 추출법으로, 이때 모집단의 크기가 N, 표본집단의 크기가 n이라 한다면 각 구성단위들은 n/N 확률로 표본집단에 선택된다. 독립성과 불편성을 가장 철저하게 지키는 추출방법이기도 하다.
단순 무선 추출법은 일반적으로 컴퓨터로 난수표를 생성하는 등의 방식으로 임의추출을 하게 된다. 컴퓨터가 없다면 아쉬운 대로 추첨법을 쓸 수도 있는데, 흔히 행사에서 나오곤 하는 행운권 추첨 같은 개념이라고 보면 된다. 쉽게 예상할 수 있겠지만 이 방법은 모집단의 구성단위가 엄청나게 많을 경우에는 쓰기 힘들어져서, 작게는 번거롭고 크게는 아예 사용이 불가능하다.
인터넷에는 무선추출 및 무선할당을 대신 해주는 웹 페이지도 있다! 해당 페이지 보기

4.1.2. 체계적 추출법


systematic sampling
모집단의 각 구성단위 사이에 존재하는 순서나 배열을 파악하고, 이를 통해 초항을 무선추출한 뒤, 이후 해당 패턴의 각 항마다 규칙적으로 표본을 추출하는 방법. 길게 말로 풀어서 설명하기는 꽤 까다롭지만, 막상 적용해 보면 의외로 쉬워서 우리 생활 속에서도 꽤 흔하게 관찰할 수 있는 방법이다. 흔한 경우 이러한 방식은 마치 수학등차수열을 연상시키기도 한다.
체계적 추출법의 적용 사례를 들자면, 시 공무원이 주택환경 조사를 위해 20가구씩 묶어놓고 각 묶음마다 한 가구만을 방문하는 경우가 있고, 백화점에서 고객만족도 조사를 할 때에도 처음에는 아무나 한 사람 붙잡았다가, 이후 30명씩 규칙적으로 거르면서 한 사람씩 붙잡아서 설문에 참여시킬 수도 있다. 당장 100명의 사람들이 한 자리에 모여 있고 10명만 무작위로 뽑아야 한다면, 그들을 한 줄로 세운 후에 10의 배수에 해당하는 위치만 뽑아낼 수도 있다. 이러한 손쉬운 규칙성 덕분인지는 모르겠지만, 체계적 추출법은 흔히 전화번호부나 연감 등의 문헌자료와도 환상적인 궁합을 자랑한다.
체계적 추출법의 대표적인 단점은, 관찰할 대상이 일정한 패턴을 보일 경우에는 쓰기가 어렵다는 것이다.

4.1.3. 군집 추출법 (집락 추출법)


cluster sampling
전체 모집단을 몇 개의 상호배타적 하위 집단(군집)으로 분할한 후, 그 중에서 하나의 집단을 무선표본추출하여 그 집단에 속한 모든 구성단위들을 전수조사하는 방법. 이 방법을 쓰기 위한 가장 이상적인 조건은, 각 군집들 사이에는 서로간에 동질성이 보장되지만, 군집 내의 구성단위들 사이에는 서로간에 이질성이 보장되는 경우이다. 이러한 점에서 이하에 설명할 층화 추출법과는 정반대라고 할 수 있다.
군집 추출법의 적용 사례를 들자면, 빵셔틀에 대한 학생들의 인식을 알아보기 위해서 중학교 하나를 선정하고, 그 학교에 재학중인 모든 중학생들을 대상으로 조사를 실시하는 경우를 들 수 있다. 또 다른 경우로는, 각 행정관서 공무원들의 안보관을 조사하기 위하여 하나의 부처/청을 무선추출하여, 모든 소속 공무원들을 대상으로 조사를 실시할 수도 있다. 어떤 경우에든 특이한 점이라면, 특정 군집에서 얻어진 통계량을 통해서 전체 모집단의 모수를 추정할 수 있도록 일반화가 이루어진다는 것이다. 즉, 이렇게 얻어진 데이터를 통해서 모든 중학생들의 인식이, 모든 공무원들의 안보관이 대표되는 것이다.

4.1.4. 층화 추출법


stratified sampling
전체 모집단을 몇 개의 상호배타적 하위 집단(층)으로 분할한 후, 각 층들 속에서 그 층의 범주에 맞도록 구성단위를 무선추출하는 방법이다. 위의 군집 추출법과는 미묘하면서도 명확하게 차이가 있다. 군집 추출법과는 달리, 층화 추출법은 각 층들 사이에는 서로간에 이질성이 확보되어 있으며, 층 속의 구성단위들 사이에는 서로간에 동질성이 보장되어야 한다. 이러한 점에서 위에 설명한 군집 추출법과는 정반대의 논리를 갖고 있다.
층화 추출법의 적용 사례를 들기 위해 가상의 조사를 가정해 보자. 즉, 이를테면 대한민국 국민들이 책을 얼마나 읽는지 조사하기 위해서 전국 서점의 도서 판매량을 조사한다고 가정해 보자. 그런데 이 경우, 모든 서점들이 표본집단에 선택될 확률이 모두 같을 경우에는 뜻밖의 문제가 발생한다. 실제보다 이상하리만치 도서 판매량이 열악하게 확인되는 것이다. 물론 이것은 전체 도서 판매량의 대부분을 차지하는 소수의 대형 서점들이, 단순 무선추출(SRS) 시에는 그 수가 워낙 적다 보니 표본집단에 거의 포함되지 못했기 때문이다. 결국 대형 서점에 이리저리 치여서 오늘 간판 내릴까 내일 내릴까를 고민하는 영세 서점들이 주로 표본집단으로 선택되었고, 그 결과 도서 판매량도 저조하게 나타난 것이다. 즉, 이 경우에는 층화 추출법을 적용하여, 소수의 대형 서점 층에서 무선추출을, 약간의 중형 서점 층에서 무선추출을, 다수의 영세 서점 층에서 무선추출을 하는 것이 더 정확할 수 있다.[3]

4.2. 비확률 표본 추출법



4.2.1. 편의 추출법


convenience sampling
우연적 추출법(accidental sampling)이라고도 한다. 가장 쉽고 품 안 드는 표본추출법으로, 연구자가 그냥 알아서 내키는 대로 표본을 모으는 것을 의미한다. 물론 편의 추출법이 그만큼 위험하다는 것은 두말하면 잔소리지만, 경우에 따라서는 덜 위험한 경우도 있다. 누가 봐도 모집단 구성단위들 사이에 거의 이질성이 없음이 명명백백할 때가 그 사례. 또한 연구자가 모집단에 대한 정보 자체가 아예 희박하거나, 탐색 연구가 필요하거나, 질문지법의 사전조사(pretest)를 해 줄 사람이 일부 필요하거나 할 때는 괜찮다. 물론 이것 하나만 가지고 연구 끝! 을 외치기에는 심히 문제가 많다.
편의 추출법은 의외로 흔히 접해볼 수 있는데, 언론사에서 어떤 주제에 대해 길거리 행인들에게 생각을 묻거나,[4] 정치인들이 자기 지역구 민심을 듣기 위해서 전통시장으로 가는 경우가 전부 편의 추출법에 해당한다. 물론 길거리 행인들이나 전통시장 상인들의 의견은 단지 그들의 의견일 뿐이고, 대한민국 서민층 전부를 합당하게 대표하는 표본이 될 수는 없다.
가장 많이 찾아볼 수 있는 것은 교수들이나 대학원 조교들이 연구 프로젝트에 쓰겠답시고 전공 강의를 듣는 학부생들에게 설문조사를 뿌리는 방법이다.

4.2.2. 판단 추출법 (유의 추출법)


judgemental sampling
의도적 추출법(purposive sampling)이라고도 한다. 복잡하고 골치아픈 통계적 처리 같은 거 다 치우고, 연구자가 해당 분야에 대한 자신의 전문성을 근거로 하여 직접 표본을 고르는 방법이다. 자신이 전문성을 갖고 있는 분야라면 아무래도 일반인보다는 나은 추출을 할 수 있겠지만, 물론 통계적 처리를 통해 얻어지는 신뢰성에 비할 바는 아니겠다. 연구자가 그 분야에 빠삭한 배경지식을 갖고 있어서 무엇을 어떻게 추출하고 처리해야 할지 훤히 보일 때는 써도 나쁘지 않으며, 이는 위의 편의 추출법이 쓰이는 상황과는 정반대의 상황이라 할 수 있다. 편의 추출법은 연구자가 연구주제에 대해 배경지식이 충분치 않아서 탐색적인 조사를 위해 실시한다는 성격이 강한 반면, 판단 추출법은 연구자가 이미 손바닥 들여다보듯 훤히 알고 있는 상황이라 통계적 처리를 할 때 득보다 실이 크다고 여겨지는 상황에서 실시되곤 한다.

4.2.3. 할당 추출법


quota sampling
비확률 표본 추출법들 중에서 가장 정교한 방법. 연구자가 모집단의 구성단위에 대한 파악이 끝난 상태에서, 전체 모집단을 몇 개의 상호배타적 하위 집단(범주)로 분할한 후, "범주별 할당표" 를 작성해서 비율에 맞게 표본의 크기를 정하는 방법이다. 이렇게 보면 위의 층화 추출법과 유사해 보이지만, 결정적인 차이가 있다. 할당 추출법에서 연구자는 자기 재량에 따라서 표본 구성단위를 선정하게 되며, 통계적 처리가 포함되지 않는다는 것. 층화 추출법과의 유사점이라면 단지 모집단을 일정한 기준에 따라서 상호배타적 하위 집단으로 분류한다는 점밖에는 없다. 다시 정리하면, 층화 추출법과는 달리, 할당 추출법은 표본집단 구성단위를 추출함에 있어서 통계적 처리가 아닌 연구자의 사전지식과 전문성에 의지하는 방법이다.

4.2.4. 눈덩이 추출법


snowball sampling
상당히 드물게 쓰이는 방법이다. 비탈길에서 작은 눈덩이를 굴리면 점점 구르면서 커져 가게 되는데, 이에 비유한 표본추출법.
일부 폐쇄적인 집단이나 컬트, 혹은 소수자 집단, 대외비 집단 등에 소속되어 있는 개인들은 연구자 입장에서 신원이나 연락처를 구하는 것이 결코 쉽지 않을뿐더러 자기네들도 충분한 네트워크가 형성되어 있지 못한 경우가 많다. 이런 사례를 연구할 때, 연구자는 우선 사전에 연락처를 확보하고 연구협조 의사를 타진해 온 극소수의 구성원을 대상으로 표본을 추출하게 된다. 그 이후, 해당 표본으로부터 인접해 있거나 친한 다른 표본을 소개받아서 연구를 진행하는 기법이다. 한 사람이 다른 한 사람을 소개하고, 그 사람이 두어 사람을 소개하고, 소개받은 사람이 다시 누군가를 소개함으로써 표본은 점점 늘어나게 된다. 물론, 그 사람들이 계속해서 소개를 해 줄 만큼 협조적이라는 전제 하에.

5. 관련 문서



6. 외부 링크



[1] MTurk 활용 연구 시 표본대표성을 주장하기 위한 근거로는 다음의 문헌들을 활용할 것. Paolacci, Chandler, & Ipeirotis, 2010; Buhrmester, Kwang, & Gosling, 2011; Berinsky, Huber, & Lenz, 2012; Buhrmeister, Kwang, & Gosling, 2011; Mason & Suri, 2012; Chandler, Mueller, & Paolacci, 2014.[2] Antin & Shaw, 2012; Williamson, 2016; Pittman & Sheehan, 2016. 한편 Liu & Sundar(2018)에 따르면 이렇게 열정페이를 겪는 MTurk 응답자들은 인지부조화를 일으켜서 자신들이 학술발전에 엄청나게 크게 기여한다고 믿는다고 한다.[3] 이때 그 층의 크기에 비례하여 일정한 비율을 유지하면서 무선추출을 한다면 비례 층화 추출(proportional stratified sampling)이 된다. 만일 층별로 상이한 가중치를 준다면 이는 불비례 층화 추출(disproportional stratified sampling)이 된다.[4] 이 경우는 따로 "보행자 조사법" 이라고도 한다.