신뢰도와 타당도

 

1. 개요
2. 신뢰도
2.1. 예시
2.2. 검사-재검사 신뢰도
2.3. 내적 일관성 신뢰도
2.3.1. 동형 신뢰도
2.3.2. 반분 신뢰도
2.4. 평가자 간 신뢰도
3. 타당도
3.1. 구성 타당도
3.1.1. 수렴 타당도
3.1.2. 변별 타당도
3.2. 안면 타당도 & 내용 타당도
3.3. 준거 타당도
3.3.1. 동시 타당도
3.3.2. 예측 타당도
4. 관련 문서


1. 개요


어떤 이론을 기초로 한 검사나 조사를 평가할 때 쓰이는 두 가지 기준이다. 모든 검사나 조사를 통해 얻어진 데이터들이 전부 의미 있는 것은 아니며, 그 중 일부는 상당히 쓰레기 같을 수도 있다.(…) 이는 그 검사 내적인 문제 때문일 수 있다. 그렇다면 어떤 검사나 조사에 문제가 있는지 없는지를 어떻게 아는가? 그 여부를 판단하는 것이 바로 신뢰도와 타당도이다.
신뢰도와 타당도는 비단 연구방법론을 수강하는 대학원생들뿐만 아니라 상담이나 직업, 사회분석 관련 각종 자격증을 취득하고자 하는 고시생들에게도 시험 빈출개념으로 다루어진다. 그러나 그 중요성에도 불구하고, 처음 접하는 사람들에게는 신뢰도와 타당도가 의미상 서로 헷갈리기 일쑤이고(…) 그 하위 분류들을 일일이 다 기억하는 것도 머리가 아플 정도인 경우가 많다. 물론 어느 분야나 다 그렇듯이, 일단 이 개념들을 제대로 탑재하고 나면 이렇게 뻔하고 명백해 보이는 것도 흔치 않아 보인다.(…)
따라서 나무위키에서는 최대한 쉽고 다양한 방법으로 이해를 돕고, 약간의 의미상의 손실이나 오류를 감수하더라도 몇몇 일상적 예를 들도록 하겠다. 일상적으로뿐만 아니라 학술적으로도 자주 드는 예시는 '''사격 표적지 비유'''. 이보다 정확하고 자세한 정보를 원한다면 도서관에서 전공서적을 찾아볼 것.

2. 신뢰도


유의 수준(significance level): 보통 α로 표시한다. 95%의 신뢰도를 기준으로 하면 1-0.95인 0.05가 유의 수준 값이다.
신뢰 구간(confidence interval, CI): 실제로 모수가 존재할 것으로 예측되는 구간이다. 보통 신뢰도 95%의 신뢰 구간을 쓰지만 90%나 99%도 많이 쓴다. (a, b)라고 써놓으면 a는 구간의 시작, b는 구간의 끝을 의미한다. 100(1-α)%의 신뢰 구간이라고 부른다. 반복적으로 모 평균 μ에 대한 구간 추정을 시행하면 이들 중 95%에 해당하는 신뢰 구간이 참값 μ를 포함한다는 의미이다.
신뢰도(reliability) 또는 신뢰 수준(confidence interval level): '신뢰도 95%의 신뢰 구간'과 같은 식으로 쓴다. 1-α나 100(1-α)%로 적는다.

'''신뢰도가 높다: 이 데이터에는 뭔가가 있다. 그게 뭔지는 몰라도, 이 데이터는 뭔가를 가리키고 있다고 믿을 수 있다!'''

신뢰도란 '어떤 데이터가 구체적인 대상을 지시하는 정도'를 의미한다. 일관되고 재현이 가능한(replicable) 측정이 존재하는지 평가하는 기준. 좋은 검사나 조사는 '''시간, 문항, 평가자와 무관하게 일관된 결과'''를 제공하며, 그 점수들이 반복된 측정에서 똑같이 재현되는 정도가 뛰어나다. 시기를 달리하거나, 더 많은 문항을 사용하거나, 더 많은 심사위원 혹은 관찰자들에 의해 측정되더라도, 역시 동일한 결과가 나오게 된다는 것이다. 예를 들어, 아침에 측정한 데이터와 저녁에 측정한 데이터가 서로 들쑥날쑥 천차만별이라면, 그 검사에는 그다지 믿음이 가지 않을 것이다. 군대의 영점 사격에 비유하자면, 표적지에 남은 '''탄착군이 작은 원 모양이 아닌 들쑥 날쑥 퍼진 상황'''이다.
신뢰도의 주요 독립 변수는 시간, 검사/조사 내적 측면, 그리고 평가자이다. 계량화된 표본의 경우에는 표본오차의 절대값의 크기가 작을수록 더욱 신뢰성 있는 조사라고 할 수 있다.
확률과 통계에서 '신뢰도 n%의 신뢰 구간'(0<n<100)이니 하는 것도 이러한 개념이다. '신뢰도 95%의 신뢰 구간'이라면 해당 구간에 모 평균이 있을 확률이 95%라는 뜻이다. 저 n이 늘어나면 신뢰구간이 길어지는데, '이 안에 모평균이 있다'가 참이 될 확률은 더 커졌지만 오히려 모평균을 특정하기는 더 어려워졌다. 요 앞에서 말한 '신뢰도만 높고 타당도는 낮은 데이터'의 일종이라 할 수 있다. 그리고 표본의 크기가 커지면 커질수록 같은 신뢰도에서 신뢰구간이 좁아진다. 즉 표본이 클 수록 정확하다는 것. 물론 그럼에도 함정이 있다.
신뢰도는 후술할 '''타당도의 필요조건'''이다. 신뢰도 높고 타당도 낮은 데이터는 널려 있지만, 신뢰도 낮고 타당도 높은 데이터는 사실상 존재하지 않는다고 간주된다. 혹시라도 존재한다면, 적어도 전자보다는 후자를 택하는 게 살짝 더 안전할 거라고 한다.
통계적 방법#s-9.1 문서 참조.

2.1. 예시


  • 대학수학능력시험: 불행히도, 수능의 신뢰도는 그다지 높지 않은 편이다. 왜냐하면, 2014학년도 응시자 성적은 2013학년도 시험지를 받았을 때 (그것이 처음 풀어보는 것이라고 가정한다면) 고스란히 유지될 것으로 기대하기 힘들기 때문이다. 매년 난이도 조절 실패니, 물수능이니 하는 논란이 불거지는 현상은 수능의 신뢰도가 떨어지고 있음을 의미한다. 물론 현실적으로는 어차피 점수 자체보다는 줄세우기를 해서 등급 컷으로 나누기 때문에 큰 사회적 비용까지 지출되지는 않지만...
  • MBTI: 대중적으로 유명한 성격검사인 MBTI는 어떨까? 전문가들 사이에서도 MBTI의 신뢰도에 대해서는 의견이 다소 엇갈린다. 그나마 괜찮은 편이라고 이야기하는 사람들도 있고, 신뢰도가 크게 떨어진다는 사람들도 있다. 보통은 전체 채점사례 중 40% 정도는 6개월 정도의 텀을 두고 연달아 채점했을 때 결과 유형이 바뀐다고 간주되는 듯. 어세스타를 비롯하여 MBTI를 가지고 돈을 버는 사람들도 이 문제를 놓고 고심하고 있지만, 영 뾰족한 해결책은 없는 모양이다. 사실 MBTI의 신뢰도도 그렇고 타당도도 그렇고, MBTI란 물건 자체가 태생적으로 나름의 한계를 안고 만들어진 것이다 보니 그렇다고 봐야 할 듯.

2.2. 검사-재검사 신뢰도


'''test-retest reliability'''
동일한 검사를 일정한 '''시간적 간격'''을 두고 두 번 실시하여 결과가 유사한지 확인한다. 유사하다면 검사-재검사 신뢰도가 높다고 할 수 있다. 여기서 문제는, "그럼 도대체 얼마만큼의 시간적 간격이 필요한가?" 의 질문이 나온다는 것이다. 1시간? 이렇게 단시간에 연이어 검사를 해서는 안 된다. 왜냐하면 '''연습효과'''가 발생하여 뒤의 검사결과는 앞의 검사결과보다 좋게 나오기 때문이다. 그렇다면, 2년? 이렇게 오랜 시간을 기다려서도 안 된다. 왜냐하면 '''성숙요인'''이 발생하여 시간적 경과에 따라 변화될 것으로 기대되는 변인들이 기하급수적으로 많아지기 때문이다. 가장 일반적으로 여겨지는 간격은, 위에서 슬쩍 언급했듯이 '''6개월''' 정도가 암묵적으로 받아들여지는 기간이다.[1]

2.3. 내적 일관성 신뢰도


'''internal consistency reliability'''
내적으로 '''검사 문항들 사이'''의 동일성과 합치성을 평가하는 신뢰도로, 이하의 동형 신뢰도와 반분 신뢰도의 두 가지로 나누어진다. 특정 일부 문항들에 있어서 신뢰도가 낮은 것이 포착되면, 그 문항을 삭제하거나 또는 역채점을 하여 해결할 수 있다. 그러나 만일 검사 전체가 난장판이라면, 아예 깨끗이 갈아엎고 새로 한 판 짜는 수밖에.(…)
예컨대 당신이 피평가자의 성실성을 판단하기위한 평가표를 제시한다고 보자. 그렇다면 그러한 특성을 평가하기 위하여 구성된 평가지문들이 있을 것이다. 각 문항내용사항에 대하여 본인이 해당하는지 여부에 매우낮음~매우높음의 척도를 마련하고 이에 대하여 매우 낮은 경우에는 1점 매우 높은 경우에는 5점을 매기도록 하는것이다. 그런데 이러한 성실성을 판단하기 위한 지표는 똑같은 지문을 마련하지 않고 응답자가 성의없이 응답하는 경우를 방지하기 위하여 지문을 변경하여 유사한 내용을 측정하도록한다. 다만 이 중 피평가자의 성실성을 판단하기 위한 항목이 5가지가 있었는데 이 중 4가지에 대하여는 어느정도 신뢰성이 확보될만한 점수를 얻었지만(4~5점) 어느 한 항목에는 1점을 얻은 경우라면 그 항목의 경우에는 내적 일관성이 결여되어 신뢰도를 상실하게 되는 것이다.

2.3.1. 동형 신뢰도


'''parallel-form reliability'''
한 검사의 문항들을 비교 가능한 두 가지의 버전으로 만들어서, 두 검사결과 점수가 유사한지 확인하는 방법. 유사하다면 동형 신뢰도가 높다고 할 수 있다. 상당히 초창기에 쓰이던 유서깊은 방법으로, 검사의 문항들을 무선표집(random sampling)하여 버전 A를 만들고, 다시 버전 B를 만든다. 두 버전 사이의 표면적인 내용은 서로 다를지언정, 그 밑바탕이 되는 이론적 배경이나 개념은 서로 완전히 동일해야 한다. 동형 신뢰도는 현실적으로 너무 어렵다는 비판을 받고 있는데, 이론적으로 동일하면서 서로 다른 두 가지 버전의 검사지를 만들라는 건 결국 개발자의 작업량을 '''두 배'''로 늘리라는 얘기이니(…)

2.3.2. 반분 신뢰도


'''split-half reliability'''
한 검사의 문항들을 중간에 싹둑 자르든 어쩌든 해서 두 개의 버전으로 만들어서, 두 검사결과 점수가 유사한지 확인하는 방법. 유사하다면 반분 신뢰도가 높다고 할 수 있다. 이 경우 활용되는 계수는 흔히 '''크론바흐의 알파 계수'''(Cronbach's alpha coefficient)를 쓴다. 알파 값이 .70 이상은 되어야 제대로 믿고 써먹을 만한 검사가 된다. 반분 신뢰도 역시 한계가 없는 것은 아닌데, 다름이 아니라 문항의 수가 적을 경우에는 쓰기가 곤란하다는 것. 일례로 유명한 심리검사 중 하나인 로젠버그 자존감 척도(RSES; Rosenberg's Self-Esteem Scale)의 경우, 문항 수는 달랑 10개에 불과하다.(…) 이걸 대상으로 반분 신뢰도를 측정하려 할 때는 좀 곤란해지게 마련. 그래도 요즘에는 크론바흐의 알파 값이 워낙에 관행이 되어놔서 4~5개짜리 문항의 척도들에서도 그냥 SPSS로 값을 계산한다.

2.4. 평가자 간 신뢰도


'''inter-rater consistency reliability'''
한 검사의 결과 프로파일을 평가함에 있어서 둘 이상의 '''다수의 평가자들 사이'''에 그 해석이나 판단이 유사한지 확인하는 방법. 유사하다면, 평가자 간 신뢰도가 높다고 할 수 있다. 만일 결과가 유사하지 못하다면 다음 중 한 사례일 수 있다. 그 검사를 구성하는 이론적 개념이나 배경이 모호하게 적용되었거나, 너무 광범위하게 적용되었거나, 경우에 따라서는 일부 평가자들이 잘못 이해했을 수도 있다.

3. 타당도


'''Validity'''

'''타당도가 높다: 이 데이터가 가리키고 있는 그 뭔가는 우리가 알고자 하던 바로 그것이다!'''

타당도는 '''해당 데이터가 가리키는 대상이 조사자가 알고자 하던 것과 일치하는 정도.'''이다. 조사 결과가 그것이 목표로 하는 특성을 반영하는 정도. 좋은 조사는 '''측정 대상과 정확히 관련되고, 측정 대상이 아닌 것과 철저히 무관하며, 외적 준거에 의해서도 잘 지지된다.''' 의외로 많은 검사들이 A를 검사한다고 표방하지만 유사 개념인 B를 평가한다.(…) 예를 들어, 학교에서 실시한 IQ 검사가 알고 보니 학업 성취도 평가였다면, 이런 검사는 타당하지 않다고 말할 수 있을 것이다.[2] 영점 사격에 비유하자면, '''탄착군이 표적과 다른 상황'''이다.
위의 신뢰도 서술에서도 다루어졌고, 바로 위 사격 비유에서도 암시되었지만, '''신뢰도는 높은데 타당도에서 결함을 보이는 검사나 조사들이 꽤 많다. 신뢰도는 타당도의 필요조건'''일 뿐이다. 영점 사격에 비유하자면, '''탄착군이 좁긴 하지만 표적이 아닌 곳에 있는 상황'''이다. 즉, 신뢰도가 얼마나 "일관되게 집중된" 탄착군을 만드느냐의 문제라면, 타당도는 얼마나 "제대로 조준된" 탄착군을 만드느냐의 문제라고 할 수 있다. 일부 단행본에서는 종종 양궁 과녁에 꽂힌 화살로 비유하기도 하는데, 대상만 다를 뿐 정확히 똑같은 비유다.
다시 한 번 수능의 문제로 되돌아가 보자. 평가원이 대오각성하여 수년간 수능의 난이도 조절에 크게 성공했다고 가정하자. 즉, 신뢰도를 높이는 데 성공했다고 가정하자. 이 상황에서, 타당도의 높낮이는 무엇을 의미할까? 수능의 존재 의의는 고등학교 졸업자들이 대학교의 고등교육을 얼마나 잘 소화할 수 있는지를 미리 가늠해 보는 것이다. 즉, 수능에서 높은 점수를 받은 학생이 과연 대학 교육도 잘 익힌다면, 수능의 타당도는 높다고 할 수 있다. 반면, 수능에서 높은 점수를 받은 학생치고는 대학교에서 영 죽을 쑤고 있다면(…) 수능의 타당도는 낮다고 봐야 할 것이다.[3]
한번 더 MBTI 예시를 들어 보자. MBTI의 신뢰도가 높다고 주장하든 낮다고 주장하든 간에, 절대 다수의 심리학 전문가들은 MBTI의 가장 치명적인 한계점으로 "태생적으로 낮은 타당도" 를 지적한다. 대표적으로, 응답자들은 자기도 모르게 (물론 검사지에 유의사항으로 적혀 있긴 하지만) 자신의 실제 성격이 아니라 자신이 바라는(wanna-be) 이상적인 성격, 또는 자신의 직업적 특성으로 인해 강제된 성격으로 응답할 위험이 있다. 가장 중요한 문제는, MBTI에서 말하는 감각형, 직관형, 사고형, 감정형 같은 개념들이 현대 심리학에서 말하는 용어들과는 천만광년 정도 거리가 있다는 것이다.[4] 물론 이는 칼 융분석심리학에 이론적 배경을 의지하고 있기 때문. 이 때문에 MBTI에서 사고니 감정이니 하는 것을 측정하더라도 그것은 실제 자신의 정확한 성격과 괴리가 발생하게 된다.[5]
비슷하면서도 약간 다른 개념으로 생태학적 타당도라는 것도 있는데, 이 문서에서 말하는 신뢰도와 타당도가 조사에 대한 것이라면 생태학적 타당도는 특정 실험의 타당도를 평가하는 개념이다.
타당도의 주요 독립 변수는 문항 내용, 피검사자들의 이해, 외적 준거와의 비교가 있다.

3.1. 구성 타당도


'''construct validity'''
간혹 '''구인 타당도'''라고도 한다. 구성 타당도가 높음을 입증해 보일 수 있는 실험설계 상의 방법 중 하나가 바로 조작 점검(manipulation checks)이다. 이것은 어떤 검사가 그 기저에 존재하는 이론의 구성개념을 정확히 측정하는지 보는 타당도로, 이하의 두 가지로 나누어 볼 수 있다.
이렇게 보면 별 것 아닌 것 같거나 좀 막연해 보이지만, 흔히 말하는 '''바넘 효과'''가 발생한다는 얘기는 바로 이 구성 타당도에 문제가 있다는 뜻이다!

3.1.1. 수렴 타당도


'''convergent validity'''
어느 검사와 관련이 있는 다른 이론적 예측이나 다른 검사 결과를 비교하여 결과가 유사한지 확인하는 방법. 유사하다면, 수렴 타당도가 높다고 할 수 있다. 즉, 이 검사에서 고득점을 받은 사람이 다른 이론적 예측에 잘 부합하고 관련 검사를 받아도 고득점을 받는다면, 이 검사는 타당한 검사라고 할 만한 것이다. 극단주의에 관련된 검사를 만들 경우, 극단주의에 관련된 각종 필수요소는 전부 빠짐없이 포함되어 있어야 한다. 아래의 변별 타당도도 그렇지만 이를 다시 말하면 상관관계 연구를 따로 해 봐야 한다는 얘기인데, 이걸 개별 문항들 수준에서 일일이 다 해 봐야 한다.(…)

3.1.2. 변별 타당도


'''discriminant validity'''
어느 검사와 관련이 없는 다른 이론적 예측이나 다른 검사 결과를 비교하여 결과가 유의한 차이를 보이는지 확인하는 방법. 유의한 차이가 나타난다면, 변별 타당도가 높다고 할 수 있다. 즉, 이 검사에서 고득점을 받은 사람이 여타 이론적 예측과는 무관하게 움직이고 관련 검사를 받아도 현저한 차이를 보인다면, 이 검사는 타당한 검사라고 할 만한 것이다. 다시 극단주의에 관련된 검사 예시로 되돌아가자. 변별 타당도의 관점에서, 극단주의에 상관없는 내용을 묻는 문항은 절대로 있어서는 안 된다. 이런 문항이 포착된다면 그것을 삭제하거나 아니면 일종의 더미 데이터로 취급하거나, 연구대상과 정반대를 가리키는 문항의 경우에는 역채점을 할 수 있다.
이는 종종 '''확산 타당도'''(divergent validity)라고 불리기도 한다.

3.2. 안면 타당도 & 내용 타당도


'''face validity & content validity'''
이 검사에 대한 사람들의 반응을 기초로 검사목적 혹은 주제를 잘 파악하는지 확인하는 방법. 사람들이 쉽게 알아챈다면, 안면 타당도 혹은 내용 타당도가 높다고 할 수 있다. 그 분야 전문가들에게 물어보는 경우에는 내용 타당도가 되고, 일반인 응답자들에게 물어보는 경우에는 안면 타당도가 된다. 물론 이렇게까지 자세하게 구분하기보다는, 그냥 두 용어를 혼용해서 쓰기도 하는 듯. 굉장히 주관적이고 질적인 타당도 기준이지만, 그래도 리커트 척도법을 활용해서 계량화할 수 있는 길도 있긴 하다. 이런 경우는 내용 타당도 지수(CVI; Content Validity Index)라는 걸 쓰기도 하는데, 역시 너무 전문적이기 때문에 이에 대해서도 더 이상의 자세한 설명은 생략한다.
안면 타당도가 높을 경우 응답자는 이것이 자신에게 어떤 의미를 갖는지를 이해하고 더욱 성심성의껏 응답할 수 있다. 그러나 여기에는 부작용이 있는데, 특히 심리검사의 경우, 응답자가 허위반응(faking response)과 같은 반응 패턴을 보임으로써 자기 자신을 숨기려고 할 수도 있다는 점이다. 그리고 연구자가 의도하거나 원하는 게 무엇인지 알아채고, 공연히 그것에 부합하려 하거나 혹은 거부하려 하는 패턴을 보일 수도 있다. 이 때문에 안면 타당도가 높은 것이 문제가 되는 일부 검사에서는 질문의 순서를 섞거나, 별 시답잖은 더미 문항들을 중간중간에 끼워넣는 식으로 연막을 친다.(…) 허위반응을 감지하는 척도를 갖추는 경우도 많다.

3.3. 준거 타당도


'''criterion validity'''
검사 외적 준거에 비추어 보아 결과가 유사한지 확인하는 방법. 검사의 결과가 예측한 내용이 외적 준거에 의해 지지된다면, 준거 타당도가 높다고 할 수 있다. 준거 타당도는 이하의 두 가지로 다시 나누어지게 되는데, 각각 장단점이 뚜렷하다. 준거 타당도는 경영학 쪽에서도 몹시 좋아하는 것인데, 입사면접이나 미래예측과 관련된 의사결정 등에서 꽤 유용히 쓰이기 때문.

3.3.1. 동시 타당도


'''concurrent validity'''
또는 공인타당도 라고도 한다. 기존에 존재하는 외적 준거를 통해 데이터를 확보하고, 새로 제작한 검사의 결과와 비교하여 결과가 유사한지 확인하는 방법. 유사하다면 동시 타당도가 높다고 할 수 있다. 동시 타당도는 아래의 예측 타당도에 비해 더 객관적이고 양적인 타당도에 속하며, 외적 준거와 검사의 수행이 동시에 비교된다. 기존의 검사지를 개정하거나 대체할 새 검사지를 만들었을 때에도 동시 타당도를 통해서 그 타당도를 보장받을 수 있을 것이다. 물론 기존의 유사한 검사가 존재하지 않을 경우에는 쓸 수 없다는 한계가 있다.

3.3.2. 예측 타당도


'''predictive validity'''
우선 검사 데이터를 확보한 이후에 시간이 지남에 따라 그 예측한 바가 얼마나 현실에 부합하는지 확인하는 방법. 부합한다면 예측 타당도가 높다고 할 수 있다. 예측 타당도는 위의 동시 타당도에 비해 더 주관적이고 질적인 타당도에 속하며, 외적 준거와 검사의 수행이 서로 다른 시기에 이루어진다. 대표적으로 취업 현장에서 직무적성 테스트를 할 경우, 그 테스트의 타당도를 확인하려면 여기서 고득점을 올린 구직자가 실제 취업 이후에 얼마나 높은 직무수행을 보이는지 관찰하는 수밖에 없다. 이를 거꾸로 뒤집어 말하면, 예측 타당도는 앞으로의 미래에 벌어질 일을 이야기하는 타당도라고도 할 수 있다. 타당도를 확인하려면 "기다려야 한다" 는 점이 종종 심각한 단점으로 작용하기도 한다.

4. 관련 문서



[1] 이런 이유로 고지능자 집단으로 불리는 멘사에서도 IQ 테스트 이후 불합격자에게는 '''6개월간''' 응시를 못하게 하였다. 참고로 현재는 1년간 재응시 불가로 바뀌었다.[2] 비슷하게는, 우울장애를 검사하는 문항이 불안(anxiety)을 측정할 위험이 있다. 또는, 응답자의 애국심을 검사하는 문항이 집권 대통령에 대한 국정지지도를 평가할 위험이 있다.[3] 이 문제에 대해 소위 명문대와 비인기 대학의 강의수준을 비교하며 반론하는 것은 심히 잘못 이해한 것이다. 수능의 타당도는 대학교 입학담당자의 입장에서 생각을 하면 쉽다. 이들은 자기가 속한 대학교의 강의수준에 맞는 등급선의 학생들을 주로 뽑고, 그들이 자기네 대학교 나름의 강의를 잘 따라오리라 기대한다. 이것은 명문대나 지잡대나 동일한 것이며, 혼입되는 사항이 아닌 것이다. 수능 1등급이 예측하는 학업역량이 있고, 수능 5등급이 예측하는 학업역량이 따로 있으며, 이것이 학생의 각각의 실제 학업역량과 일치하는지를 보는 것이 타당도다. 만일 특정 수능점수에서 기대되는 이해수준에 학생의 실제 역량이 미치지 못한다면, 이것만으로도 (어떤 대학교에서 그런 일이 벌어지든) 수능의 타당도는 떨어진다는 결론을 도출할 수밖에 없다. 지방대 과탑 학생을 서울대 강의실에 앉혀놓으면 진도 못 쫓아간다는 이유로 수능을 타당도의 예시로 드는 걸 비판할 수는 없다는 것이다.[4] 감각(sensation)의 경우 단어는 같되 의미는 전혀 다르고, 감정(feeling)의 경우 심리학에서는 잘 쓰지 않으며 그보다는 정서(emotion)나 정동(affect) 같은 단어가 더 많이 쓰인다.[5] 대조적으로, Big5 검사인 NEO-PI-R의 경우 최종보스급 신뢰도와 타당도를 전세계에서 인정받은 바 있다. 심지어 Big5의 배경이 된 5요인 모형(FFM; Five Factors Model)에 반대하는 연구자들조차도 NEO-PI-R의 타당도에 대해서는 거의 태클을 걸지 않는다고.