연구(의학)

1. 개요

2. 연구의 종류

2.1. 연속증례보고(case series)

2.2. 환자 대조군 연구(case-control studies)

2.3. 코호트 연구(cohort study)

2.4. 무작위 대조시험(randomized controlled bias)

2.5. 메타분석(meta-analysis)

3. 민감도와 특이도(sensitivity, specificity)

4. 오류(errors)

4.1. 통계적 검증력(statistical power)

5. 신뢰구간(confidence interval)

6. 관련관계와 상관관계의 차이(association vs correlation)

7. 인과율(causality)

8. 편의/편향(bias)

1. 개요

의학은 기본적으로 근거중심의학(evidence-based medicine)을 바탕에 둔다. 이는 과학적인 근거을 기반으로, 환자의 질병과 관련된 의학적 판단을 내리게 된다. 이때, 의학적 판단을 돕는 과학적 근거는, 여태까지 보고되거나 연구한 '''축적된''' 의학적 지식을 바탕으로 내리게 된다.
이에 따라 의학에 있어서, 연구의 종류와 그 가치를 이해하는 지식이 의학교육에 매우 중요한 부분을 차지한다.

2. 연구의 종류

연구의 종류라고 설명하기가 조금 애매하나, 연구의 방식과 종류에 따라 그 질과 신뢰도가 다르다.
EBM에서 논문 종류에 따라 정리한 근거의 단계(hierarchy of evidence) 순서는 위에서 부터 아래로 다음과 같다.

여러 무작위 대조시험(randomized trails)을 모아 분석한 메타분석(meta-analysis)
무작위 대조시험(randomized controlled trials)
코호트 연구(cohort study)
환자-대조 연구(case-control studies)
증례 보고(case report/series)
전문가의 의견(expert opinion)

2.1. 연속증례보고(case series)

이는 특정한 치료법(treatment)의 결과나, 그 치료법의 장기적 결과 혹은 어떤 시술의 합병률 및 어떤 질병을 서술하는 방식의 논문을 의미한다. 위의 단계에서 보듯 근거의 단계는 낮다.
증례보고의 사이즈는 두세명의 환자에서 부터 몇천명의 증례를 모아서 보고하는 연속증례보고가 있다.
이 논문의 큰 단점은 바로 결과를 비교할 대상이 없다는 점(lack of comparison group)이다. 이로 인해, 증례보고는 절때 어떠한 결과에 대해 결정적인 결론(definitive conclusion)을 내리지 못하게 되며, 또한 논문 자체가 상당한 편의(bias)에 노출될수 있다.
외과 관련 연구에 자주 사용되는 종류이다.
참고로 단면 연구법(cross-sectional study)은 어느 시점(specific point in time)에 관련된 환자에 대해 연구하는 방법이다.

2.2. 환자 대조군 연구(case-control studies)

후향적(retrospective) 논문 종류.
어떤 특정적인 증상이나 결과가 보여지는 환자들을 선택하여, 환자의 병력이나 환경 등을 조사해 결과와 관련된 위험인자(risk factors)나 특정물의 노출(exposure) 등을 찾아 보고하는 논문 형태.
특히 희귀한 병(rare disease)이나 긴 잠복기(long latent)를 가진 질병을 연구하는데 사용된다.
하지만, 증례보고와 마찬가지로 편의(bias)에 쉽게 노출되는 단점이 있다.

2.3. 코호트 연구(cohort study)

이미 결과가 보여지는 환자를 선택하는 환자-대조군 연구와는 반대로, 특정적인 무언가(예를 들어 새로 개발한 약이나 시술 등)에 노출되었던 환자들(according to exposure)을 선택하여 시간을 두고 관찰하면서 질병의 발전 및 진행을 연구한 논문을 의미한다.
또한 후향적인 대조군 연구와는 달리, 코호트 연구는 전향적(prospective) 혹은 후향적 모두 연구가 가능한 종류이다.
하지만 특히 전향적(prospective) 코호트 연구는 노출된 그룹과 노출되지 않은 그룹을 선택함에 있어서 무작위 배정(not randomized)이 이루어지지 않았기 때문에 혼재변수(confounding variable)가 양쪽 그룹 모두 일정하게 분배되지 않았을 확률이 있으며, 또한 선택편의(selection bias)에 노출되었을 수도 있다.

2.4. 무작위 대조시험(randomized controlled bias)

이는 코호트 연구의 한 종류로서, 통제집단(control group)과 실험집단(intervention group)에 포함될 환자들이 무작위로 배치되기 때문에 혼재변수(confounding variable)가 양쪽 그룹에 일정하게 분배된다.
예를 들어 코호트 연구의 경우, 실험집단에 포함된 환자의 치료법은 의사의 권고나 환자의 의지에 따라 선택된 것이며, 무작위 대조시험은 환자의 의지나 의사의 권고 없이 정말 무작위로 환자를 통제집단 및 실험집단에 배치하는 방법이라고 생각하면 되겠다.
이 종류는, 위에 서술된 다른 방법들에 비해 어떠한 편의(bias)에 노출될 확률이 현저히 적으며, 이로 인해 높은 근거의 단계에 위치한다.

2.5. 메타분석(meta-analysis)

이는, 위에 서술된 무작위 대조시험의 결과를 대량으로 모아서 분석하고 전체적인 결과를 추정하는 방법이다.
특히 양질의 무작위 대조시험 결과를 메타분석한 논문은, 근거의 단계에 가장 높은 신뢰도를 보이게 된다.

3. 민감도와 특이도(sensitivity, specificity)

'''검사결과(results)'''	'''양성 질병(disease positive)'''	'''음성 질병(disease negative)'''
검사에서 양성 반응(test positive)	진양성(true positive) - '''a'''	위양성(false positive) - '''b'''
검사에서 음성 반응(test negative)	위음성(false negative) - '''c'''	진음성(true negative) - '''d'''

'''민감도(sensitivity)'''의 공식은 a / (a + c) 이며, 민감도가 높은 검사 방법은 주로 질병을 스크리닝 하는데 사용된다. 기본적으로 질환이 있는 환자에게 검사를 시행했을 시 양성으로 나올 확률이라고 보면 되겠다. 이게 무슨말이냐 하면, 민감도가 높은 검사법은 자주 위양성(false positive)의 결과는 보여줄수도 있으나, 정말 질병을 가지고 있는 환자를 놓치지 않는 장점(low false-negative rate)이 있다는 것이다.
이에 비해 '''특이도(specificity)'''의 공식은 d / (b + d) 이며, 특이도가 높은 검사방법들은 주로 스크리닝에 양성을 보인 환자에게 정말로 병이 있는지 확인(confirm) 하는데 사용되게 된다. 간단히 질환이 없는 환자에게 검사를 시행했을 시 음성으로 나올 확률을 의미하게 된다. 특이도가 높을 경우, 질병을 정말로 가진 환자에게서 음성(false negative) 결과가 나오기도 하나, 위양성(false positive)이 보여질 확률이 낮은 검사법이다.
'''양성예측도(positive predictive value)'''의 공식은 a / (a + b) 이며, 이는 검사결과가 양성(positive)으로 발견되었을때, 정말로 환자가 질환을 가지고 있는지를 알려주는 수치이다. 좀 더 간단하게, 질환이 있는지 없는지 모르는 환자에게 검사를 시행했을 시, 검사 결과가 양성이 보여졌을때 '''정말로''' 환자가 질환을 가지고 있을 확률이라고 생각하면 되겠다.

양성예측도는 질병의 출현율(prevalence)에 의존하게 된다. 이게 무슨말이냐 하면, 질병의 출현율이 높으면 높을수록, 양성예측도(PPV)가 높아지게 된다는 것이다.
양성예측도는 또한 검사법의 민감도/특이도(sensitivity/specificity)에 영향을 받기도 한다. 특히 상당히 민감한 검사법의 경우, 그만큼 위양성(false positive) 결과가 나올 확률이 높아지며, 이로 인해 양성예측도(PPV)가 낮아지게 된다.

'''음성예측도(negative predictive value)'''의 공식은 d / (c + d) 이며, 이는 검사결과가 음성(negative)으로 나왔을 시, 정말로 환자가 질환을 가지고 있지 않을 경우수를 알려주게 된다. 이는 특히 스크리닝이 목적인 검사법에 매우 중요한 수치이다. 이 수치가 높을수록, 그 스크리닝 검사법의 신뢰도 역시 높다고 생각하면 되겠다.

음성예측도 역시 질병의 출현율(prevalence)에 영항을 받게 된다. 높은 출현율의 질병일수록, 음성예측도가 낮아진다.
검사법의 민감도/특이도 역시, 음성예측도에 영항을 미치게 된다. 민감한 검사법의 경우, 그만큼 위음성(false negative)의 수치가 낮게 나오게 되며, 이로 인해 음성예측도가 높게 나오게 된다.

4. 오류(errors)

'''제 1형 오류(Type 1 error)''' 혹은 알파오류(alpha error)라고도 불린다. 이는 귀무가설(null hypothesis)이 사실임에도 불구하고 연구결과에서 기각되는(rejected) 오류를 의미한다(false-positive finding). 귀무가설이란 연구 시 비교한 두 그룹의 결과에 아무런 차이가 없다는 가설인데, 이것이 사실임에도 불구하고 기각하는 것을 1형 오류라고 한다. 더 쉽게 설명하자면, '''사실은''' 두 그룹의 결과에 정말로 아무런 차이가 없으나, 어떠한 이유로 인해 결과에 차이가 있다고 결정짓는 것을 의미한다.
제 1형 오류를 의미하는 수치를 P-값(P value)이라고 하며, 어떠한 연구 결과에 이 수치가 0.05 이하일 경우, 제 1형 오류가 발생하였을 확률이 매우 낮으며 이를 통계적 유의도(statistical significance)라고 한다.
'''제 2형 오류(Type 2 error)''' 혹은 베타오류라고 불린다. 이는 귀무가설이 거짓임에도 불구하고 연구결과에서 받아들이는(accepted) 오류를 의미한다(false-negative finding). 역시 쉽게 설명하자면, 연구 시 비교한 두 그룹의 결과에 '''진실로''' 차이가 있음에도 불구하고, 이것을 발견하지 못하고, 아무런 차이가 없다라고 결론짓는 오류를 의미한다.
제 2형 오류는, 특히 P-값이 통계적 유의도(statistical significance)에 다다르지 못했을 경우 발생하게 되는데, 주로 표본의 크기(sample size)가 너무 적을 경우 발생하게 된다.
제 2형 오류가 발생하지 않았을 확률을 의미하는 수치를 통계적 검증력(statistical power)이라고 한다.

4.1. 통계적 검증력(statistical power)

기본적으로, 어떠한 연구 결과에서 두 그룹에서 의미있는 차이를 찾을려면, 높은 통계적 검증력(satistical power)이 필요하다.
연구일률(study power)이라고 불리는 수치는, (100% - 베타오류율)로 계산할수 있는데, 의학연구에선 의미있는 결과로 인정하기 위해 인습적으로 베타오류율을 20%으로, 연구일률을 80%으로 잡게 된다. 이게 무슨말이냐 하면, 연구일률이 80%인 어떠한 연구결과에서 두 그룹에 차이가 있다라고 결론지었을때, 약 80%의 확률로 이 차이점을 정확히 발견했을 가능성을 의미하게 된다.
이로 인해, 어떠한 결과에 연구일률(study power)이 80% 이하일 경우, 제 2형 오류가 발생했을 확률이 높다고 가정하게 되며, 이로 인해 결과의 신뢰도가 낮다고 판단하게 된다.
연구일률(study power)에 영향을 끼치는 인자들은 다음과 같다.

표본의 크기(sample size) - 표본의 크기가 적을수록, 제 2형 오류율이 높아지게 되고, 이로 인해 연구일률이 낮아지게 된다.
유의도 수준(level of statistical significance) - 의학 논문에서는, 통계적 유의도를 의미하는 P-값을 0.05 이하로 가정한다. 어떠한 연구 결과에 P-값이 0.05 이상일 경우, 제 1형 오류율이 높아 통계적 유의도가 없음을 의미한다.
- 중요한 점은, 통계적 유의도와 임상적 중요성(clinical significance)은 서로 관계가 없음을 인지해야 한다. 만일 표본의 수치(sample size)가 높을 경우, 결과적으로 어떠한 논문에 연구의 두 그룹에 차이가 없음에도 불구하고 P-값이 0.05 이하로 발견되어 통계적 유의도를 획득할수 있다.
변수(variability) - 변수가 낮을수록, 표본의 수치가 적어도 의미있는 결과를 얻을수 있다.

결론적으로, 적은 표본의 크기 등으로 인해 논문 결과에 통계적 검증력(statistical power)이 낮을 경우, 결과에서 두 그룹의 의미있는 차이가 '''존재''' 함에도 불구하고 통계적 유의도가 낮기 때문에 우연(statistical insignificance)이라고 가정하게 된다.

5. 신뢰구간(confidence interval)

[image]
이는 어떠한 연구 결과를 읽는 독자가, 이 결과를 표본이 수집된 인구에 적용할수 있도록 하는 수치를 의미한다.
대부분 신뢰구간(CI)은 95%가 사용되는데, 이를 쉽게 설명하자면 같은 방법으로 100번 표본을 구했을 경우, 결과(모평균)를 포함한 신뢰구간이 95번의 표본에게서 보여진다는 의미이다.
신뢰구간(CI)의 넓이는, 표본의 크기(sample size)에 영향을 받게 된다. 표본의 크기가 적을수록 신뢰구간이 넓어지며 이로인해 추청치의 확실성(certainty)이 높아지긴 하나, 결과의 정확성(precision)이 떨어진다. 이에 비해, 표본의 크기가 많을수록 실뢰구간이 좁아지며 이는 높은 통계적 검증력(statistical power)으로 인해 결과의 정확성이 높다는것을 의미하게 된다.

6. 관련관계와 상관관계의 차이(association vs correlation)

관련관계(association)는 범주형 변수(categorical variables)간의 관계를 설명하며, 상관관계(correlation)는 연속변수(continuous variables)간의 관계를 설명한다.
범주형 변수란 표본의 성별(gender), 직업, 혼인상태(martial status) 등 별개의 질적인(qualitative) 변수를 의미하며, 연속변수는 표본의 나이, 키, 나이, 온도 등의 양적인(quantitative) 변수를 의미한다.
중요한 점은, 관련관계나 상관관계 둘 다 인과관계(causality)를 의미하진 않는다는 점이다.

7. 인과율(causality)

어떠한 질병을 연구하는데 있어서, 그것의 정확한 원인을 밝히는것은 상당히 어려운 부분이다. 아래 서술된 요인들은 그 원인을 밝히는데 도움을 줄순 있으나, 그 어느것도 원인과 결과를 밝히는 부인할수 없는(indisputable) 증거가 되지는 못한다.

높은 관련관계(strength of association)
생물학적 타당성(biological plausibility) - 근거가 과학적인 논리로 설명이 되는것인지를 의미한다.
다른 논문결과에서도 같은 관련관계가 일관적으로 보여질때
납용량과 상응하는 관계(dose-response relationship)
원인을 지지할수 있는 연구결과
시제 연속(temporal sequence) - 인과율을 밝히는데 있어서 매우 중요한 요인이다. 다시 말해, 원인이 결과에 앞서서 발생했는지를 알아보는것.
무작위 대조시험(randomized controlled trials)이 이루어 졌는지의 유무.

8. 편의/편향(bias)

의학논문에 있어서 편향(bias)을 발견하고 이를 제거하는 노력이 필요하다. 편향은 연구 결과의 타당성(validity)에 영향을 주게 된다.
기본적으로 4가지의 편향이 자주 발견된다.

표본선정편파(selection bias) - 연구의 두 그룹에 특징적인 차이(difference in characteristis)가 존재할 경우, 표본선정편파가 발생하게 된다. 가장 이상적인 연구는, 두 그룹 사이에 연구를 하는 요인 외에는 아무런 차이가 없어야 하나, 실질적으로는 항상 혼재변수(confounding variable)가 존재하기 때문에 이를 완전히 배제하는것은 불가능 하다. 표본선정편파를 제외하기 위해, 무작위 대조시험(randomized controlled trials)을 통해 혼재변수를 최소하 하게 된다.
- 혼재변수(confounding variable)란 표본의 나이, 성별, 동방질병(comorbidity), 흡연(smoking) 및 사회경제적 지위(socioeconomic status) 등, 결과에 영향을 줄수도 있는 변수를 의미한다. 의미있는 혼재변수는 다음과 같은 특징이 있다.
  - 결과의 독립변수(independent variable)와 관련이 있는 인자
  - 결과의 위험인자(risk factor)
- 위에 서술하였듯, 무작위 대조시험을 통해 혼재변수를 최소화 하게 된다.
실행편파(performance bias) - 두 그룹이, 연구를 위한 중재(intervention) 외에도 또 다른 중재를 받을 경우. 예를 들어, A라는 신약의 효과를 연구하기 위해 그룹1에는 약을 투여하고 그룹2에는 약을 투여하지 않는다고 가정하자. 하지만 만일 그룹1에 약을 투여할 뿐만이 아니라 상담 등의 심리치료까지 병행할 경우에 실형편파가 발생하게 된다. 이를 방지하기 위해 맹검(blinding)이 상당히 중요하다.
- 맹검(blinding)은 연구에 참여하는 환자나 의사 및 연구원이, 어떤 환자가 어떤 치료를 받고 있는지 모르게 하여, 실행편파를 제거하는 방법을 의미한다.
탐지편향(detection bias) - 이는 결과를 분석하는데 있어서, 일관되지 못하는 경우(inconsistency)를 의미한다. 이 역시 결과를 분석하는 연구원에게 맹검(blinding)을 시행해 편향을 배제할수 있다.
귀인편견(attention bias) - 이는 환자가 실험 도중에 빠진다던가 어떠한 이유로 인해 제외(exclusion)되어, 실험 결과이 영향을 끼치는 경우를 의미한다. 정확히 몇프로의 중퇴율(dropout rate)이 연구결과에 최소한의 영향을 끼치는지는 규정된 바가 없으나, 중퇴율을 최소화 할수록 연구결과의 신뢰도가 높아진다. 만일 환자가 중간에 빠질 경우, 치료의도분석(intent-to-treat analysis)을 통해 무작위의 무결성을 유지할수 있다.
- 치료의도 분석(intent-to-treat analysis)는 연구 중간에 빠진 환자들을 원래 배속되었던(initially assigned) 그룹에 포함시켜 분석하는 방법을 의미한다. 만일 중퇴한 환자를 연구 결과에서 아예 제외할 경우, 연구의 무작위성을 훼손할수 있기 때문이다.

위에 서술하였던 무작위 대조시험(randomized), 맹검(blinding) 및 치료의도분석(intent-to-treat analysis) 등을 통해 편견을 최소화 하는것이 연구결과의 신뢰도에 있어서 아주 중요한 부분을 차지하게 된다. 그 외에 할당 은폐(concealment of allocation)라는 방법 역시 시험의 신뢰성을 높이는데 있어서 아주 중요하다. 이는 실험에 참가하는 환자들이 자신이 어느 그룹에 속해있는지 알려주지 않음으로 해서 환자가 실험에서 가질수 있는 편견을 제거하는 방법이다.

분류

의학