MBTI를 신뢰할 수 있는가? (구성타당도, 내적타당도, 신뢰도)

저는 지금까지 MBTI가 꽤 신뢰할 만한 도구라고 믿었습니다. 그런데 타당도와 신뢰도를 배우고 나서, 그 믿음이 완전히 흔들렸습니다. 측정 도구 하나를 제대로 평가하려면 생각보다 훨씬 복잡한 기준이 필요하다는 걸, 그때 처음 실감했습니다. 아래 개념을 통해, MBTI라는 도구의 특성을 살펴보도록 합시다.

측정 도구가 정말 '그것'을 재고 있는가 — 구성타당도

심리학 연구에서 변인을 조작적으로 정의할 때, 연구자들이 가장 먼저 부딪히는 문제가 있습니다. 내가 측정하고 싶은 개념이 과연 내가 쓰는 도구로 제대로 측정되고 있는가, 하는 질문입니다.

이걸 구성타당도(Construct Validity)라고 부릅니다. 구성타당도란 측정 도구가 심리학적 구성개념, 즉 겉으로 직접 관찰하기 어려운 추상적 개념을 얼마나 잘 대표하는지를 나타내는 지표입니다. 예를 들어 IQ 검사가 '지능'이라는 개념을 얼마나 충실하게 반영하는지, 수능이 '수학 능력'을 얼마나 잘 측정하는지가 모두 구성타당도의 문제입니다.

수업 시간에 이 개념을 처음 들었을 때, 솔직히 이건 예상 밖이었습니다. 지능이라는 개념 자체가 학자마다 다르게 정의된다는 사실을 그때 처음 깨달았습니다. IQ는 지능을 측정하는 수백 가지 조작적 정의 중 하나일 뿐이고, IQ 점수가 높다고 해서 그 사람이 '지능이 높은 사람'이라고 단정 짓는 건 사실 굉장한 비약일 수 있습니다.

제가 이걸 와닿게 이해한 건 성적 부여 방식을 예로 들어 생각해봤을 때였습니다. 만약 키 순서대로 성적을 준다면 어떨까요? 키를 재는 건 매우 일관성 있게 할 수 있으니 신뢰도는 높겠지만, 그게 학업 이해도를 반영한다고 볼 수는 없으니 구성타당도는 사실상 0점입니다. 이 단순한 예시가 타당도와 신뢰도의 차이를 가장 직관적으로 보여준다고 지금도 생각합니다.

심리학적 구성개념(Conceptual Variable)을 측정 가능한 변인(Measurable Variable)으로 변환하는 과정을 조작적 정의라고 합니다. 조작적 정의란 추상적인 개념을 연구에서 실제로 사용할 수 있는 구체적 수치나 행동 지표로 바꾸는 작업입니다. 객관성이 확보되는 장점이 있지만, 원래 연구하고 싶었던 심리학적 핵심이 그 과정에서 사라져버리는 경우가 많습니다. 이게 심리과학이 안고 있는 본질적인 한계라고 저는 생각합니다.

결론이 진짜인지, 우연인지 — 통계적 타당도와 내적타당도

측정 도구가 제대로 된 개념을 잰다고 해도, 그걸로 내린 결론이 진짜인지 확인하는 과정이 또 있습니다.

통계적 타당도(Statistical Conclusion Validity)는 연구에서 도출된 결론이 우연에 의한 것이 아닌지를 판단하는 기준입니다. 심리학에서는 p값(p-value)이라는 확률 지표를 사용하는데, 일반적으로 p < 0.05일 때 통계적으로 유의미하다고 판단합니다. 이 기준은 연구자가 임의로 설정하는 것으로, 좀 더 엄격하게 보려면 0.01을 쓰기도 합니다.

동전을 던져서 앞면이 두 번 연속 나오면 우리는 보통 "당연한 거 아닌가"라고 생각합니다. 그런데 네다섯 번을 연속으로 앞면만 나오면 슬슬 "이거 조작된 거 아닌가"라는 의심이 들기 시작하죠. 통계적 유의성이라는 개념이 딱 그 감각입니다.

여기서 두 가지 오류가 생길 수 있습니다.

1종 오류(Type I Error): 통계적으로 유의미하다고 결론 내렸지만, 실제로는 우연히 발생한 사건일 때. 흔히 False Alarm이라고도 합니다.
2종 오류(Type II Error): 유의미하지 않다고 결론 내렸는데, 실제로는 중요한 차이나 상관관계가 존재할 때. Miss라고도 합니다.

이 두 오류의 가능성을 얼마나 잘 통제했는지가 통계적 타당도의 핵심입니다. 아무리 p값이 0.05 이하라도, 그게 절대적으로 옳다는 보장은 없습니다. 평생에 한 번 번개를 맞거나 로또에 당첨될 확률이 있듯이, 그 0.05짜리 사건이 실제로 일어날 수도 있기 때문입니다.

내적타당도(Internal Validity)는 또 다른 차원의 문제입니다. 내적타당도란 독립변인(IV)과 종속변인(DV) 사이의 관계가 혼입변인(Confounding Variable)에 의해 오염되지 않은 정도를 의미합니다. 쉽게 말해, 내가 실험에서 발견한 인과관계가 진짜 그 원인 때문인지, 아니면 몰래 숨어 있는 제3의 요인 때문인지를 묻는 개념입니다.

제가 배웠던 사례 중 가장 기억에 남는 건 담배와 조기 사망의 관계입니다. 직관적으로는 담배가 수명을 단축시킨다고 생각하기 쉽지만, 엄밀하게는 상관관계만 확인된 것이지 인과관계가 증명된 건 아닙니다. 스트레스 수준이나 생활 습관 같은 제3의 요인이 담배 흡연과 조기 사망 모두에 영향을 미치는 혼입변인일 수 있습니다. 이 혼입변인을 통제하지 않으면 내적타당도가 낮은 연구가 됩니다.

이를 방지하기 위해 이중 맹검법(Double Blind)이 사용됩니다. 이중 맹검법이란 피험자뿐만 아니라 실험자도 피험자가 어느 집단(실험군/대조군)에 속하는지 모르게 하는 설계 방식으로, 기대 효과나 실험자 효과가 결과에 개입하는 것을 막습니다(출처: APA).

MBTI는 왜 계속 쓰이는가 — 신뢰도와 타당도의 균형

구성타당도, 통계적 타당도, 내적타당도를 공부하고 나서 제가 다시 들여다본 건 MBTI였습니다.

MBTI는 신뢰도(Reliability) 측면에서도 문제가 있습니다. 신뢰도란 같은 조건에서 반복 측정했을 때 결과가 얼마나 일관되게 나오는지를 나타내는 지표입니다. MBTI는 수주 간격으로 재검사를 하면 결과가 바뀌는 경우가 적지 않습니다. 즉, 측정치가 안정적이지 않습니다.

타당도 측면에서도 마찬가지입니다. MBTI가 성격이라는 구성개념을 얼마나 잘 대표하는지에 대해 심리학계에서는 회의적인 시각이 많습니다. 그래서 학문적으로는 빅파이브(Big Five) 성격 모델을 훨씬 더 많이 씁니다. 빅파이브란 개방성, 성실성, 외향성, 친화성, 신경증의 다섯 가지 차원으로 성격을 측정하는 모델로, 검사-재검사 신뢰도와 예측 타당도 모두 MBTI보다 높습니다(출처: APA).

제 경험상, 이 부분이 가장 충격이었습니다. 성실성(Conscientiousness) 점수가 높은 사람이 결혼 생활의 만족도도 높다는 연구 결과가 있는데, 이런 예측 가능성이 타당도의 실질적인 증거입니다. 반면 MBTI로는 이런 수준의 예측력을 기대하기 어렵습니다.

외적타당도(External Validity) 문제도 빼놓을 수 없습니다. 외적타당도란 실험실에서 얻은 결과를 더 넓은 집단이나 환경에 일반화할 수 있는 정도를 말합니다. 심리학 연구의 상당수가 대학 신입생을 대상으로 이루어지는데, 이를 '프레시맨 심리학(Freshman Psychology)'이라고 비판적으로 부르기도 합니다. 20대 초반 대학생에게서 얻은 결과를 30대, 40대, 혹은 비서구권 문화에 적용하면 맞지 않는 경우가 많습니다. 제대로 된 외적타당도를 확보하려면 무선표집(Random Sampling), 즉 모집단에서 편향 없이 무작위로 표본을 뽑는 방식이 필요합니다.

어떤 연구도 구성타당도, 통계적 타당도, 내적타당도, 외적타당도, 그리고 신뢰도까지 동시에 완벽하게 만족시키기는 어렵습니다. 연구 설계마다 트레이드오프가 존재합니다. 심리학을 공부할수록 "이 연구가 뭘 증명했다"는 말보다, "이 연구는 어떤 조건에서 어느 정도까지 유효하다"는 표현이 훨씬 정직하다는 생각이 강해집니다. 측정 도구 하나를 고를 때도, MBTI처럼 익숙한 것이 아니라 신뢰도와 타당도를 함께 따져보는 습관이 중요합니다. 심리학적 결론을 접할 때 p값 하나만 보는 게 아니라, 그 결론이 어떤 방식으로 도출됐는지를 함께 들여다보는 것이 좋은 출발점이 될 것입니다.

참고: https://www.canyons.edu/_resources/documents/academics/onlineeducation/Psych126TextbookFinalV1_2.pdf

통닥터의 심리과학

MBTI를 신뢰할 수 있는가? (구성타당도, 내적타당도, 신뢰도)

측정 도구가 정말 '그것'을 재고 있는가 — 구성타당도

결론이 진짜인지, 우연인지 — 통계적 타당도와 내적타당도

MBTI는 왜 계속 쓰이는가 — 신뢰도와 타당도의 균형

티스토리툴바