Tech이야기~!
welcom 자세히보기

Data Science

심슨의 역설 Simpson's paradox

Enhold 2020. 5. 27. 15:29

Simpson's paradox

심슨의 역설로 유명한 영국 통계학자 에드워드 심슨(1922~)



심슨의 패러독스는 여러 부분 그룹의 자료를 합했을 때의 결과와 각각 부분그룹의 결과가 다른 때를 말한다. 부분을 단순히 합쳤는데 그 결과가 부분의 결과와 달라지는 결과가 발생하는 것은 일반적인 상식으로는 쉽게 이해가 되지 않으므로 Paradox라 한다.

 

 

각 부분에 대한 평균이 크다고 해서 전체에 대한 평균까지 크지는 않다는 의미이다. 영국의 통계학자 에드워드 심슨이 정리한 역설로(심프슨의 역설이라고도 한다) 각각의 변수에 신경 쓰지 않고 전체 통계 결과를 유추하다 일어나는 오류이다.

 

전체

  지원자 합격자 합격률
남학생 1,000명 730명 73%
여학생 1,000명 270명 27%

남학생, 여학생 모두 1,000명씩 지원을 했는데 남학생은 73%나 합격하고 여학생은 27% 밖에 합격하지 못했습니다. 음.. K대학교는 남학생에게 특혜를 주는 것 같습니다. 보다 자세한 조사를 위해 각 학과 별로 통계치를 냈습니다.

전산학과

  지원자 합격자 합격률
남학생 900명 720명 80%
여학생 200명 180명 90%

전산학과 합격률을 봅시다. 남학생 합격률은 80%이고 여학생 합격률은 90%입니다. 전산학과의 경우 여학생의 합격률이 더 높습니다. 그럼 산업디자인학과의 합격률을 한번 봅시다.

산업디자인학과

  지원자 합격자 합격률
남학생 100명 10명 10%
여학생 800명 90명 11.25%

음? 뭔가 이상합니다. 산업디자인학과 역시 여학생의 합격률이 더 높습니다. 전산학과, 산업디자인학과 모두 여학생의 합격률이 높은데 전체를 합쳐보면 남학생의 합격률이 더 높습니다. 

이것이 바로 심슨의 역설입니다. 평균에 대한 착각을 불러일으키는 상황이죠. 학과별 합격률을 보시면 전산학과는 80~90% 대로 높고, 산업디자인학과는 10%대로 낮습니다. 합격률이 낮은 산업디자인학과로 여학생 지원자가 몰리면서 전체 합격률이 낮아진 것입니다.