-
알기 쉬운 통계학 (3) - 인과관계와 상관관계 사례카테고리 없음 2022. 2. 21. 16:51
이전 글에서 인과관계와 상관관계의 간단한 개념에 대해 살펴보았습니다.
간단한 사례도 포함시켜 말씀드렸지만 여기서는 조금 더 심화된 사례를 통해 인과관계와 상관관계의 차이점에 대해 살펴보도록 하겠습니다.
먼저 아래 그래프(산포도)를 보시겠습니다.
이전 포스트와 똑같은 그래프인데 이제는 가로축과 세로축 변수가 확정되어 나왔네요.
가로축변수가 아이스크림 판매량이고 세로축 변수는 익사사고 건수입니다.
두 변수간에 양의 관계가 보이고 있네요. 그런데 두 변수간에 인과관계가 있을까요 아니면 그냥 상관관계만 있는걸까요?
인과관계가 있다고 하면 아이스크림 판매량이 늘어나면 그것이 원인이 되어서 익사사고 건수를 늘려야 합니다.
이게 말이 되는걸까요?
아이스크림 판매량이 늘어나서 익사사고 건수가 늘어나는 인과적 관계가 어떤게 있을까요?
아이스크림을 많이 먹으면 몸무게가 늘어나서 물에 잘 빠져 죽는다?????? 언뜻 봐도 말이 안되죠....
정답은 이렇습니다.
사실 저 그래프에 보이는 데이터는 모아진 시점이 다릅니다. 다음 그래프를 보시죠.
그래프 왼쪽 아래부분 그러니까 아이스크림 판매량도 낮고 익사사고 건수도 적은 부분은 겨울에 모은 데이터이고 그래프 오른쪽 윗부분 즉 아이스크림 판매량이 높고 익사사고 건수도 높은 부분은 여름에 모은 데이터입니다.
어떤 결론이 나올지 대충 짐작이 되시나요? 계절이라는 숨겨진 변수가 등장한 것이죠.
여름엔 아이스크림도 많이 사먹고 수영장도 많이 가니까 두 수치가 동시에 올라간 것 뿐입니다.
즉 아이스크림판매량이 익사사고 건수를 '이끌어내는' 원인적인 관계는 전혀 없고 그냥 두 데이터만 양의 관계가 나온 것이죠.
결론적으로 아이스크림 판매량과 익사사고 건수와는 인과관계는 없고 상관관계만 있는 것입니다.
그리고 그 배후에는 '여름' 즉 계절이라는 숨겨진 변수가 있는데 이 숨겨진 변수를 제대로 이해 못하면 그래프만 보고 인과관계가 있는 것처럼 착각하기 쉽습니다.
이 관계는 매우 중요하게 다시 여러 곳에서 등장하는데요. 이 포스팅이 회귀분석까지 가면 그 때 또 다시 말씀드리도록 하겠습니다.