카테고리 없음

알기 쉬운 통계학 (2) - 인과관계와 상관관계의 다른 점

QCJ 2022. 2. 9. 21:56

여러분은 다음 그래프에서 어떤 관계가 보이시나요?

가로축은 var2, 즉 변수2라고 되어 있고 세로축은 var1, 즉 변수1이라고 되어 있네요.

 

두 변수 간에 양의 관계가 있는 것으로 보이시나요 아니면 음의 관계가 있는 것으로 보이시나요?

아니면 아무 관계도 없는 것으로 보이시나요?

 

그래프에서 명백히 보이다시피 두 변수간에는 양의 관계가 있는 것으로 보입니다.

 

그렇다면 이렇게 표현할 수 있겠네요.

 

"변수2가 낮은 수치이면 이에 대응하는 변수1도 낮은 수치를 가지는 경향을 보인다"

 

예를 들어 가로축이 '실제공부시간'이고 세로축이 '시험성적'이라고 해보겠습니다.

 

공부를 열심히 하면 좋은 성적이 나올 것이고 공부를 안 하면 나쁜 성적이 나올 것이기 때문에 위와 같은 그래프가 나오겠죠?

 

즉, 공부시간이 늘어나면(가로축 변수; 변수2) 그게 원인이 되어서 성적이 좋게 (세로축 변수; 변수1) 나오기 때문에

변수2와 변수1간에는 인과관계가 있다고 할 수 있는거죠.

 

또 다른 예를 들어보겠습니다.

 

술을 많이 마시면 그게 원인이 되어서 혈중 알코올농도가 증가하겠죠? 위와 같은 그래프 모양이 또 나올텐데요.

 

이런 것도 인과관계가 있다고 합니다.

 

그렇지만 위와 같은 그래프 모양이 나오더라도 변수간에 인과관계가 없는 경우가 있습니다. 

그냥 그래프 모양만 저런거죠.

 

즉 어느 변수가 원인이 되어서 다른 변수의 변화를 이끄는 내부적인 관계가 없이 그래프만 양의 관계가 나오는 경우가 있습니다.

 

이럴 때 두 변수간에는 인과관계가 있다고 하는게 아니라 '상관관계'가 있다고 합니다.

 

다음 글에서 인과관계가 있고 없는 경우에 대해 좀 더 살펴보겠습니다.

 

PS 그리고 위와 같은 그래프를 산포도 (scatterplot)라고 부릅니다.