동영상

통계에 대한 흔한 오류를 알아보자

KISTI 과학향기 제1739호   2018년 07월 02일
자막
통계에 대한 가장 흔한 오류는 상관관계가 인과관계를 의미한다는 것입니다. 예를 들면 키 큰 사람들이 고양이를 가지고 있으면, 키가 크면 고양이를 갖고 싶어진다는 것이죠.

그러나, 단순히 키와 고양이의 소유권이 상관관계에 있다는 것은 인과 관계의 방향을 말해 줄 수 없습니다 - 반대로 고양이를 가지고 있으면 키가 더 클 수 있습니다. 아니면 실제 이유는 제 3의 원인일 수도 있습니다.

예를 들면 사람과 고양이는 두 개의 떨어진 섬에 살고 있고, 한 섬은 키가 커지고 고양이를 키우기에 충분한 음식이 있고, 다른 하나는 황무지라서 키와 고양이 소유권 모두에 제한을 주는 경우 말이죠.

이와 같은 예제의 요점은 두 가지 사이의 상관 관계는 그중 하나가 다른 하나의 인과라는 것을 의미하지 않는다는 겁니다. 따라서 일반적인 결론 : 상관관계는 인과관계를 의미하지 않는다. 그리고 사실이죠 - 의미하지 않습니다!

그러나 이 자주 반복되는 "만트라"는 또 다른 흔한 오해를 불러 일으킵니다. - 당신이 통계에서 아무런 인과관계를 추측할 수 없다는 겁니다. 제가 의미하는 건, 만약 2개가 서로 연관이 있다면, 뭔가 이유가 있다고 생각하는 게 합리적이라는 겁니다.

단지 하나의 상관관계로 이유를 알 수 없어도요. 때로는 추가적인 정보로 인과 관계를 추측할 수 있습니다. 예를 들면 하나가 다른 것에 선행한다는 것이죠. 하지만 당신은 상관관계로부터 바로 인과관계를 추측할 수 있습니다.

단지 하나보다는 더 많이 필요하고, "인과적 네트워크"라는 것이 필요합니다. 우리의 고양이-키-섬 예제에서는, 우리는 키와 고양이 소유권이 상관관계가 있다는 것을 알고 있습니다/
그러나 그 상관관계의 원인이 모릅니다.

우리가 추가로 다른 것을 모른다면 이 원인을 설명할 19개의 -네 19개! - 다른 인과관계가 있습니다. 상관관계가 전부 우연이라고 하면 20개가 됩니다. 그래서 상관관계가 아직은 인과관계를 의미하지 않습니다.

그러나 아마도 우리는 두 가지를 추가로 알 수 있습니다. 첫 번째로, 사람이 섬을 옮기지 않는다고 가정하죠. 그러면 그들의 키가 섬에 영향을 주지 않습니다. 그러면 키가 영향을 주는 관계들을 배제할 수 있죠.

둘째, 어느 섬에서든, 그 자체로는 키와 고양이 소유권에 인과가 없다고 가정하죠. 그러면 우리는 키와 고양이 소유권이 직접 관계가 있는 경우들을 배제할 수 있습니다. 이제 우리는 두 옵션만이 남았습니다.

1. 섬이 키와 고양이 소유권 둘 다의 원인인 경우
(예를 들면 한쪽이 사람과 고양이 모두에게 풍요로운 낙원인 경우)
2. 고양이 소유권이 섬의 원인이고, 섬이 키의 원인인 경우
(예를 들면 많은 고양이가 섬을 낙원으로 만들고 키에 영향을 주는 경우)

그래서 19개의 인과 관계들에서, 우리는 상관관계를 이용하여 2가지 경우로 줄였습니다 – 괜찮죠! 우리가 사람과 고양이가 섬에 도착한 시기를 안다면, 우린 한 가지로 결정지을 수 있을 겁니다.

물론 이건 단지 간단한 예일뿐입니다. 그러나 어떠한 그룹이라도, 여러분은 다양한 상관관계 여부를 몇몇 인과관계 선택지를 없애는 데 이용할 수 있습니다. 이것이 상관 관계가 인과 관계를 함축하는 방
기사
통계에 대한 가장 흔한 오류는 상관관계가 인과관계를 의미한다는 것입니다. 예를 들면 키 큰 사람들이 고양이를 가지고 있으면, 키가 크면 고양이를 갖고 싶어진다는 것이죠.

그러나, 단순히 키와 고양이의 소유권이 상관관계에 있다는 것은 인과 관계의 방향을 말해 줄 수 없습니다 - 반대로 고양이를 가지고 있으면 키가 더 클 수 있습니다. 아니면 실제 이유는 제 3의 원인일 수도 있습니다.

예를 들면 사람과 고양이는 두 개의 떨어진 섬에 살고 있고, 한 섬은 키가 커지고 고양이를 키우기에 충분한 음식이 있고, 다른 하나는 황무지라서 키와 고양이 소유권 모두에 제한을 주는 경우 말이죠.

이와 같은 예제의 요점은 두 가지 사이의 상관 관계는 그중 하나가 다른 하나의 인과라는 것을 의미하지 않는다는 겁니다. 따라서 일반적인 결론 : 상관관계는 인과관계를 의미하지 않는다. 그리고 사실이죠 - 의미하지 않습니다!

그러나 이 자주 반복되는 "만트라"는 또 다른 흔한 오해를 불러 일으킵니다. - 당신이 통계에서 아무런 인과관계를 추측할 수 없다는 겁니다. 제가 의미하는 건, 만약 2개가 서로 연관이 있다면, 뭔가 이유가 있다고 생각하는 게 합리적이라는 겁니다.

단지 하나의 상관관계로 이유를 알 수 없어도요. 때로는 추가적인 정보로 인과 관계를 추측할 수 있습니다. 예를 들면 하나가 다른 것에 선행한다는 것이죠. 하지만 당신은 상관관계로부터 바로 인과관계를 추측할 수 있습니다.

단지 하나보다는 더 많이 필요하고, "인과적 네트워크"라는 것이 필요합니다. 우리의 고양이-키-섬 예제에서는, 우리는 키와 고양이 소유권이 상관관계가 있다는 것을 알고 있습니다/
그러나 그 상관관계의 원인이 모릅니다.

우리가 추가로 다른 것을 모른다면 이 원인을 설명할 19개의 -네 19개! - 다른 인과관계가 있습니다. 상관관계가 전부 우연이라고 하면 20개가 됩니다. 그래서 상관관계가 아직은 인과관계를 의미하지 않습니다.

그러나 아마도 우리는 두 가지를 추가로 알 수 있습니다. 첫 번째로, 사람이 섬을 옮기지 않는다고 가정하죠. 그러면 그들의 키가 섬에 영향을 주지 않습니다. 그러면 키가 영향을 주는 관계들을 배제할 수 있죠.

둘째, 어느 섬에서든, 그 자체로는 키와 고양이 소유권에 인과가 없다고 가정하죠. 그러면 우리는 키와 고양이 소유권이 직접 관계가 있는 경우들을 배제할 수 있습니다. 이제 우리는 두 옵션만이 남았습니다.

1. 섬이 키와 고양이 소유권 둘 다의 원인인 경우
(예를 들면 한쪽이 사람과 고양이 모두에게 풍요로운 낙원인 경우)
2. 고양이 소유권이 섬의 원인이고, 섬이 키의 원인인 경우
(예를 들면 많은 고양이가 섬을 낙원으로 만들고 키에 영향을 주는 경우)

그래서 19개의 인과 관계들에서, 우리는 상관관계를 이용하여 2가지 경우로 줄였습니다 – 괜찮죠! 우리가 사람과 고양이가 섬에 도착한 시기를 안다면, 우린 한 가지로 결정지을 수 있을 겁니다.

물론 이건 단지 간단한 예일뿐입니다. 그러나 어떠한 그룹이라도, 여러분은 다양한 상관관계 여부를 몇몇 인과관계 선택지를 없애는 데 이용할 수 있습니다. 이것이 상관 관계가 인과 관계를 함축하는 방
번역자: 1 Return
영상: minutephysics
출처: https://www.youtube.com/watch?v=HUti6vGctQM
평가하기
퐁풍
  • 평점   별 5점

정리하자면 상관관계가 반드시 인과관계를 말하진 않지만, 인과관계를 추측하는데 사용할 수 있다. 양자역학을 제외하고. 네요. 제목이 통계에 대한 오류라는 걸 봐선 상관관계가 인과관계를 알려주지는 않는다 가 결론인 거 같은데...

2018-07-03

답글 0

불체자
  • 평점   별 1점

저도 당최 무슨 말인지 모르겠네요.

2018-07-02

답글 0

신들의황혼
  • 평점   별 1점

무슨 말인지 도무지 알 수가 없네요

2018-07-02

답글 0

메일링 구독신청하기