
미국 3141개 카운티 중 신장암 발생률은 인구밀도가 낮고, 전통적으로 공화당 지지세가 강한 시골 지역이 가장 낮다는 연구 결과가 있다. 이런 뉴스를 접하면 대부분 사람은조용한 시골 마을의 좋은 공기와 신선한 채소 그리고 스트레스가 없을 것 같은 삶에서 낮은 발병률의 인과 관계를 떠올릴 것이다. 그런데 아이러니하게도 신장암 발생률이 가장 높은 카운티도 인구밀도가 낮고, 공화당을 지지하는 사람이 대부분인 시골이라는 연구 결과도 있다. 이 경우에는 아무래도 시골지역이 의료 시설이 낙후돼 있고, 대도시에 비해 상대적으로 위생 상태가 좋지 않아서 암 환자가 많은 것이 아닐까라고 생각하게 될 것이다.
시골 지역의 암 발생률이 낮은 이유를 논리적으로 설명할 수 있다면, 반대로 비슷한 지역의 높은 발병률을 어떻게 합리화할 수 있을까. 이렇게 모순적인 연구 결과는 어떻게 나온 것일까. 한쪽의 연구가 잘못된 것일까.

항아리에 빨간색 구슬과 흰색 구슬이 같은 개수로 수백 개 들어 있다. 갑과 을이 눈을 감고 번갈아 항아리에서 구슬을 꺼낸다. 갑은 한 번에 열 개를, 을은 두 개를 꺼낸다면, 누가 더 자주 빨간색만을 꺼내게 될까. 답은 명확하다. 한 번에 모두 빨간색을 열 개 꺼내는 것보다 두 개를 꺼낼 확률이 훨씬 더 높기 때문에 당연히 을이 정답이다.
이렇게 표본 크기가 너무 작으면 모집단을 대표하지 못하고 극단적 결과를 보이는 경향이 커진다. 을은 매우 자주 빨간색이나 흰색만을 꺼낼 가능성이 크기 때문에, 실제 항아리 속 구슬은 흰색과 빨간색 비율이 50 대 50이지만, 한 가지 색깔만 들어있다고 잘못 판단하게 된다. 반면, 갑은 더 많은 구슬을 꺼내기 때문에, 을과 같이 지나치게 편향된 결과가 나타나지 않는다. 결국 작은 샘플에 의한판단은 결과를 과장하게 하거나 과소평가하게 한다.
인구가 적은 시골 마을의 신장암 발생률도 마찬가지다. 미국 전체 카운티의 암 발생률 순위를 매겨 보면, 상위권에 인구밀도가 낮은 카운티 비율이 상대적으로 많게 된다. 또한 하위권에도 인구가 적은 지역이 많이 포진할 수밖에 없는 것이다. 사람이 적은 카운티가 평균에 비해 아주 높거나 낮은 극단화 현상을 보이기 때문이다. 을이 모두 같은 색을 뽑을 가능성이 큰 것처럼 인구가 적은 카운티는 전국 평균에 비해 극단적인 암 발생률을 나타내는 것이다. 이는 통계적 사실이다. 시골이라는 환경 특성 자체가 암 발생률을 높이거나 낮추는 요인으로 작용하는 건 아니라는 뜻이다.
통계의 함정에 빠뜨리는 인지 착각 중 ‘소수 법칙’이 있다. 소수 법칙은 작은 표본이 큰 표본보다 더 자주 극단적인 결과를 보이는 현상을 말한다. 미국 빌&멀린다 게이츠 재단의 ‘작은 학교 개혁 운동’이 좋은 사례다. 규모가 작은 학교가 평균적으로 규모가 큰 학교보다 학업 성과가 더 좋다는 통계 분석에 따라 시작된 거대 프로젝트로, 학교를 작게 쪼개는 작업에 엄청난 자원을 투입했다. 그러나 미국 스탠퍼드대 경제학자 에릭 하누셰크는 ‘학급·학교 규모가 작은 것이 학생의 학업 성과 향상에 기여하는 바가 크지 않다’는 연구 결과를 발표했다. 계속된 연구에서도 작은 학교가 좋은 성과를 낸다는 결과는 나타나지 않았고, 1조원 이상이 투입된 이 프로젝트는 처참한 실패로 끝났다. ‘작은 학교의 학업 성취도가 높다’고 확신하려면, 큰 학교 중에는 학업 성취도가 높은 곳이 없어야 하고, 작은 학교 중에는 학업 성취도가 낮은 곳이 없어야 한다. 그러나 학업 성취도가 낮은학교에 작은 학교도 상당수 포함됐다. 신장암 발병률과 마찬가지로, 소수 표본이 극단적인 쏠림 현상을 발생시킨 것이다.
그러나 사람은 쉽게 소수 법칙에 휘둘린다. 직관이 인과관계의 스토리를 만들어 서사 오류에 빠지게 하기 때문이다. 작은 학교의 높은 대학 진학률을 보면, 무의식적으로 ‘학생 수가 적으니, 교사가 더 세심하게 살폈을 것’이라고 결론을 내리는 식이다. 적은 샘플로 모집단의 특성을 쉽게 단정하면 안 되는 이유다.