새빨간 거짓말 통계

작성자 성장디렉터 GD
출간일 2006-03-22

1장 언제나 의심스러운 여론조사

1장에서는 예일대 졸업생들의 연평균 소득 사례를 들어 통계의 왜곡과 가능성에 대해 설명한다.

예일대 1924년 졸업생 연간 평균소득은 25,111달러이다' 라는 <뉴욕 선 New York Sun>지에 실린 기사를 인용한 것인데 여기에는 다음과 같은 맹점이 있다.

첫째 표본추출의 맹점인데 이는 주소가 파악된 졸업생 중 질문지에 회답한 사람들은 1924년 졸업생 중 주소를 찾을 수 있고(비교적 저명한 사람), 연소득이 얼마인지 기꺼이 말할 수 있는 그룹의 소득이지 진정한 대표성을 가지지는 않는다는 사실이 간과되어 있다.

두번째는 기본적으로 답변이 거짓말일 수도 있다(소득을 과장할 가능성)는 한계점이다. 자료를 통계적 조작에 의해 몇 번이고 걸러서 그 결과가 소수점이 붙은 평균값으로 바뀔 때쯤 되면, 그 결과가 본래의 데이터와는 전혀 다름에도 불구하고 이상하게 맹목적인 신뢰감마저 들기 시작한다.

표본 왜곡의 원인이 무엇인지 명확히 밝힐 수 없는 경우에도 어디에선가 왜곡될 가능성이 있다면 얻어진 결과에 대해 어느 정도의 의심을 품어 보아야 한다는 것이다. 표본은 모집단으로부터 순전히 우연에 의해 추출되어야 한다. 즉 모집단 안에 있는 개체들이 표본에 선택될 기회가 동일한가라는 질문을 해봐야 한다.

 

2장 평균은 하나가 아니다

2장에서는 우리가 개념적으로 알고 있는 평균값을 여러가지 측면에 대해서 설명한다. 평균값이라 하더라도 그것이 어떤 종류의 평균값인지 즉 산술평균값인지, 중앙값인지, 아니면 최빈값인지 이 중 어느 것을 말하는지 정확하게 알기 전에는 그 어떤 평균도 아무런 의미가 없다. 그러면서 다음 예시를 통해 여러 평균값을 구하는 예시를 제시한다.

- 산술평균값 = (10+8+8+5+5+5+5+4+4+2)/10 = 56/10 = 5.6

- 중앙값 = 크기순서대로 나열하여 한가운데에 있는 값으로 5

- 최빈값 = 가장 많이 등장하는 값으로 5

만일 당신이 평균급여라는 이름의 수치를 보았다면 항상 이런 질문부터 해야 한다.

"어떤 종류의 평균값이오? 그 평균값을 계산할 때 누구까지 포함했나요?" 즉 회사 사장님이나 임원들이 종업원 전체의 평균 급여가 얼마라고 발표할 때 그 값에 커다란 의미를 부여할 수도 있지만 전혀 그렇지 않을 수도 있는 것도 같은 이치다. 만약 급여 평균값이 중앙값이라면 종업원의 절반은 그보다 높은 급여를 받고 나머지 절반의 급여는 그보다 낮다는 뜻이다. 그러나 만일 그것이 산술평균값이라면 그 값은 사장님의 급여 18백만원과 그보다 적은 종업원들의 급여들을 합한 평균값일 뿐이라는 것 외에는 아무것도 알 수 없는 갑이다. 따라서 '연간 평균 급여 1368만원'이라고 할 때 이 숫자는 엄청나게 높은 금액의 사장님 급여와 480만원이라는 종업원 급여 어느 쪽도 해당되지 않는 터무니없이 황당한 수치이다.

3장 작은 숫자를 생략하여 사기치는 법

3장에서는 적은 인원수의 표본을 쓰는 이유, 표본의 크기에 따라 달라지는 값의 사례 등을 통해 통계를 이용하여 대중을 속이는 사례를 이야기한다. '도크스 회사의 치약으로 23% 충치 감소' - 이 광고의 가장 커다란 속임수는 통계적으로 불충분한 표본을 채택했다는 점이다. 도크스 회사의 목적에 꼭 들어맞았기 때문이다. 제목 밑에 자그마한 글씨로 쓰인 설명문을 읽어 내려가면 금방 알 수 있는데, 이 결과는 단 열두 명을 대상으로 실험한 결과에 지나지 않는다.

동전던지기를 또 다른 예로 들어보자. 열 번 던졌더니 앞면 8. 앞면이 나올 확률 80% 바로 입증한 셈이다. 치약통계도 그랬던 것이다! 충분히 많이 던져보면 거의 반반이 되는 것과 시행횟수가 충분히 커야만 여러 현상을 제대로 설명하거나 쓸모 있는 예측을 할 수 있음을 강조한다.

4장 쓸데없는 숫자로 벌어지는 헛소동

이번장은 우리가 한번쯤은 해 보았을 지능(IQ)검사의 유효성에 의문으로 시작한다. 지능검사가 측정하는 것이 무엇이든 간에 그것은 우리가 보통 지능이라고 말하는 것과는 전혀 다른 것이다. IQ 검사가 의도하고 있는 것은 한 개인이 가지고 있는 지성에 대한 표본을 추출하는 것이다. 그렇다면 다른 모든 표본추출에서와 마찬가지로 IQ 점수 역시 확률적 오차를 포함하는 숫자이므로 그에 대한 정확성 또는 신뢰성을 알려주어야만 한다. IQ나 기타의 여러 표본추출에서 얻은 결과를 언급할 때는 얻은 결과 외에 그 범위에 대해서도 언급해야 유용한 자료가 된다.

5장 사람 눈을 속이는 그래프

5장은 그래프의 밑둥을 잘라내거나, 작은 것을 크게 하기, 절단된 막대그래프 방법 등을 이용해 사람의 눈을 속이는 그래프를 설명한다. 약간의 증가가 시각적으로는 충분히 엄청난 증가로 보일 수 있다. 10%라는 작은 증가를 100%의 증가에 필적할 만큼 쇼킹한 인상을 줄 수 있도록 하려면 그저 가로축과 세로축의 눈금 간격만 바꾸면 된다.

6장 백문이 불여일견이라고? 천만에

6장은 앞 장의 그래프 사례와 함께 막대그래프도 모자라 도표에서 사물을 크기를 변화시켜 시각을 자극하는 그림도표의 사례와 과장된 도표들을 보여주며 숫자에서 제공하는 객관적인 정보와 상관없이 그림이나 도표의 주관적인 이미지에 왜곡된 정보를 해석하는 사례를 보여준다.

7장 아전인수를 위한 마구잡이 통계

이번장은 무엇인가 증명하고 싶어도 증명할 수가 없는 경우 다른 엉뚱한 것을 하나 끄집어내어 증명한 다음 마치 그 두 사실이 같은 것처럼 슬쩍 넘어가는 경우를 설명한다.

예를 들어 당신이 심혈을 기울여 개발한 약이 감기 치료약으로 효용있음을 증명할 수 없다 하더라도 (이와 전혀 상관없는 주제인) 10g의 약만 있으면 실험관 내에 들어 있는 세균을 11초만에 31,108개나 죽일 수 있다는 확실한 실험실의 연구보고를 대문짝만한 활자로 발표할 수는 있다. 단 이런 일을 하기에 앞서 반드시 유명하거나 권위 있는 연구소를 섭외해야 한다. 보고서는 전문을 게재하는 것이 좋고 보고서 옆에는 의사처럼 보이는 하얀 가운을 입은 모델 사진을 같이 올려놓으면 더 효과적이다.

그리고 어떤 숫자이건 간에 그것을 표현하는 방법은 여러가지가 있다. 똑같은 사업실적이라도 이를 매출실적의 1% 이익이라든가, 투자액의 15% 이익, 또는 1천만 달러의 이윤이라든가, 40%의 이익신장률, 또는 전년도 대비 이익의 60% 감소라든지 여러가지 방식으로 얼마든지 표현할 수가 있다. 이 많은 표현방법 중에서 정보제공자는 원하는 목적에 가장 알맞은 것을 골라 쓰면 되는 것이다.

8장 통계도 논리이다

연구결과의 오류는 옛날부터 내려오는 전통적인 오류로, 통계자료 속에서 어떤 경향이 갑자기 두드러지게 나타나는 것을 말하는데 그럴듯한 숫자로 모양을 바꿔 등장시키는 수법이다.

BA가 발생한 후에 일어난 것이니 AB의 원인이라고 결론을 내리는 오류이다. 흡연과 성적불량이 동시에 발견되므로 흡연이 성적불량의 원인이라는 부당한 엉터리 가정을 했던 것이다.

전후관계와 인과관계를 혼동하는 오류를 범하지 않도록 그리고 또 사실이 아닌 여러 현상을 사실이라고 믿는 일이 없도록 하기 위해 상관관계에 관해 언급할 때는 각별한 주의를 기울여야 한다.

누군가가 상관관계가 있다고 야단법석을 떨면 무엇보다도 먼저 그 상관관계가 사건의 경과나 시대적인 경향에 의해서 생겨난 종류의 것이 아닌가를 조사할 필요가 있다.

9장 통계를 조작하는 법

통계자료의 왜곡과 조작이 언제나 전문 통계학자들의 손으로 이루어지는 것은 아니다. 통계학자의 책상 위에서 도출되는 순진한 숫자들이 영업사원이나 광고전문가, 언론의 기자들 또는 카피라이터들에 의해서 왜곡되고, 과장되고, 극단적으로 생략되며 임의로 선택되기 때문이다.

통계적 데이터를 가장 교활하게 잘못 나타내는 방법 중의 하나로 지도를 이용하는 방법이 있다. 지도는 사실을 감추어 둔 채 여러 관계들을 일그러지게 만들어지는 사례를 소개한다.

또다른 조작의 예는 쓸데없이 정확한 숫자를 나열해 그럴듯하게 보이는 느낌만을 주는 숫자들로 이는 신뢰할 수 없는 통계숫자로 이어지는데, 그 대표적인 예로 소수가 있다. 칼 마르크스의 잉여가치율 계산이 6.06시간의 소수자리인 0.06시간이란 숫자는 꽤 정확한 느낌을 주고 있지만 사실은 야바위꾼의 속임수 (놀라울 정도의 많은 가정과 추측, 어림수 사용)와 같은 것이다.

10장 통계의 속임수를 피하는 다섯 가지 열쇠

마지막장은 다음의 5가지 팁을 통해 앞장들에서 설명했던 통계와 숫자의 함정에서 오류를 피할 수 있는 5가지 방법을 제시한다.

1. 누가 발표했는가? 출처를 캐 봐야 한다

2. 어떤 방법으로 알게 되었는지 조사방법에 주의해야 한다

3. 빠진 데이터는 없는지 숨겨진 자료를 찾아보아야 한다

4. 내용이 뒤바뀐 것은 아닐지 쟁점 바꿔치기에 주의해야 한다

5. 상식적으로 말이 되는 이야기인가 살펴봐야 한다. 석연치 않은 부분은 조사해라.

어떠한가!! 수와 수학이 좋은 이유는 1+1=2라는 논쟁이 필요 없는 명확성과 논리가 있기 때문이다. 그런데 이 숫자가 통계라는 그릇에 담길 때 이는 수많은 의도와 '결과를 만들기 위한' 도구로 이용될 수 있다는 것을 충분히 느끼게 하는 훌륭한 지침서라 할 수 있다

통계 거짓말

@Copyrights EXA, Powered By IBK System.