통계는 항상 나의 로망이다. 저자는 통계의 유익함을 여러 가지 면에서 설파하고 있다. 일단 정보의 홍수 속에서 우리가 통계적 사고를 제대로 할 수 있다면 적시에 좋은 판단을 할 수가 있다는 점을 저자는 강조하고 있다. 이 부분에 대해서 완전히 공감하는 바이다. 통계 자료의 수집, 분석방법을 알고 나서 다양한 관계에 대한 이해도를 높인다면 우리는 자신의 예측능력을 조금은 과시할 수 있게 될 것이다.
Ⅰ. 데이터 수집의 중요성
통계에서는 대수의 법칙이 있다. 대수의 법칙은 “우리가 웬만큼만 조사를 하면, 전체 대상의 수에 관계없이 전체대상에 대해 충분히 우수한 예측이 가능하다”는 것이다. 이것이 표본조사를 의미하는 것인데, 1936년 미국 대통령 선거의 사례가 흥미롭다. 당시 공화당의 랜던 후보와 민주당의 루스벨트 후보의 대결에서 모든 여론조사 기관들은 루즈벨트의 승리를 점치고 있었다. 하지만 <리터러리 다이제스트>라는 잡지사가 1천만 명의 유권자에게 설문지를 우송한 뒤 약 240만 명에게 응답을 회수했는데, 랜던 후보가 57%의 지지율로 승리할 것이라는 결론을 내렸다. 그러나 실제 결과는 민주당의 루즈벨트 후보가 압도적인 승리를 거두었다.
당시 다이제스트는 1천만 명을 선정하기 위해 정기구독자, 자동차 등록부, 대학동창회 등을 활용했다고 한다. 이들의 공통점은 당시 기준으로 부유층에 해당했다. 1936년은 미국 대공황의 여파로 경제 불황이 심해 민주당은 세금을 많이 걷고자하는 정책을 주장해 부유층으로부터 외면당하는 분위기였다. 따라서 다이제스트가 선정한 1천만 명에게는 루즈벨트의 당선이 불편하게 느껴질 수밖에 없었다. 다이제스트는 당시 설문조사로 인해 폐간에 이르렀다고 한다. 대표성이 없는 표본은 그 크기가 아무리 크더라도 모집단의 특성을 올바르게 예측할 수 없다.
조사 대상을 선정하기 위해서는 반드시 사전정보 파악이 필요하다. 그렇지 않으면 매번 조사를 실시할 때마다 편차가 큰 결과를 얻을 확률이 매우 높다. 통상 우리는 주위의 아는 사람 또는 아는 사람의 사례로 정보를 얻는 경우가 많다. 그렇기 때문에 우리는 흔히 일반화의 오류를 범하게 되는 것이다. 예를 들어서 은행은 업무 특성상 급여일, 세금 납부일, 월말 등이 대체로 바쁜 시기인데, 이에 따른 고객만족도를 조사하려고 한다. 이런 조사는 응답자도 조사자도 여유가 있는 시간에 행해지는 경우가 많을 것이다. 그렇다면 설문결과는 업무지연에 별 차이가 없다는 결과가 나올 확률이 높다. 오히려 원래 바쁜 시간대와 특정 혼잡일의 바쁜 시간대의 만족도를 비교하는 것이 더 유의미한 정보를 줄 수 있지 않을까? 아니면 시간대와 날짜별로 구분하여 설문을 실시하는 등 기획 단계부터 명확한 기준을 정해야만 한다. 침묵하는 다수의 의견까지 포함하기 위해 전체를 대표하는 표본을 올바르게 선정하는 것이 중요하다.
Ⅱ. 다양성의 통찰
우리는 수치를 해석할 때 다양한 값들을 사용하게 되는데, 어린 시절 학교에서 배웠던 평균에 집착하는 경우가 매우 많다. 실제로 평균 이외에도 중간값, 최빈도값, 최대값, 최소값 등 다양한 분석자료들이 존재한다. 각각이 의미하는 바가 다르고, 또 상황에 따라서 의미를 갖는 경우도 달라지게 된다. 예를 들어서 최근 태풍이 부산에 왔을 때 방파제 높이를 낮추어서 해운대 아파트들이 큰 피해를 입었다고 한다. 이때는 태풍이 오는 경우 파도의 최대값과 평균값이 있을 것이다. 단 한번의 큰 파도만으로도 피해의 규모가 크다는 점을 감안하면 방파제의 높이를 결정하게 되면 최대값을 반드시 고려했어야만 한다. 평균값을 쓰기 위해서는 평균값, 최빈도값, 중간값의 편차가 작아야 한다는 점을 기억하자. 평균은 특별한 지식이 없어도 계산하기 매우 쉽고 유용한 방법이지만, 잘못 사용되면 사실과 전혀 다른 의미를 전달하게 된다.
통계적으로 주어진 정보들을 잘 활용하기 위해서는 세분화 작업이 중요하다. 마케팅에서도 고객을 세분화하여 대응 하는 것이 기본이다. 우리가 정보를 세분화 하는 순간 기존에는 보이지 않던 의미들을 발견할 수 있게 된다. 예를 들어서 언론에서는 금융권이 고연봉이라는 점과 은행별 평균급여를 비교하는 자료를 수시로 공개하고 있다. 그런데 이게 단순히 평균급여로만 분석하면 상당히 왜곡되는 해석을 할 수 있게 된다. 예를 들어서 각 조직의 연령, 성별, 근속연수, 정규직비율, 급여제도 등에 따라서 평균급여는 매우 달라질 수 있다. 따라서 이런 기준들로 평균급여를 세분화 하게 되면 실제로 우리가 궁금해 하는 점들에 대해서 올바른 정보를 얻을 수 있게 되는 것이다. 우리가 통계라는 자료를 활용하고 분석하면서 기억해야 할 부분이 있다. 통계는 팩트 즉, 사실을 우리에게 제공한다는 점이다. 다만 우리가 통계적 지식이 부족하기 때문에 사실과 전혀 다른 판단 값을 제시하게 되는 것이다.
Ⅲ. 비교 그리고 관계
우리가 어떤 상황에 대한 해석을 내릴 때는 대조군을 활용하는 방법이 매우 유용하다. 예를 들어서 특정 교육을 실시한 사람의 실력이 실제로 향상되었는가를 판단하려면, 해당교육을 받은 사람과 그렇지 않은 사람들의 실력 변화를 대조해보면 되는 것이다. 이렇듯이 인과관계를 분석하는 것이야말로 통계의 묘미라고 할 수 있다. 그런데 여기에는 각 변수들의 관계가 실제로 어느 정도 수준의 상관성이 있는지를 이해해야만 한다. 예를 들어서 앞서 표현한 것처럼 최근 업무 실력이 향상한 A 계장이 최근 교육연수를 받았다고 하자. 그러면 이는 연수를 통해 실력이 향상되었다고 할 수 있을까? 현재로서는 연수를 받았기 때문에 실력이 향상되었다고 단정 지을 수는 없다.
또한 물이 100도씨가 되어야만 끓는 것처럼 평소 99도까지 온도가 상승되듯이 노력을 한 경우에 연수는 1도씨의 온도 상승효과를 유발한 것일 수도 있다. 이를 임계점이라고 하는데, 특정 시점을 전후하여 효과가 급격히 달라질 수 있다. 또한 실력 향상에는 여러 가지 인자들이 영향을 미치게 된다. 그렇기 때문에 어느 한 가지 인자만이 그것의 직접적 영향인 것처럼 해석하는 것은 오류일 수 있다. 업무가 향상되는 것과 시험을 잘 보는 것은 다를 수 있다. 연수 자체는 시험성적 향상에는 도움을 줄 수 있을 것이다. 하지만 연수가 업무 향상에 얼마나 영향을 미치게 될지에 대해서는 생각해 볼 필요가 있다.
회귀분석은 상황을 예측하고 최적화하기 위한 유용한 방법이다. 특히, 실험을 통해 얻은 변수 간의 상관관계를 분석하는데 회귀분석만큼 효율적인 통계분석 방법은 드물 것이다. 회귀분석을 통해 우리는 1차 함수인 회귀방정식을 구할 수 있고 R-제곱값을 구할 수 있다. 이를 통해 두 데이터 간의 상관관계 즉, 함수의 기울기를 계량화할 수 있게 된다. 또한 R-제곱값은 분산 정도를 의미하게 된다.
Ⅳ. 예측과 판단
우리가 통계를 공부하는 이유는 불확실성이 높은 상황에서도 가장 최적화 된 의사결정을 하기 위해서 이다. 확률은 전략가의 필수 덕목이라고 한다. 학창시절에도 확률과 통계는 같이 배워야만 하는 과정으로 분류되었다. 앞서 우리는 통계분석을 사용하기 위해 가정이 중요하다는 것을 배웠다. 먼저 가설을 세우고 이 가설이 실제로 어떤지를 검증하는 것이 통계조사 분석이다.
우리는 학창시절 직간접적으로 통계학을 배웠지만, 실제로 일상생활이나 업무에서 이를 적절하게 활용하는 경우는 매우 드물다. 이는 우리가 기본적으로 수학을 어렵게 생각하고 거부하는 것에서 기인할 수도 있다. 통계학 교재를 펼치면 마음을 답답하게 하는 수많은 수학공식으로 가득 차 있는 것을 알 수 있기 때문이다. 하지만 우리가 통계적 마인드를 갖고 살아가야 하는 것은 더 이상 피할 수 없는 일이다. 더불어 통계적 조사연구와 이를 기반으로 한 의사결정 툴에 익숙하다면 우리는 협상에서 우위를 점할 수 있다. 특히 우리가 일상적으로 접하는 상황들은 복잡한 사회현상과 연관 된 경우가 대부분이다. 그렇기 때문에 통계분석의 가설 수립, 표본 설정, 데이터 수집, 통계분석의 절차를 올바로 배우고 응용할 필요가 있는 것이다. 복잡한 통계 이론을 배우는 것은 어렵지만, 통계의 기본적 지식들과 흐름을 아는 것은 분명 투입 시간 대비 많은 것을 얻을 수 있는 것임이 분명하다.
