지금 세계의 기업들이 오바마의 기술팀을 벤치마킹하고 있다 (이코노미스트誌)
이 표현을 보고 ‘미국 대통령 오바마 말고 또 다른 사업가 오바마가 있나?’ 하고 의구심이 들 수 있겠지만, 여기에서 오바마는 우리가 알고 있는 미국 대통령 오바마가 맞다.
이 글은 오바마 대통령이 2012년 재선 성공을 도왔던 빅데이터 활용 전략을 담고 있다. 요약 전개에 앞서 한가지 말해두고 싶은 것은 이 책은 기술 중심이 아니다. 오바마 캠프가 재선 성공이라는 목표 달성을 위해 기술팀의 역할을 명확히 하고 조직 운영과 자원 배분은 어떻게 했으며 일반 선거운동 조직원과 자원봉사자들이 어떻게 활용하여 시너지를 냈는지에 초점이 있다. 기술은 곁다리일 뿐이다.
기술이 중요하지 않다는 것이 아니고, 기술은 수단이지 목적이 될 수 없다는 것을 의미한다.
마이크로 타기팅을 위한 6단계 프로세스
마이크로 타기팅이란 간단하다. 조금만 신경써서 그의 관심사를 가지고 설득하면 표를 줄 것 같은 유권자를 발굴하고 집중 공략하는 것을 의미한다. 마이크로 타기팅 실현을 위해 기술팀은 6단계로 프로세스를 구현했는데 이는 다음과 같다.
① (전략수립) 오바마 캠프의 전략은 3가지로 요약할 수 있다.
- 2008년 오바마에게 투표한 사람들이 다시 투표에 참여하도록 한다
- 새로운 유권자층을 발굴한다
- 경합주에 초점을 맞춘다
② (시스템구축) 오바마 캠프의 조직은 크게 현장과 본부로 나눌 수 있다. 현장은 “지역 선거운동 사무소” → “현장 조직 활동가” → “동네 팀 리더” → “핵심 팀 멤버” → “자원봉사자”의 치밀한 체계를 갖고 있다. 그리고 시카고 본부에는 일반적인 홍보부서와 조직부서 외에 분석팀, 디지털팀, 그리고 이를 기술적으로 뒷받침해주는 기술팀이 갖춰져 있다.
시스템 관련 이야기를 좀 더 살펴보면, 오바마 캠프는 2012년 재선 성공을 위해 2억명에 가까운 유권자별로 각기 500~1,000가지 정보를 저장하고 이를 실시간으로 분석함은 물론 현장에서 보낸 데이터를 실시간으로 반영하고 그들이 데이터를 활용할 수 있는 시스템을 구축하기로 한다.
이에 오바마 캠프는 선거운동 사상 처음으로 대선 캠프에 기술팀을 만들고 하퍼 리드를 CTO로 임명한다. 하퍼는 정치와 거리가 있는 실리콘밸리의 괴짜 엔지니어로, 닭벼슬 머리에 콧수염과 요란한 귀걸이에 힙스터 스타일의 검고 두꺼운 뿔테 안경을 낀 딱 봐도 선거운동과는 전혀 거리가 먼 인물이다.
왜 그랬을까? 사실 오바마 캠프는 2008년 인터넷을 통한 선거운동으로 재미를 봤다. “한번 전쟁에서 승리한 방법은 다시 사용하면 안 된다. 변화무쌍한 현실에 맞게 형태를 변용해야 한다.“는 손자병법의 말처럼 2012년 선거에서는 모바일과 빅데이터라는 새로운 트렌드를 선거운동의 중요한 무기로 선택하면서 그를 CTO로 임명한 것이다. 바로 모바일과 빅데이터라는 최신의 기술을 활용할 선거운동 시스템을 구축할 적임자가 필요했던 것이다.
그는 우선 구글, 페이스북 등에 잘 다니고 있던 엔지니어 50명을 불러들였다. 그리고 선거 18개월을 남겨놓고 “❶캠프 승리를 위한 모든 IT인프라 구축, ❷캠프의 자원(자금/인력/미디어 등)의 효율적 사용 극대화를 위한 소프트웨어 개발, ❸시스템이 단 1초도 다운되서는 안된다”는 3가지 핵심과제를 설정하고 작업에 뛰어든다. 이러한 과제 수행을 위한 특수한 환경은 크게 6가지로 정리할 수 있는데 “❶2억명 이상의 방대한 유권자 정보를 저장하고 다양한 데이터베이스(이하 DB)와 연동, ❷방대한 데이터 분석을 위한 대용량 고속 컴퓨팅 환경 구축, ❸선거 막바지 닥칠 엄청난 데이터 트래픽, ❹선거기간 동안 절대로 다운되서는 안되고, ❺선거가 끝나면 바로 해체, ❻동시에 수만명 이상이 다양한 앱을 사용하여 DB에서 정보를 입출력”하는 것이 그것이다.
이처럼 목표 설정과 주어진 환경을 철저히 분석하고 그들은 인프라 구축에 들어간다. 먼저 그들은 방대한 양의 데이터를 빠르게 처리하면서 선거가 끝나면 해체할 수 있도록 하기 위해 “클라우드 컴퓨팅 환경”을 선택한다. 이것은 쉽게 말하면 IT 인프라를 빌려쓰는 것인데, 아마존의 AWS(아마존웹서비스)라는 서비스를 채택한다. 클라우드 컴퓨팅은 분산처리시스템을 통해 엄청난 양의 데이터를 값싸고 빠르게 처리할 수 있는 장점이 있으며, 빌려 쓰는 것이어서 IT 자산들을 구매할 필요도 없었다. 선거라는 일회성 이벤트를 위해 막대한 비용을 들여 IT 자산을 갖춰야 했던 과거의 부담에서 자유로워질 수 있게 된 것이다.
그리고 선거운동에 다양한 소프트웨어가 사용될 예정이었는데, 어떤 프로그래밍 언어를 사용하는 소프트웨어이든 시스템에서 문제없이 돌아가도록 프로젝트 코드명 “외뿔고래”라는 API 플랫폼을 개발한다. API(Application Programmable Interface)는 각기 다른 시스템이나 소프트웨어들이 서로 명령과 결과를 주고받을 수 있도록 상대방의 형식에 맞게 변형시켜 주는 일종의 소프트웨어들 사이의 통역 프로그램이다. 예를 들면, 시스템에 이메일 대량 발송 프로그램이 있고 유권자의 이메일 주소가 포함된 DB가 있다고 하자. API가 없었던 예전에는 사용자가 직접 DB에서 자기가 원하는 조건의 명단과 이메일 주소 리스트를 찾아내 프린트해서 다시 일일이 이메일 발송 프로그램에 키보드로 직접 입력했어야 했다. 하지만 이 둘을 연결시켜주는 API 개발을 통해 직접 키보드 입력 없이 추려진 명단을 전산으로 이메일 발송시스템에 연동해 손쉽게 보낼 수 있게 된 것이다.
오바마 캠프에는 다양한 DB가 있었다. 유권자 정보 DB만 해도 민주당 전국위원회의 보트빌더와 NGP-VAN의 유권자 DB, 캐털리스트의 유권자 DB가 있었고, 재무팀에는 수백만명의 소액기부자 DB가 있었고, 100만명이 넘는 자용봉사자들의 DB도 있었다. 또한 후보의 공식 선거운동 사이트에 가입한 온라인 지지자들의 이메일과 우편번호를 관리하는 디지털팀(웹사이트 관리와 콘텐츠 제작, 이메일 홍보, SNS 등을 담당하며 200명 규모로 구성)의 DB가 따로 있었으며 3,800만명의 페이스북 친구와 트위터 팔로워 DB가 따로 있었다. 뿐만 아니라 외부의 데이터브로커로부터 구입한 정보들도 있었다. 게다가 이들 정보들은 거의 매일 제각기 업데이트 되었다. 따라서 이 외뿔고래 시스템은 기술팀을 넘어 오바마 캠프의 핵심 과업이라 해도 과언이 아니었던 것이다.
③ (데이터수집) 외부의 데이터브로커로부터 구매한 데이터, SNS 등 온라인에서 수집한 데이터, 자원봉사자 등 현장에서 수집한 데이터 등 각종 데이터를 수집하고 이를 정제하여 통합한다. 이를 통해 유권자 한 사람에 대한 종합적인 이해를 가능하게 했다.
④ (타깃설정) 구슬이 서말이어도 꿰어야 보배라고 앞서 시스템구축에서 언급한 방대한 데이터에서 원하는 정보를 얻기 위한 분석 작업이 필요하다. 이를 위해 다양한 고급 통계예측 기법을 활용, 유권자들을 수십개의 그룹으로 분류하였고, 오바마에 대한 “지지 확률, 투표참여 확률, 설득가능 확률”이라는 세가지 핵심 지표를 통해 전략 실현에 가장 중요한 그룹들이 어떤 것인지 가려내었다. 이를 통해 투표에 적극적이지 않은 지지자와 투표에 적극적이지만 상대방을 약하게 지지하는 사람을 타깃으로 집중공략 하였다.
오바마 캠프는 선거를 18개월 앞두고 데이터분석팀을 신설하고 50명이 넘는 데이터 분석가를 채용했다.(롬니 캠프는 1/10 수준이었다) 이들은 군집분석, 다변량 회귀분석, 연관성 분석을 중심으로 다양한 기법의 방법론을 통해 데이터를 분석하였고 이를 통해 유권자들을 그룹핑 하였다.
한가지 궁금한 점은 이들이 개인정보보호 규제에도 불구하고 액시엄과 같은 데이터브로커로부터 구매한 데이터를 어떻게 자체 수집한 정보와 매칭해서 활용했냐는 것이다. 미국은 데이터를 상업적으로 거래하는 기업인 데이터브로커가 일찍 자리 잡았다. 액시엄이 대표적인 기업인데, 이들 기업도ㅇㅇ 데이터를 팔 때는 개인정보보호 규제로 인해 개인식별정보는 제외하고 제공한다. 다만 고객이 분석에 활용할 수 있도록 연령, 성별, 우편번호 등의 정보를 기타 개인소비정보와 함께 제공한다. 오바마 캠프에서는 우선 자신들이 갖고 있는 유권자 DB의 우편번호, 성별, 연령과 액시엄에서 구매한 DB의 정보와 대조하면 그 범위를 대폭 줄일 수 있다. 미국의 우편번호는 다섯자리 숫자로 되어있으며 전국을 42,000개의 구역으로 나눈다. 1983년부터 여기에 4자리 숫자를 더 추가한 ‘ZIP Plus 4’라는 체계를 사용하는데 전체 9자리 숫자 중 8번째 숫자는 블록이고 9번째 숫자는 특정 거리의 한쪽을 표시한다. 한쪽 거리에 사는 사람이 대략 100명이라 가정하면 그중 유권자 연령에 해당하는 사람은 약 80명 정도일 것이고 남성과 여성은 각기 40명 정도일 것이고, 또 이들 중 나이가 똑같은 사람은 매우 드물 것이므로 이 3가지 정보만으로도 상당 부분 개인 확인이 가능해진다. 여기에 몇가지 추가정보만 더 매칭한다면 개인식별정보 없이도 개별 유권자를 파악할 수 있고 외부에서 사온 데이터와 내부에서 파악한 데이터를 매칭 할 수 있는 것이다.
⑤ (테스트) 모든 활동과 메시지는 검증되어야 한다는 전제하에 타깃 그룹별로 어떤 내용과 방식으로 접근할 것인지를 놓고 여러 선택지를 만든 뒤 실제 대상 중 일부를 상대로 테스트를 진행했다. 그리고 최적의 대안을 선택하여 이메일 및 전화홍보, 방문유세 등 일대일 접촉에 활용하였다. (지난 2월 요약한 ‘린스타트업’을 보면 같은 논리의 내용이 있을 것이다)
⑥ (반복과공유) 상기의 타깃설정과 테스트 수행은 통계학적 모델을 통해 얻어진 일종의 가설에 불과하다. 작업을 반복 수행하여 모아진 진짜 데이터를 통해 모델의 오류를 수정해나갔고 이를 다시 현장에 적용하였다. 현장의 자원봉사자들은 자신들이 수집한 데이터가 선거운동의 효율성을 높이고 성과를 올리는 데 기여하고 있음을 체감하면서 다시 데이터를 더욱 열성적으로 수집하게 되는 선순환 효과를 거두었다.
