본문 바로가기
하루하루/서평

모두 거짓말을 한다 / 세스 스티븐슨 다비도위츠

by 오송인 2019. 4. 19.
반응형

동료가 권하는 책이 대체로 재미있습니다. 뇌를 읽다, 나는 불안과 함께 살아간다, 나 지금 이대로 괜찮은 사람이 그랬고 이번 책도 흥미로웠습니다. 이번 책은 크레마 그랑데로 읽었습니다. 크레마 그랑데는 아시다시피 이북 리더기인데 정가가 20만 원입니다. 동료가 5만 원이라는 헐값에 제게 넘겼습니다. 여러모로 감사한 분입니다.

 

남성들은 여성에게 오르가즘을 경험하게 하는 방법만큼이나 자기 자신에게 구강성교를 하는 방법을 많이 검색한다. 이것이 내가 구글 검색 데이터에서 가장 좋아하는 사실이다. ebook 183쪽.

 

감 오시나요? 이 책은 자극적입니다. 그래서 더 재미있었나 봅니다. ㅎ 빅 데이터를 다루는 책을 처음 읽어 봤는데 설문조사 같은 고전적 데이터 수집 방식으로는 포착하기 어려운 보다 실제적이고 구체적인 세상의 단면을 빅데이터를 통해 볼 수 있다는 것이 이 책의 주장입니다.

 

왜 모두 거짓말을 한다를 제목으로 지었을까요? 사람들은 대체로 사회적으로 바람직해 보이고자 하는 동기를 지니고 있고, 이 동기 때문에 고전적 데이터 수집 방식이 그들의 속내를 파악하는 데 실패하고 있다고 저자는 생각하기 때문입니다. 설문조사에서는 거짓말을 하고 익명성이 보장되는 구글 검색 등에서는 속내를 드러낸다는 것이죠.

 

예를 들어, 설문조사에서는 힐러리 클린턴을 찍는다고 말하고 구글 검색에서는 "깜둥이"를 검색할 수 있다는 것입니다. 이 사람은 힐러리 클린턴보다 도날드 트럼프를 찍을 가능성이 높습니다. 표본수가 많아지면 이러한 경향이 더 극명하게 드러날 수 있죠. 다른 가능한 변수를 통제하더라도 "깜둥이"를 비롯한 인종차별적 키워드의 검색 빈도가 높은 주에서는 그렇지 않은 주보다 상대적으로 도날드 트럼프가 선거 우위를 점했을 가능성이 높다는 것이 저자의 주장인 것 같습니다. 이를 통해 익명성이 보장되는 빅데이터의 유용성을 보여줍니다.

 

시점이나 지역에 따른 구글 검색 키워드 빈도라든지 키워드 간 상관만으로도 현상을 이해하는 데 많은 도움을 받을 수 있습니다. 예를 들어 동성애에 관용적인 주보다 덜 관용적인 주에서 동성애 관련 검색 빈도가 높다고 합니다. 검색 빈도를 통해서 어느 주가 얼마나 동성애에 관용적인지 유추할 수 있겠죠. 키워드 간 상관을 살펴보면 유대인, 이슬람교도, 멕시코인, 아시아인 등 다양한 집단에 관한 검색에 사용되는 부정적인 단어의 상관을 예로 들 수 있습니다. '테러리스트'라는 검색 단어와 상관을 갖는 것은 이슬람교도뿐임을 알 수 있습니다. 강력한 편견이 검색에도 그대로 반영되고 있습니다.

 

더 재미있는 것은 이슬람계처럼 들리는 이름을 지닌 총기난사범이 뉴스에 오른 뒤 오바마가 포용과 관용의 중요성을 강조한 연설을 한 것이 이슬람교도에 대한 분노를 가라앉힐 수 있었는지를 구글 검색 데이터를 통해 추론할 수 있었다는 것입니다. 연설 직후 이슬람과 테러리스트, 극단주의자 같은 연관 검색은 줄어들지 않았습니다. 하지만 다른 연설에서 오바마가 관용과 같은 추상적인 내용에 집중하기보다 이슬람계 운동선수와 군인, 경찰관, 소방관, 교사, 의사에 관해 말했을 때 구글 검색에서 악의에 찬 이슬람 검색은 순위가 떨어졌다고 합니다. 민심의 추이를 설문조사보다 훨씬 더 빠르고 효율적으로 알 수 있다는 것이 빅데이터의 장점임을 알 수 있습니다. 무엇보다 저자가 "디지털 자백약"이라고 표현했듯이 빅데이터에는 사회적 바람직성의 외피를 벗겨낸 진실의 일면이 담겨 있을 가능성이 높습니다. 그것이 이 책의 부제처럼 "충격적인 인간의 욕망"까지는 아니라 생각하지만요. 부제를 너무 과하게 뽑은..;

 

구글 검색 데이터와 같은 빅데이터의 또 다른 장점은 "데이터 클로즈업"이 가능하다는 것입니다. 저자는 어떤 야구 선수의 향후 기량을 예측하는 것이 데이터 클로즈업을 통해 가능하다고 말합니다. 그 선수와 비슷한 연령, 키, 포지션, 홈런, 타율 등을 지닌 다른 선수들이 어땠는지를 살펴봄으로써 말이죠. 가장 유사한 "도플갱어"가 한 명밖에 없다면 예측의 타당성이 매우 낮겠지만 그런 도플갱어가 수십 명의 집단이라면 예측의 타당성이 높을 수밖에 없습니다. 집단이 보였던 경향에서 크게 벗어나지 않을 거라 기대할 수 있습니다.

 

진단은 본질적으로는 원시적인 유형의 도플갱어 검색이다. 문제는 의사들이 이용하는 데이터세트가 너무나 작다는 것이다. ebook 284쪽.

 

저는 저자가 진단에 관해 얘기하는 대목에서 특히 주의를 기울일 수밖에 없었습니다. 어떤 진단을 받은 환자군이 호소한 증상이나 징후, 인구통계학적 변수 등에 관한 데이터를 한 나라 규모로 혹은 전세계 규모로 확보할 수 있다면 환자를 진단해야 하는 임상가의 결정이 보다 정확해질 수 있지 않을까요. 그 환자와 조건이 비슷한 도플갱어 집단을 찾아서 그 도플갱어 집단에게 가장 높은 빈도로 내려졌던 진단이 무엇이었는지 확인한 후 임상가의 경험에 비추어 진단을 판단하면 될 테니까요. 시간이 지나도 임상가의 경험이 여전히 진단이나 치료에서 중요한 역할을 차지할 것으로 보지만, 앞으로는 이런 빅데이터가 임상가의 의사결정에 미치는 영향력이 더 커질 수밖에 없겠다 여겨집니다.

 

빅데이터의 세 번째 장점은 인과관계 규명에서도 기존의 고전적 데이터 수집 방식보다 용이하다는 것입니다. 심리학을 비롯한 사회과학에서 인과 규명에 주로 사용하는 실험 방법이 무작위 통제 시행(randomized control trial)인데 예를 들어, 금주가 건강에 미치는 영향을 확인하기 위해서 금주 집단과 평소처럼 술 마시는 집단으로 양분한 뒤 나이나 연령 건강 상태 등이 비슷한 사람들을 두 집단에 랜덤하게 배정하여 몇달 뒤에 건강 상태를 비교해 보는 것입니다. 집단 배정 시의 상태(=기저선)가 비슷했기 때문에 금주 집단의 건강이 더 좋아졌다면 이는 금주 때문이라고 얘기할 수 있겠죠. 인과관계가 규명된 것입니다. 이와 같은 실험을 웹상에서 훨씬 더 많은 표본으로 더 빠르고 효율적으로 수행할 수 있습니다. 일례로 저자가 A/B 실험이라고 부른 것에 우리는 항상 노출돼 있습니다. 이 또한 무작위 통제 시행인데요. 더 많은 클릭을 이끌어내기 위해서 기존의 화면배치가 좋을지 새로운 화면배치가 좋을지 시험해 보는 것입니다. 사이트 접속 시 익명의 대상에게 랜덤하게 화면이 노출되기 때문에 화면배치에 따른 클릭수 변화의 인과를 규명할 수 있습니다. 삶의 다양한 영역에서 우리도 모르는 사이에 이런 실험들이 이루어지고 있을 가능성이 높죠. 특히 2000년대 이후로 떠오르기 시작한 게임 산업(특히 모바일 게임)이 그렇습니다.

 

스크린 뒤편에는 당신의 자기관리능력을 허물어뜨리려는 전문가 1000명이 있다. ebook 307쪽.

 

두 다리 건너 아는 사람 중에 인지심리학을 전공하여 빅데이터를 취급하는 일을 하게 된 사람이 있는데 아직도 그 일을 하는지 모르겠습니다마는 선견지명이 있었다고 여겨집니다. 심리학과 접목시킬 수 있는 유망한 분야로 여겨지고, 이 책을 읽고 나니 한 번 배워보고 싶다는 생각이 강하게 드네요.

반응형

댓글