'모두 거짓말을 한다'로 美 지식 사회 충격 던진 구글 데이터과학자 인터뷰
트럼프 당선과 브렉시트를 예측한 유일한 데이터
"역사상 최초로 타인 내면 다 들여다보니… 우린 모두 엉망진창"
"구글은 '디지털 고해소' 반면 페이스북은 삶에 왜곡된 시각 제공"
"선거 캠프는 여론조사 말고 데이터 검색 분석부터 해야"
우리는 검색창과 소셜미디어에 둘러싸여 살아간다. 하루 24시간 우리는 검색창과 페이스북 뉴스피드의 빈칸에 ‘나는 누구인가' ‘너는 누구인가' ‘우리는 누구인가'에 대한 발자취를 남긴다. 일반적으로 인간은 하루 동안 데이터 250만조 바이트를 만들어낸다. 그것은 우리가 생각하는 것보다 우리의 실체에 대해 더 많은 진실을 드러낸다.
하버드 대학교 경제학과 박사과정에 있던 세스 스티븐스 다비도위츠는 특정 검색어의 추세를 보여주는 ‘구글 트렌드'를 5년간 연구했다. 그리고 의외의 결과를 발표했다. 오바마가 처음 당선되던 날, 오바마가 들어간 구글 검색 100개 중 한 개는 KKK나 깜둥이가 포함돼 있다는 내용이었다. 많은 전문가가 이제 인종주의는 사라졌다고 말하던 때였다.
모두가 트럼프의 당선을 비웃을 때도 그는 인터넷에서 트럼프 당선의 징후를 발견했다. 인종차별적 표현과 농담에 대한 검색은 예비선거 기간 동안 치솟았고 유권자들은 트럼프의 백인 중심주의적 표현에 강하게 반응했다. 여론 조사 결과를 뒤집고 미국 대통령이 된 트럼프는 현재 세계에서 가장 높은 시청률을 자랑하며 ‘트윗 정치쇼'를 생중계 중이다.
세스 스티븐스의 결론은 이렇다. ‘모두 거짓말을 한다'. 정확히 말하면 오프라인과 페이스북에서는. 구글 검색창 앞에서는 가식을 떨 이유가 없다. 빈칸을 채우라고 깜빡이는 커서는 인간 마음의 가장 어두운 구석에 헤드라이트를 비춘다. 그리고 이 ‘디지털 세계 진실의 샘’에 비친 우리의 속마음은 가히 충격적이다.
인도에서는 ‘내 남편이 ( )을 원해요'를 치면 ‘내 남편이 젖을 먹여주길 원해요’라는 문장이 빈번하게 완성된다. 미국인들은 ‘날씨'보다 ‘포르노'를 더 많이 검색한다. 부모는 ‘내 딸이 재능이 있나요?’보다 ‘내 아들이 재능이 있나요?’를 2.5배 많이 검색한다. 낙태반대 의견이 공개적으로 논의될수록 ‘자가 낙태법' 검색량이 치솟는다.
2017년 세스 스티븐스가 펴낸 책 ‘모두 거짓말을 한다'에 대한 반응은 뜨거웠다. ‘우리 본성의 선한 천사'를 쓴 스티븐 핑커는 ‘내 나라와 내 종에 대한 선입견이 스티븐스 다비도위츠의 발견으로 송두리째 뒤집혔다'라고 평했고, ‘뉴욕타임스'와 ‘월스트리트저널' 등 여러 매체가 ‘2017년 올해의 경제경영서'로 세스의 책을 선정했다.
‘모두 거짓말을 한다' 국내 출간 직후 이 도발적인 데이터 과학자를 이메일로 인터뷰했다. 그는 검색 데이터는 인간 마음의 어두운 구석을 보여주지만, 페이스북은 반대로 너무 밝은 면만을 비추기 때문에 두 가지를 종합해야 우리의 실체를 파악할 수 있다고 덧붙였다.
이 정직한 마음의 보고서를 앞에 두고 황망해 할 당신에게 위로가 되는 그의 한마디. “불행의 커다란 원인 중 하나는 다른 사람의 가식적이고 위선적인 상황을 나 자신과 비교하는 것이다. 구글 검색 데이터에 따르면 그건 사실이 아니다. 5년간의 연구에서 내가 배운 것은 “우리는 모두 공평하게 엉망진창"이라는 사실이다.”
학계의 슈퍼 루키로 떠오른 세스 스티븐스 다비도위츠의 이야기를 들어보자.
-당신은 빅데이터의 가치를 이야기하면서 할머니를 예로 들었다. 노인의 경험과 지혜를 데이터과학에 비교하면서.
“내가 싱글로 서른셋을 맞던 추수감사절 저녁 식사 때 할머니는 말했다. “얘야, 너한테는 참한 여자가 필요하다. 똑 부러지고 사교적이며 약간의 유머 감각이 있는 여자가 너한테 잘 맞아.” 88살인 나의 할머니는 성공한 결혼과 실패한 결혼을 두루 지켜보셨고, 그로 인해 자연스럽게 빅데이터가 되셨다.
우리는 노인의 조언을 신뢰한다. 왜냐하면 그들은 많은 관찰을 축적했기 때문이다. 세계의 중요한 패턴을 보려면 많은 정보를 축적해야 한다. 데이터과학의 본질은 패턴을 알아차리고 하나의 변수가 다른 변수에 어떤 영향을 줄지 예측하는 데 있다. 할머니는 백 년에 가까운 한평생 동안 머릿속에 저장해둔 인간관계 데이터베이스를 이용했다. 최고의 데이터과학은 노인들의 지혜만큼 직관적이다.”
-데이터과학자로서 당신은 무엇을 하나?
“매일같이 사람들이 웹을 돌아다니면서 남기는 디지털 발자국을 뒤쫓는다. 사람들이 클릭하는 버튼이나 두드리는 키를 통해서 우리가 진짜 누구인지를 이해해보려고 노력한다.”
-검색창에서 당신이 발견한 가장 보편적인 사실은 무엇인가?
"나는 많은 사람이 인터넷 검색창에 다음과 같이 묻는 것을 보고 충격을 받았다. "내 페니스는 얼마나 큰가요?" 구글은 이 질문에 대답할 수 없다. 그런데 왜 사람들은 묻고 있을까? 그들은 구글이 무얼 말해주길 기대하는 걸까? 놀랍게도 사람들은 검색 엔진에 많은 진술을 한다. "나는 슬프다" "나는 지루하다" "사장님이 끔찍하게 싫어요" "아빠가 나를 때렸어요" "나는 여자 친구의 가슴을 사랑한다"라고. 왜 그들이 검색창에 이런 말을 늘어놓는지는 명확하지 않다."
-검색창이 아니면 보통 사람들이 어디에 그런 말을 늘어놓겠나. 돈과 시간이 있다면 카우치에 누워 정신분석가에게 털어놓을 얘기고, 예술가라면 어두운 욕망과 호기심을 작품으로 승화시킬 테지. 통념을 거스르는 유의미한 발견이 또 있나?
“계속해서 상식이나 직감이 잘못되었다는 걸 알았다. 예를 들어 ‘불안감'은 교육 수준이 높은 대도시에서 많이 검색될 거로 생각했다. 그러나 불안은 교육 수준과 소득 수준이 낮은 농촌 지역에서 가장 높게 검색됐다.
농담의 검색 빈도는 어떨까. 대부분 기분이 좋지 않은 월요일이나 날씨가 흐린 날 기분 전환용 농담 검색이 늘어날 것으로 예상한다. 하지만 보스턴 마라톤 폭탄 사건처럼 비극적인 일이 있으면 농담 검색량이 급격히 떨어진다. 사람들은 인생이 잘 풀리지 않을 때보다 일이 잘 풀릴 때 더 자주 농담을 한다.
가장 놀라운 건 포르노 사이트 방문자 중 충격적일 정도로 많은 사람이 근친상간을 묘사한 포르노를 찾는다는 사실이다. 프로이트는 부모와의 성 욕구가 성인이 되면 억압된다는 가설을 세웠지만, 구글 검색은 그 반대 상황을 또렷이 보여준다.”
-사람들이 현실에서는 잠자코 있다가 구글이라는 ‘디지털 고해소’로 달려가 속마음을 고백하는 이유는 뭔가?
“필요한 정보를 얻으려면 정직해야 하니까. 구글은 사람들에게 진실을 말하도록 유도한다. 동성애자는 동성애자를 혐오하는 지역에서 자기 정체를 노출할 이유가 없다. 하지만 집에 와서 그와 관련된 포르노 사이트를 검색하는 건 어렵지 않다.”
-구글에서와는 달리 페이스북에선 다들 젠체하고 싶어 한다. 그 극단성을 보면 마치 허름한 대중탕에 있다가 화려한 사교 파티에 참석하는 기분이다. 있는 그대로 이해받길 원하면서도 한편으로는 오해받고 싶어하는, 이런 이중적인 모습에 나 자신도 혼란을 느낀다.
“사람들은 두 가지 면이 있다. 그들은 익명으로 이쪽 세계와 저쪽 세계에 자신을 표현한다. 구글에는 어두운 내면을, 페이스북에서 큐레이팅 된 자아를 보여준다. 내가 가장 좋아하는 비교 방법의 하나는 사람들이 두 사이트에서 남편을 묘사하는 방법이다. 소셜 미디어에서 사람들이 “내 남편은…”이라고 게시하면 ‘최고의’ ‘가장 친한 친구’ ‘자상한’ ‘너무 귀엽다’라는 문구가 완성되는 경향이 있다.
구글에서 “내 남편은 …”을 검색하면 ‘성가신’ ‘얼간이’ ‘동성애자라'라는 문구가 완성된다. 어느 사이트가 결혼의 완전한 그림을 제공하는지는 모르겠다. 양측에는 진실이 있지만, 대개 우리는 선별된 한쪽만을 본다.”
-페이스북 친구에 대해 당신이 발견한 진실은?
“페이스북에서 말하는 것의 절반만 진실이라는 것. 예를 들어 페이스북 사용자들은 자신이 지적인 잡지를 좋아한다고 말하지만 실제로는 유명인 가십 잡지가 훨씬 많이 팔린다. 친구들이 자기를 똑똑하다고 봐주길 원하니까. 저렴한 호텔에 숙박하면서도 멋진 호텔에 머무르고 있다고 발표한다. 친구들이 자신을 부자라고 생각하길 원하니까.
실제로 구글엔 건강 문제, 성적 딜레마, 재정적 불안, 이혼 위기, 깊은 외로움 등 지극히 개인적인 걱정만 늘어놓으면서도, 페이스북에서는 인류의 정의를 놓고 싸우는 전사처럼 군다. 사람들은 알게 모르게 자신을 과장한다. 자신이 얼마나 ‘현실 참여적인 사람인지’ 광고하는 것이다. 나는 페이스북이 삶에 대해 매우 왜곡된 시각을 제공한다고 생각한다.”
-당신은 미국 대선과 브렉시트를 예견한 유일한 데이터과학자로도 유명하다. 여론조사에서 사람들이 거짓말을 하고 있다는 걸 어떻게 알아차렸나?
“나는 인종주의에 대해 여러 가지를 조사했고 사람들이 아프리카계 미국인에 대한 농담을 얼마나 많이 검색하는지를 보고 놀랐다. 오바마가 처음 당선되던 날, 일부 주는 최초의 흑인 대통령보다 깜둥이 대통령을 더 많이 검색했다. 전형적인 정보원에서는 숨겨졌지만, 인터넷 검색어에는 사람들의 악의와 미움이 확연히 드러났다. 투표에 관해서도 많은 사람은 거짓말을 하고 거짓 투표를 한다. 하지만 인터넷 데이터는 누가 실제로 투표하러 나올지 알고 있다.
정말로 투표할 유권자라면 ‘투표할 곳’이나 ‘투표 방법’을 검색할 가능성이 높다. 이 데이터를 사용하면 어느 그룹이 비정상적으로 더 많이 혹은 적게 투표할 것인지 정확하게 알 수 있다. 예를 들어 2016년 미국 대통령 선거가 있기 몇 주 전, 여론조사는 흑인 대다수가 트럼프에 반대할 것이라고 말했지만, 흑인 비율이 높은 지역에서 투표 방법을 검색한 비율은 매우 낮았다. 클린턴은 흑인의 낮은 투표율 때문에 타격을 입었다.”
-‘깜둥이' 같은 인종주의적 징후 말고 보다 구체적으로 당선 결과를 예측할 수 있는 지표도 있나?
“있다. 누구에게 투표할지도 예측 가능하다. 두 사람을 거론할 때 사람들은 자신이 지지하는 후보를 앞에 둔다. 예를 들어, ‘트럼프 클린턴’을 입력하는 사람이 ‘클린턴 트럼프’를 입력하는 사람보다 트럼프에 투표할 확률이 훨씬 높다. 검색창에서 후보자와 경쟁자 중 누가 앞자리에 거론되는지 파악해야 한다.”
-한국은 얼마 후 지방 선거가 있다. 당신의 주장대로라면 선거 캠프에서는 당장 구시대적인 여론조사원보다 데이터과학자를 고용해야 할 것 같다.
“아마도. 검색 데이터를 참고해서 전략을 짜야 현명하다. 투표할 예정이라고 하는 사람보다 진짜 투표할 사람이 누구인가를 알아야 한다.”
-세계에서 가장 위험한 지도자로 평가받던 트럼프와 김정은은 앞으로 세계 평화에 어떻게 기여할까? 혹시 구글 트렌드로 예측할 수 있나?
“나는 수백만 명의 사람들이 검색한 데이터를 사용하여 수백만 명의 사람들이 어떻게 행동할지를 예측한다. 따라서 그들 개인이 어떻게 행동할지는 알 수 없다. 트럼프의 검색을 본다면 그가 할 일을 예측할 수도 있을 거다. 그런데 트럼프의 검색어 대부분이 ‘도널드 트럼프’일 것임은 의심할 여지가 없다(웃음).”
책에는 정치나 섹스 편향 이외에 디지털 시대에 언론인들이 주목해볼 만한 흥미로운 결과도 등장한다.
‘뉴욕타임스'에서 비슷한 위치, 시간대에 실린 긍정적인 기사와 부정적인 기사를 비교해서 공유 가능성을 실험한 결과, 폭력적이고 파멸적인 이야기에 끌린다는 기자들의 통념과는 달리 ‘피를 흘리는 기사’보다 ‘미소를 머금은 기사'가 온라인에 훨씬 오래 머물렀다는 사실.
세스가 하버드 대학 총장을 지냈던 전 재무부 장관 로렌스 서머스를 만났을 때 받았던 질문도 ‘인간의 속마음'을 아는 데 유용하다. 금리와 비즈니스와 자선 등에 관한 지적인 대화를 나누던 세계적인 석학이 그에게 알고 싶어 했던 것은 정작 “데이터로 주식 시장을 예측할 수 있나”였다.
-하버드 대학교 총장을 지냈던 서머스가 당신에게 했던 질문을 다시 던지고 싶다. 데이터로 주식 시장을 예측할 수 있나?
“좋은 데이터 과학으로 시장을 예측할 수 있다. 하지만 현실적으로 돈을 벌기 어렵다. 당신이 돈을 버는 방법을 찾았다면 다른 사람들도 금세 똑같은 것을 발견할 수 있기 때문이다.”
-헤지펀드에서 일했던 데이터과학자 캐시 오닐은 ‘대량살상 수학무기'에서 빅데이터 알고리즘이 신용불량자를 양산하고 불평등을 확대한다고 경고했다. 빅데이터에 대해 당신이 우려하는 점이 있다면?
"나는 '모두 거짓말을 한다'에서 대출신청서에 쓰는 단어를 바탕으로 누가 대출금을 갚을지 예측하는 연구를 했다. 가족을 언급하고 자비심에 호소하고 신에게 맹세한다면 채무 불이행의 명확한 신호다. 안타깝지만 하나님을 언급하는 사람은 돈을 안 갚을 확률이 2.2배 높다.
이것으로 신용기관이 ‘신을 언급하는 사람에게 돈을 빌려주지 않는 것이 현명하다'는 결론을 내릴 수도 있다. 고용주가 입사지원자를 살필 때 소셜미디어를 샅샅이 뒤지는 일도 늘어나고 있다. 그들은 이전 고용주를 비방하거나 알코올 중독의 징후를 발견하고 입사를 취소시킬 수도 있다. 사실 빅데이터의 윤리적 의미는 무섭다. 점점 더 많은 사람이 단순히 데이터 세트에서 발견된 상관관계 때문에 대출이나 취업에 어려움을 겪을 수 있다. 어렵겠지만 규제 당국이 이를 막을 방법을 찾아야 한다.”
-데이터 사회를 살아가기가 점점 더 쉽지 않다.
“그렇다. 인터넷에서 정보를 공개하는 일에 신중해야 한다. 사람들이 인터넷에 비밀을 말하면 나는 그걸 바탕으로 데이터를 분석한다. 그러나 우리가 반복해서 경험했던 것처럼 데이터는 유출 위험이 있다. 나 또한 예전보다 훨씬 더 조심스럽게 인터넷을 사용한다.”
-결론적으로 당신 ‘덕분에' 우리는 검색창 속에 담긴 사람들의 욕망이 실제보다 야비하고 추잡하다는 진실을 알게 됐다. 마지막으로 묻고 싶다. 그걸 안다는 게 우리에게 어떤 도움을 주나?
“나도 인정한다. 진실을 아는 것이 다소 우울하다는 걸. 내 주변인들이 대체로 정치적으로 올바르고 점잖고 이타적이며 (인종 차별이나 성차별같은)편견이 없는 존재라는 믿음... 그런 거짓말을 믿는 것이 위안을 줄 수는 있다. 반면에 진실을 깨닫는 것은 더 큰 위로가 될 수 있다.
불행의 커다란 원인 중 하나는 다른 사람의 가식적이고 위선적인 상황을 나 자신과 비교하는 것이다. 우리는 다른 사람이 나보다 더 나은 삶을 누릴 수 있다고 생각하는 경향이 있다. 구글 검색 데이터에 따르면 그건 사실이 아니다. 5년간의 연구에서 내가 배운 것을 요약하면 다음과 같다. “우리는 모두 공평하게 엉망진창이다!” 우리는 역사상 처음으로 타인의 내면을 볼 수 있게 됐고, 그 결과는 우리가 자신에게 더 관대해져야 한다고 말한다.”