디지털 발자국을 연구하는 분야가 있다?!

지금을 읽고 싶은 사람들의 미디어 이야기, 어거스트

안녕하세요. 오늘의 에디터 장희수입니다.

여러분이 스마트폰, 노트북, 스마트TV 등을 통해 남긴 모든 흔적이 모이고 모여 새로운 학문 분야를 만들어냈다는 사실을 아시나요? 오늘은 컴퓨테이셔널 사회과학(Computational Social Science)이라는 분야를 소개해보고자 합니다.

👋 오늘의 에디터 : 장희수

빅테크 산업의 권력과 욕망을 연구하는 에디터입니다!

오늘의 이야기

1. 네이처와 사이언스가 주목한 신생 분야

2. 컴퓨테이셔널 사회과학이 주목받는 이유

3. 아, 이거 생각보다 어렵네?

💛 네이처와 사이언스가 주목한 신생 분야

사회과학은 인간과 사회를 연구하는 모든 학문을 통틀어 일컫는데요, 2010년대 이후부터는 컴퓨테이셔널(computational) 사회과학이라는 분야가 새롭게 대두되어 많은 관심을 받고 있습니다. 네이처(Nature)지에서는 지난 7월 컴퓨테이셔널 사회과학(Computational Social Science)와 관련한 기사를 모아 스페셜로 발행했고, 사이언스(Science)지에서도 컴퓨테이셔널 사회과학의 장애물과 기회들(Computational social science: Obstacles and opportunities)이라는 제목으로 유명 연구자들이 함께 기고한 글이 실렸습니다.

(출처: 네이처)

사이언스지에 글을 기고한 사회과학자들의 의견을 종합해보면, 컴퓨테이셔널 사회과학은 사람의 행동을 기록한, 대용량의 복잡한 데이터를 분석하기 위해 프로그램이나 알고리즘을 개발하고 적용하는 사회과학의 새로운 하위분야입니다. 이 정의는 두 부분으로 나누어서 생각할 수 있어요. (1) 분석하려는 데이터가 대용량이면서 복잡할 것, (2) 이 데이터를 분석하기 위해 컴퓨터 프로그래밍을 할 것. 여기에서 대용량이면서 복잡한 데이터란 우리가 생각할 수 있는 데이터 전부를 의미해요. 전 세계 사람들이 위치기반시스템을 통해 남기는 위치 데이터, 소셜미디어를 통해 남기는 글부터 좋아요/댓글까지의 모든 흔적, 온라인으로 구매하고 배송받는 물건과 서비스들이 대표적입니다.

언어, 위치, 이미지, 영상 등 모든 종류의 데이터를 총망라하여 인간과 사회를 분석하고자 하니, 기존에 하던 방식처럼 사람이 분석하기에는 한계가 있었습니다. 이 한계를 극복하고자 등장한 학문이 컴퓨테이셔널 사회과학이에요. 그렇기 때문에 컴퓨테이셔널 사회과학은 사회과학연구자, 컴퓨터공학자, 통계학자, 그리고 근접한 학문의 연구자가 모두 참여하는, 그 어떤 분야보다 간학문적이라는 특징을 띱니다.

(출처: 네이처)

🌻 컴퓨테이셔널 사회과학이 주목받는 이유

컴퓨테이셔널 사회과학에 주목하는 이유는 세 가지입니다. 첫째, 실험이나 설문조사를 통해 만들어낸 인위적인 데이터가 아니라 실제 사람들이 무의식 중에 남긴 현실 그대로의 데이터이기 때문입니다. 사회과학의 연구결과들은 ‘실험실이 아닌 현실에서까지 적용이 가능한가'와 같은 편향과 ‘설문조사에 참여한 사람들이 어떻게 모두를 대표한다고 할 수 있는가'와 같은 일반화에 관한 지적을 계속 마주해왔습니다. 그런데 이제는 사람들이 인터넷에 남긴 다양한 흔적을 데이터를 연구에 활용할 수 있게 된 것이죠. 한국에 있는 전 국민의 데이터를 모으는 것도 가능해졌고요.

또 다른 이유는 컴퓨터의 힘을 빌림으로써 연구의 시간과 비용을 굉장히 절감할 수 있기 때문입니다. 기존의 사회과학연구는 데이터 분석을 도비...아니 대학원생들에게 의지하는 경우가 많았기 때문에 많은 양의 데이터 분석을 하기엔 시간과 비용의 문제가 있었습니다. 하지만 최근 머신러닝을 포함한 다양한 인공지능 기술의 개발로 복잡한 대용량 데이터를 효율적으로 분류하고 분석할 수 있게 되었어요. 연구자들 역시 사람이 직접 수행했던 많은 연구 단계들을 자동화하는 데 관심이 많아졌습니다.

마지막으로, 컴퓨테이셔널 사회과학은 기존에 풀 수 없었던 여러가지 사회문제들을 풀 수 있는 열쇠를 제공합니다. 특히, 방대하고 복잡한 행동 데이터를 다양한 모델로 가공·분석하는 것은 집단행동 연구에 강점이 있습니다. 2010년대 이후 일어났던 시위를 연구할 때에는 현장에서 얻는 데이터보다 온라인에 남겨진 흔적들에서 더 많은 정보를 도출할 수 있었습니다. 정보가 어디에서 어디로 흘러가는지, 어떤 시점에 집단이 형성되는지 등의 거시적인 현상들은 SNS 상의 대규모 데이터만한 자료가 없습니다. 2011년의 이집트 혁명과 월가 점령 시위(Occupy Wall Street), 2012년 스페인의 긴축항의 시위 모두 시위의 결집, 형성, 진행 등의 과정을 모두 SNS를 통해 관찰할 수 있었습니다.

인공지능 기술의 빠른 발전 덕분에 연구 목적에 맞게 가공·변형·모델링할 수 있는 기술들 역시 빠른 속도로 계속 나오고 있고요. 빅데이터와 인공지능의 아름다운 만남이 사회문제를 공부하고 해결하는 데도 기여하게 된 것이죠.

스마트폰을 들고 다니는 사람들은 흔적을 남긴다. 그리고 이 흔적들을 분석하면, 행동패턴에 따라서 비즈니스를 하는 사람, 관광객, 학생 등의 새로운 집단을 도출할 수 있다. (출처: PNAS)

😰 아, 이거 생각보다 어렵네?

이렇듯 컴퓨테이셔널 사회과학은 뚜렷한 강점과 함께 빠르게 발전하고 있지만, 풀어야 할 숙제가 더 많습니다. 처음에는 많은 연구자들이 SNS를 통해 데이터가 말도 안 되는 속도로 쌓이는 모습을 보면서 굉장히 설레했어요. 사회과학의 한계로 지적되었던 작은 샘플을 극복할 수 있게 되었기 때문이죠. 이러한 데이터를 디지털 발자국(digital footprints)라고도 부릅니다. 걸어가면서 무의식적으로 발자국을 남기듯, 인터넷을 돌아다니면 발자국을 남기게 되어있다는 의미에요. 그런데 막상 이 데이터들을 모아서 사회를 연구하다보니, “아? 이게 생각보다 만만치 않네?”하고 깨닫게 됩니다. 실제로 사회과학 내에서 “이거 생각보다 어렵다"라는 주제의 논문도 많이 나왔어요.

왜냐하면... 일단, 연구자들이 이 방대한 데이터에 대한 접근권을 얻기가 쉽지 않습니다. 전 세계 사람들이 사용하는 구글, 페이스북, 유튜브 등의 서비스는 사기업이 운영하고 있기 때문에 연구자들에게 유용할 행동데이터는 모두 이들 기업의 소유입니다. 기업들은 이 데이터를 독점하고 싶어합니다. 연구자들에게 공유를 한다고 해도 주고 싶은 만큼만 줄 수도 있고, 언제든 접근을 막을 수도 있어요. 그래서 연구자들은 항상 데이터를 구걸하고 테크 회사들의 자비에 의지해서 연구를 할 수밖에 없어요. 예를 들어, 페이스북은 지난 8월에 플랫폼 상의 허위조작정보 현상 연구를 위해 데이터를 제공했다가 갑자기 타당하지 않은 이유로 접근을 막기도 했어요.

뭐...하루 이틀일은 아닙니다. 2019년에 페이스북 광고가 어떤 사람들을 겨냥하는지 대중에게 알려주는 프로퍼블리카의 툴을 막았던 페이스북 (출처: 프로퍼블리카)

두 번째는 기존의 사회과학 연구에서 온라인 데이터를 활용하지 않았기 때문에 발생한 문제인데, 컴퓨테이셔널 사회과학으로 답할 수 있는 연구문제와 답할 수 없는 연구문제를 파악하는 데 시간이 걸렸어요. 예를 들어, 뉴스기사 하단의 댓글 수집으로 많이 작성되는 댓글의 유형이나 혐오표현을 연구할 수는 있었지만, 사람들이 언제 댓글을 달고 싶어하고, 왜 특정 종류의 혐오표현을 사용하는지를 연구할 수는 없었습니다. 기존에 정립된 많은 이론이 오프라인 상황을 기반으로 발전해왔기 때문에 온라인 상의 행동이나 현상을 분석하기에는 적합하지 않은 경우도 있었고요. 이렇듯 연구자들이 이전에 사용해왔던, 권위 있는 이론을 내려놓고 새로운 이론을 정립할 필요성을 깨닫는 데에 시간이 필요했습니다.

대학의 시스템과 교육방식도 발전이 필요했습니다. 컴퓨테이셔널 사회과학이라고 하면 컴퓨터공학과 사회과학의 결합이라는 생각을 하기 쉬워요. 학계에서도 처음에는 큰 고민 없이 사회과학 분야에 컴퓨터공학자들을 대거 채용했어요. 그런데 이렇게 단순히 사회과학자와 컴퓨터공학자를 한 팀으로 만든다고 해서 컴퓨테이셔널 사회과학 연구를 할 수 없다는 뼈아픈 사실은 금방 드러났습니다.

우선 컴퓨터공학자가 프로그래밍과 인공지능 기술을 연구하는 목적은 ‘더 효율적인’ 프로그램을 만드는 것이지, 꼭 사회현상을 ‘더 잘 설명하는' 프로그램은 아니기 때문에 연구의 목적에서부터 서로 의견 차가 생겼어요. 연구문제를 접근하는 방식과 연구에서 더 우선하는 가치도 달랐기에 협업이 쉽지 않았죠. 또, 방법론이나 현상을 지칭하는 용어도 서로 달랐기 때문에 소통도 쉽지 않았어요. 컴퓨테이셔널 사회과학을 연구하려면 ‘사회문제를 이해하고 이를 분석하고 설명하는 기술을 개발, 적용할 수 있는’ 컴퓨테이셔널 사회과학자가 되어야 한다는 사실을 깨닫게 됐습니다. 이후, 미국에서는 컴퓨테이셔널 사회과학을 전문적으로 가르치는 학위과정도 생겨나기 시작했고, ‘컴퓨테이셔널 사회과학'을 전공한 교수들을 채용하기 시작했죠.

마지막으로, 연구자들이 연구윤리를 재정립할 필요성도 생겼습니다. 연구기관에는 기관 내 연구가 윤리적으로 이뤄지는지를 평가하고 관리하는 연구윤리기관(IRB)을 두기 마련인데요. 컴퓨테이셔널 사회과학 연구가 최근에 이뤄지기 시작했기 때문에, 어떤 연구 방법이 윤리적인지에 관한 기준이 아직 정립되어있지 않았습니다. 이 방대한 양의 데이터를 어디에 어떻게 저장하고 관리해야 하는지에 관한 문제, 어떤 데이터가 수집해도 무해하고 어떤 데이터가 각별히 수집에 주의해야 하는 데이터인지 등에 대해 정해진 기준이 없어 연구자와 연구윤리기관 모두에게 난감한 상황이 이어졌죠. 최근에는 컴퓨테이셔널 사회과학 연구에 경험이 있는 전문가들이 연구윤리기관의 평가 과정에 참여하는 경우가 늘어나고 있습니다.

온라인 상에 축적되는 방대한 양의 데이터와 인공지능 기술의 발전이 가져온 다양한 변화, 그 중에서도 컴퓨테이셔널 사회과학이라는 새로운 분야의 생성에 관해 이야기해봤습니다. 온라인에서의 사회를 관찰하는 이 학문, 어려움도 기회도 많은 이 분야에서 인간과 사회에 관해 어떠한 새로운 통찰들이 더 나올 수 있을지 기대가 됩니다.

페이스북 내부고발자, 미 상원 청문회, 페이스북을 둘러싼 미국 내의 모든 논란들! 어거스트가 정리해 드립니다. 어거스트의 페이스북 특집편이 궁금하신 분들은 여기를 참고해주세요.

💭 오늘의 콘텐츠 추천

유미의 세포들 속 귀여운 세포들... 유미야, 울지 마!

에디터 ‹장희수›의 코멘트

유미의 세포들 보시는 구독자 분 계신가요? 이 현실연애 스토리 웹툰이 드라마가 되다니! 기다리고 기다리던 순간입니다. 잠시 죽었던 연애세포들을 보면서 부활시켜보고 있어요. 유미의 세포들의 킬링포인트는 배우 김고은과 배우 안보현의 패션과 입체감이 가득한 귀여운 세포들이 아닐까요. 귀염뽀작한 캐릭터 하나하나가 살아있어 보는 재미를 더해주는 것 같습니다. 세포들을 이렇게 실감나게 구현해낼 수 있다니!

오늘의 레터가 좋았다면

👉 어거스트에게 커피값 후원하기 ☕️

👉 오늘의 레터를 피드백해주세요! 💜

👉 지난 어거스트 보기
💜 어거스트 구독하 기 : 어거스트 구독 링크를 복사해 친구들에게 알려주세요!

💌 협업문의 augustletter08@gmail.com

Edited by Zoe • 한새벽 • 구현모 • 후니 • 찬비 • Friday • 장희수 • 식스틴