사기업에게 데이터 공개를 강요해야 하는 이유
지금을 읽고 싶은 사람들의 미디어 이야기, 어거스트
안녕하세요! 에디터 찬비입니다.

오늘은 소셜 미디어 플랫폼이 마주하고 있는 새로운 파도, 데이터 투명성에 대해 이야기해봅니다.
👋  오늘의 에디터 : 찬비
꽃을 볼 수 있는 봄이 온 것은 즐겁지만, 작년보다 훨씬 따듯한 날씨는 많은 생각을 하게 하네요.
오늘의 이야기
1. 플랫폼에게 책임을 요구하는 목소리
2. 크라우드탱글과 페이스북
3. 데이터 투명성에 대한 일문일답
😤 플랫폼에게 책임을 요구하는 목소리
2021년을 돌아봤을 때 가장 기억에 남을 사건 중 하나는 분명 프랜시스 하우겐의 ‘페이스북 문서’ 일 거예요. 하우겐은 페이스북이 자사 알고리즘의 문제점을 인지하고서도 별다른 조치를 취하지 않았다는 것을 밝혔어요. 미국 상원 청문회에 참석해 이 이야기를 공론화하기 위해 노력했고, 언론사 기자들을 슬랙으로 모아서 언론 협업체를 구성하기도 했어요. 페이스북은 결국 모회사 이름을 메타로 변경할 수밖에 없었습니다.
(c) WSJ  

지난해 WSJ는 틱톡 알고리즘의 문제점을 파악하기 위해 100개 이상의 틱톡 봇 계정을 생성해서 실험을 진행했어요. 여러 봇으로 파악한 알고리즘의 특징은 일단 사용자가 스크롤을 멈춘 영상이나 다시 본 영상 등으로 관심사를 파악한다는 것. 처음에는 조회 수가 백만 이상인 인기 영상을 보여주다가 시청 시간이 길어지고, 관심사가 파악되면 그 관심사에 대한 영상을 추천한다고 합니다. 다만, 대부분의 계정에서 시청시간이 길어질수록 점점 니치한 영상을 추천하기 시작하면서 극단적인 영상들이 대거 추천되는 문제점이 발견되었다고 합니다.


이렇듯 페이스북, 인스타그램, 틱톡, 유튜브 등 세계적으로 거대한 영향력을 지닌 소셜 미디어 플랫폼이 있지만, 우리는 이 안에서 어떤 일이 일어나는지 알 수 없습니다. 플랫폼이 ‘어떤 콘텐츠의 조회수가 급증하는가'와 같은 데이터를 공개해야 할 의무는 없기 때문이죠. 알 수 있는 방법은 하우겐처럼 내부 자료를 고발하는 사람이 생기거나, WSJ처럼 실험을 진행하는 수밖에는 없어요. 하지만 강력한 영향력을 지닌 플랫폼이고 관련된 문제가 계속 발생하는 만큼 면밀히 조사할 수 있어야 한다는 목소리가 커지고 있어요.


아마 알고리즘을 공개하려는 움직임은 뉴스에서 많이들 접해보셨을 거예요. 우리나라에서도, 미국에서도 편향이나 차별의 위험이 있는 AI 알고리즘을 공개해야 한다는 법안이 발의되었다고 해요. 이것과 별개로 플랫폼이 실시간으로 데이터를 연구자와 대중에게 공개해야 한다는 ‘데이터 투명성(data transparency)’를 주장하는 움직임도 있는데요, 오늘은 이 이야기를 해보려고 합니다.
🧐 크라우드탱글과 페이스북

사실 페이스북에는 어떤 글이 바이럴 되고 있는지를 볼 수 있는 크라우드탱글(CrowdTangle)이라는 툴이 있습니다(현재는 새로운 가입자를 받고 있지 않네요.). 크라우드탱글은 페이스북의 페이지와 그룹에서 일어나는 일들을 분석할 수 있는 툴을 제공하는 스타트업이었는데, 2016년에 페이스북에 인수되어 모두가 사용할 수 있는 무료 서비스로 공개되었어요. 기자나 인권단체, 팩트체커들이 주로 이용했다고 해요.


하지만 크라우드탱글의 데이터가 점점 페이스북의 부정적인 면을 보여주기 시작하면서 페이스북 리더십은 이 툴이 불편해졌습니다. 2020년 7월, 뉴욕타임스의 기자 케빈 루스(Kevin Roose)는 크라우드탱글의 데이터를 활용해 Facebook’s Top 10이라는 계정을 운영하기 시작했어요. 미국에서 가장 사용자의 참여(engagement)가 많은 링크를 포함한 페이지를 기록하는 계정이었어요. 계정의 팔로워가 늘어나기 시작하면서 순위권에 자극적인 글을 작성하는 우파 인사들이 자주 등장하는 것이 화제가 되기 시작합니다. 페이스북이 극우세력에게 친화적인 서비스라는 오명(?)을 받게 된 거예요.

(c) Facebook's Top 10

페이스북은 바로 이러한 이미지에서 벗어나기 위해 적극적으로 노력합니다. 페이스북의 CEO인 마크 저커버그가 나서 악시오스와 인터뷰를 하고, 뉴스피드 담당 VP 등 임원진이 나서서 데이터와 실제 뉴스피드에서 보이는 정보는 다르다는 이야기를 하기도 해요. 참여(engagement)가 아니라 크라우드탱글에서 공개하지 않는 도달(reach)을 지표로 사용하면 다른 데이터를 볼 수 있다고 하기도 합니다. (실제로는 도달을 지표로 사용해도 비슷한 결과를 보여줬다고 해요.)


그 과정에서 내부적으로는 두 가지 파로 갈리게 됩니다. 크라우드탱글의 공동창업자이자 CEO였던 브랜던 실버맨(Brandon Silverman)을 포함한 쪽은 페이스북에 좋든 나쁘든 최대한 더 많은 데이터를 오픈해야 한다고 주장했어요. 반대로 당시 CMO였던 알렉스 슐츠(Alex Schultz)를 비롯한 쪽은 이미 너무 많은 데이터를 공개하고 있으니 선택적으로 오픈하자고 주장해요. 이미 지금의 페이스북을 아는 우리에게는 당연하게도, 페이스북은 당면한 알고리즘의 문제를 고치는 대신 데이터를 가려버리자는 선택을 하게 되고, 크라우드탱글 팀을 해산시킵니다. 그리고 얼마 후 실버맨은 페이스북을 떠나요.

Brandon Silverman © NYT
페이스북을 떠난 실버맨은 이제 상원의원들과 협력해 플랫폼이 데이터를 공개하도록 하는 법안을 구체화하고 있습니다. 지난 10월, 스탠포드 법대 교수 나다니엘 퍼실리는 미 연방거래위원회(FTC)가 플랫폼에게 실시간으로 어떤 정보가 전파되고 있는지 공개하도록 강제할 수 있는 법안을 제정할 것을 제안했습니다. 그의 제안을 바탕으로 민주당의 쿤스 및 클로부셔 의원과 공화당의 포트만은 작년 12월, 소셜 미디어 플랫폼이 연구원과 데이터를 공유하도록 하는 플랫폼 책임 및 투명성 법안(Platform Accountability and Transparency Act, PATA)을 발의했어요. 퍼실리 교수는 실버맨의 합류가 중요했다고 인터뷰에서 이야기했다고 해요. 플랫폼이 어떤 데이터를 가지고 있고, 어떻게 하면 잘 활용할 수 있는지 제일 잘 아는 사람 중 한 명이니까요.
🙌 데이터 투명성에 대한 일문일답

이 일련의 이야기를 접하면서 ‘데이터 투명성’에 대해 여러 가지가 궁금해졌어요. 그래서 UC 버클리의 장기 사이버 보안 센터에서 연구하고 계시는 백지연 박사님께 궁금한 것들을 여쭤봤습니다. 박사님은 프라이버시, 데이터 거버넌스, 플랫폼 콘텐츠 규제 같은 이슈에 대한 정책을 연구하고 계시다고 하니 이 분야에 제격이시죠. 박사님의 인터뷰와 브랜던 실버맨의 인터뷰를 녹여서 데이터 투명성에 대해 더 알아보았습니다.

🤗 백지연 박사님의 인터뷰 내용은 박사님 개인의 의견으로, 박사님이 소속된 센터의 입장이 아닙니다.


찬비: 소셜 미디어 플랫폼에 데이터 투명성은 왜 필요한가요?


백지연: 소셜미디어 플랫폼이 우리의 다양한 생활 영역 전반에 걸쳐 중요한 역할을 한다는 점을 생각할 때, 데이터 투명성은 점점 대두되고 있는 다양한 플랫폼 관련 문제점들을 이해하고 나아가 해결책을 의논하는 과정에 도움이 될 첫 단추라고 생각합니다.


찬비: 그렇다면 데이터 투명성은 사회적으로 어떤 도움이 될 수 있을까요?


백지연: 크게 두 가지 측면을 이야기할 수 있어요. 첫째, 데이터가 공개됨으로써 정부 기관, 학계, 미디어, 시민 단체 및 개개인 등 다양한 우리 사회 구성원이 플랫폼의 기능과 영향에 대해 잘 이해하고 분석하는 시작점이 될 수 있습니다. 둘째, 소셜 미디어 플랫폼이 데이터 공개로 인해 부담을 가지게 되고 이로 인해 데이터를 더 나은 방식으로 다루고 이용할 방법을 모색할 수도 있습니다. 


실버맨 역시 박사님과 비슷하게 세 가지를 이야기합니다. 현상을 이해하고 연구할 수 있는 강건하면서 강력한 연구자 커뮤니티를 만들 수 있고, 플랫폼이 올바른 결정을 내렸는지 책임을 물을 수 있고, 플랫폼 내의 악성 사용자를 막을 수 있다고요.


또한 인터뷰에서 크라우드탱글로 얻을 수 있는 데이터가 실제로 미얀마나 스리랑카, 에티오피아의 인권운동가에게 큰 도움이 된다는 것을 언급합니다. 실제로 발생하는 폭력을 방지하고 선거가 문제없이 진행되도록 도울 수 있다는 거죠. 지난해 노벨 평화상 수상자인 마리아 레사(Maria Ressa)와 그의 래플러(Rappler)팀은 크라우드탱글을 활용해 필리핀에서 퍼지는 허위정보와 혐오 표현을 저지하기 위해 노력해왔다고 해요.


찬비: 사회적으로는 도움이 된다는 것은 알겠어요. 하지만 소셜 미디어 플랫폼에게는 꽤나 불리한 내용인 것 같은데, 플랫폼이 자사의 데이터를 공개해야 하는 이유는 무엇일까요?


실버맨은 이 질문에 대해 꽤 강력한 톤으로 답해요. 여러 가지 이유로 설득할 수 있겠지만 “결국 그것을 해야 하는 진짜 이유는 당신이 구축한 것에 대한 책임을 져야 하기 때문입니다”라고요. 강력한 힘에는 그만큼의 감시가 필요한 법인만큼 자사 플랫폼이 사회에 어떤 영향을 미치고 있는지 알 수 있도록 사회를 지원해야 할 필요가 있다고 해요. 덧붙여 실버맨은 페이스북은 현재 크라우드탱글이라도 있지만, 틱톡, 텔레그램, 유튜브는 이런 노력을 별로 하지 않고 있다고 비판합니다.


찬비: 위에서 언급했던 법안이 실질적으로 도움이 되려면 어떤 내용이 포함되어야 할까요?


백지연: 여러 플랫폼이 일관된 방식으로 지표를 도출할 수 있도록 하는 조항이 필요합니다. 도출 방식이나 제공하는 지표가 상이할 경우, 비교 연구가 어려워지기 때문입니다. 정확한 비교가 가능해져야 플랫폼의 사회적인 영향에 대한 보다 구체적인 연구가 가능해지니까요.


또한 데이터를 공개하는 과정에서 발생할 수 있는 문제점을 방지하는 조항도 필요합니다. 예를 들어, 데이터가 공개될 때 플랫폼 이용자들의 데이터 프라이버시 등이 제대로 지켜질 수 있도록 데이터를 적절히 관리하고 취합하는 방법 등을 명시할 필요가 있습니다.


실버맨은 프라이버시와 관계없는 데이터임에도 플랫폼에서 공개하지 않는 데이터가 많다고 지적해요. 이미 있는 데이터를 더 접근하기 쉽고, 잘 활용할 수 있도록 하는 ‘효율적인 투명성'에 대한 고민이 필요하다고요. 예를 들어, 팩트체크가 되었는지 여부에 대한 라벨을 공개한다면 러시아-우크라이나 전쟁에 대해 어떤 허위정보가 가장 많이 퍼졌는지를 알 수 있겠죠.


비슷하게 플랫폼에서 자체적으로 삭제한 콘텐츠에 대한 데이터를 공개하는 것도 중요한데, 삭제된 콘텐츠를 보관하거나 연구자와 공유하는 것에 대한 기준이 없는 것이 안타깝다고 이야기합니다.


찬비: 넷플릭스는 최근 TOP 10이라는 웹사이트를 통해 자체적인 시청률 지표를 공개하고 있는데, 이런 것도 도움이 될까요?


백지연: 아예 공개를 하지 않는 것보다는 일정 부분 도움이 되는 변화이겠지만, 자체적인 지표 공개에 대한 한계점은 있다고 생각해요.


찬비: 이번에는 조금 다른 이야기를 해볼게요. 국내외에서는 데이터보다는 알고리즘을 공개해야 한다는 이야기가 먼저 언급되었어요. 알고리즘과 데이터, 두 가지를 공개하는 것은 어떻게 다를까요?


백지연: 알고리즘과 데이터, 두 가지가 모두 공개될 때 플랫폼에서 파생되는 여러 문제점을 적절히 이해할 수 있을 것입니다. 데이터만 공개된다면 그 데이터들이 어떤 알고리즘을 통해 결과에 도달했는지를, 알고리즘만 공개된다면 이 알고리즘이 왜 특정 결과를 도출했는지를 이해하지 못하게 될 거예요.


찬비: 최근 PATA를 비롯해서 데이터 투명성 관련 법안들이 제안되고 발의되고 있습니다. 연구자로서는 어떤 인상을 받으시는지 궁금해요.


백지연: 법안들에 연구자의 역할이 중요하게 제안되어 있다는 점이 인상적이고, 연구자로서 책임감이 들기도 합니다. 정부-연구자-플랫폼 간 데이터 공개와 분석이 안전하고 정확하게 이뤄지도록 구체적인 내용이 포함되어야 법안이 성공할 수 있을 것이라 생각합니다.


PATA나 캘리포니아에서 발의된 Social Media Transparency and Accountability Act of 2021이 대체로 양당의 지지를 받고 있다는 점이 인상적입니다. 구체적인 조항에서는 차이가 있지만 소셜미디어 플랫폼 데이터 투명성이 필요하다는 일종의 사회적 합의가 이루어지고 있다는 느낌을 받습니다.


찬비: 마지막으로 연구자로서 데이터 투명성과 관련해 앞으로의 전망을 어떻게 보시나요?


백지연: 데이터 투명성에 대한 여러 법안들이 제안되고 있는 것은 상당히 고무적이지만, 실제로 이 법안들이 성공적으로 통과될지, 또 통과된다면 그 과정이 얼마나 걸리고 그 결과가 실효적일지는 지속적인 사회적 관심과 합의에 달려있다고 생각합니다.

 

데이터 투명성은 프라이버시, 차별과 같은 여러 다른 문제점들과 맞닿아 있는 이슈이기도 합니다. 따라서 소셜미디어 플랫폼을 넘어 인공지능과 같이 새롭게 결합되고 발전되는 기술들을 이해하고 그로부터 파생되는 문제점을 해결하는 데도 데이터 투명성은 계속 중요한 지점으로 논의될 것이라고 생각합니다.

사실 저는 데이터 투명성을 처음 접했을 때 기대감이 컸어요. 플랫폼의 데이터가 안전하게 공개만 된다면 할 수 있는 연구들은 무궁무진할 것 같거든요. 디지털 발자취를 따라서 현재 사회의 특징부터 온라인 공간에서의 사람들의 행동들을 더 다양하고 자유롭게 연구할 수 있을 테니까요. 연구들이 풍성해질수록 플랫폼들도 연구자들을 의식하면서 좀 더 윤리적인 선택을 하고자 노력할 수도 있겠죠.

하지만 한편으로는 플랫폼이 데이터를 안전하게 공개하도록 하고, 이를 연구자들이 연구할 수 있게 되는 시점까지는 아직도 멀었다는 생각이 들기도 해서 조금 허탈하기도 하고요. 하지만 오늘 여러분의 데이터 투명성에 대해 알게 되셨으니 이 속도가 빨라질 수도 있겠죠? 여러분의 생각을 피드백을 통해 공유해주시면 꼼꼼히 읽어보겠습니다.
 💭  오늘의 콘텐츠 추천

Beyonce - Be Alive (94th Academy Awards Performance)

에디터 <찬비>의 코멘트
올해 아카데미에서 윤여정 배우의 시상 멘트도 멋졌지만, 제가 넋이 나가 보았던 것은 비욘세의 무대였어요. 영화 ⟪킹 리차드⟫의 OST로 오스카 후보에 오른 덕분에 오프닝 무대가 될 수 있었다고 해요. 라임색으로 통일된 세트와 의상 속에서 아름다운 안무와 화음으로 구성된 이 무대는 정말… 비욘세는 어떻게 이렇게 매번 최고의 무대를 갱신할 수 있을까요. It feels so good to be alive!
👉 오늘의 레터가 좋았다면 커피값 후원하기 ☕️
👉 오늘의 레터를 피드백해주세요! 
💜  어거스트 구독하 : 어거스트 구독 링크를 복사해 친구들에게 알려주세요!
💌  협업문의  augustletter08@gmail.com
Edited by  Zoe • 한새벽 • 구현모 • 후니 • 찬비 • Friday • 구운김 • 식스틴
Copyright © AUGUST All rights reserved. 수신거부