빅데이터의 주인은 누구인가?

Published in

UFOfactory org

10 min readAug 29, 2016

요즘 빅데이터는 너무도 일반적이어서, 많은 회사들이 빅데이터 기술을 활용하고 있다. 은행들은 수십 페타바이트의 고객 거래 데이터로부터 패턴을 추출하여 신용 리스크에 대한 조기 경보체제를 구축하거나 고객들의 지출 패턴을 분석하여 지출 성향에 맞는 마케팅 제품을 출시하는 등 빅데이터 기술을 적극적으로 활용하고 있다. 카드사들은 고객의 카드 사용 데이터를 처리하여 고객을 그룹화하고 그룹별 구매 패턴을 파악, 패턴에 맞는 상품 정보를 제공하거나 할인 및 행사 정보를 제공함으로써 카드 사용률을 높이는 방법들을 구현하고 있다. 음악서비스에서는 사용자들의 취향을 분석하고 비슷한 취향들을 분류하여 특정 사용자의 취향에 맞는 음악을 추천하는 방식이 이미 오래전부터 사용되고 있다. 사용자가 쌓은 데이터가 많을수록 이 추천은 더 정확해진다.

의료산업 관련 회사들은 환자들의 병력으로부터 어떤 패턴들을 찾아내기 위해 빅데이터를 활용한다. 어떤 병에 대해, 수십만 수백만명의 병력으로부터 어떤 패턴을 뽑아낼 수 있다면, 분명히 새로운 치료법 혹은 치료약을 발견해낼 수 있을 것이다. 또한 특정 증상의 패턴을 분석함으로써 해당 증상의 원인을 진단하는데 정확도를 높일 수 있다. 또한 환자들의 신체적 특징(성별, 나이, 체질, 과거 병력)을 분석하여 패턴화함으로써 이전보다 나은 맞춤형 의료 시스템을 적용할 수도 있다. 그래서 빅데이터 기술은 특히 질병 관련된 부분에서 유용하다.

자동차 업계에서는 운전자들의 운전 데이터를 수집, 분석하여 자율운전 차량의 알고리즘을 개발하는 핵심 데이터로 사용하고 있다. 최근 SKT는 연 4만원을 받던 네비게이션 앱 ‘T맵’을 무료화했다. 사용료로 얻는 수익을 포기하고 더 많은 사용자들이 쓰도록 유도하려는 것이다. 아마도 더 많은 사용자 데이터를 확보하고 분석하여 얻을 수 있는 이득이 앱을 판매해서 얻는 이득보다 훨씬 더 크다고 판단했기 때문일 것이다.

백화점과 같은 오프라인 매장도 마찬가지다. 일부 백화점에는 고객들의 안면을 인식하여 성별과 나이대를 분석하여 이들이 어떤 상품에 관심을 갖는지, 동선은 어떤지를 분석함으로써 고객들의 동선, 고객들이 그룹별로 관심을 가지는 품목, 디자인, 컬러 등을 분석하고 있다. 이러한 정보를 활용할 경우 판매량은 비약적으로 증가한다.

인터넷 서비스에서는 빅데이터 기술이 더 오래 전부터 사용되었다. 아마존이 빅데이터를 사용해온 것은 이미 잘 알려진 사실이다. 그들은 유명한 ‘협업필터링(collaboration filtering)’이란 로직으로 상당히 정확하게 고객의 관심사에 부합하는 책과 제품들을 추천하고 있다. 심지어 아마존은 2014년 고객이 주문하기 전에 고객과 가까운 물류센터에 상품을 배송해놓는 ‘예상 배송’(anticipatory shipping) 서비스 관련 특허를 출원하기도 했다. 방대한 고객 구매 데이터로부터 상품의 수요를 미리 예측할 수 있기 때문이다.

페이스북은 엄청난 양의 사용자 포스트들을 분석하고 분석 결과에 따라 수시로 노출 순서를 변경하고 있다. 페이스북은 개별 사용자들의 타임라인의 일관성을 최대한 존중하면서도 광고 도달 효과를 극대화하기 위해 엄청난 계산을 하고 있을 것이다.

필자가 보기에 인터넷 서비스에서 처음으로 빅데이터라고 할만한 데이터를 처리하여 서비스한 회사는 구글인 것 같다. 구글 검색의 핵심 알고리즘인 ‘페이지 랭크’는 웹페이지에 들어 있는 링크(다른 웹페이지의 주소)를 수집하여, 특정 단어나 주제에 대해 다른 관련 페이지들이 가장 많이 인용(링크)한 페이지를 검색 결과 최상위에 노출함으로써, 가장 신뢰성 있는 검색 결과를 제공한다. 여기서 중요한 점은, 그 각각의 링크들은 개개인들이 자발적으로 만들어낸 것이라는 사실이다. 즉 그 링크들은 개개인들의 판단 즉 개인들의 ‘지성’이 투입되어 만들어진 것이다. 구글은 이 결과를 데이터로 처리할 수 있는 알고리즘 즉 ‘페이지랭크’를 개발, 인터넷에 개별적으로 흩어져 있는 ‘지성’을 묶어냄으로써 ‘집단지성’을 알고리즘으로 구현한 것이다. 구글 ‘페이지랭크’의 핵심에는 바로 이 ‘집단지성’이 녹아있다.

여기서 뜬금없는 질문을 해보자. 그럼 그렇게 유용한 그 데이터들의 주인은 누구일까? 최근 논의되는 빅데이터 활성화 법은 기업들이 이렇게 수집된 정보들을 이윤활동에 활용하는 것을 합법화하고 장려하려는 것이다. 빅데이터란 개인정보와 밀접하게 관련되어 있기 때문에, 당연히 산업 발전을 위해 개인정보를 침해하는 요소를 최소화하고 개인정보를 직접 침해하지 않는 선에서 해당 데이터를 마음대로 활용할 수 있도록 하는 것이 필요하다.

필자는 이 법에 대해 반대하지 않는다. 오히려 개인정보 활용은 워낙 민감한 부분이어서, 활용할 수 있는 데이터와 활용해서는 안되는 데이터를 명확히 구분해주어 논란의 소지를 없애는 것으로 큰 역할을 할 것이다. 또한 산업의 발전 혹은 인터넷 전체의 발전 나아가 사회의 발전을 위해서도 빅데이터를 활용하는 것은 필요하다. 예컨대 도로의 통행량과 행인들의 통행 패턴을 분석해 교통안전을 위한 어떤 장치를 구축한다면 그것은 사회 전체에 도움이 되기 때문이다. 그리고 사실 빅데이터 활용을 피할 수도 없다. 이미 사회의 기본적인 인프라가 점점 그러한 데이터들을 활용하는 쪽으로 나아가고 있기 때문이다.

그런데 다시 질문으로 돌아와서, 그 데이터의 주인은 누구일까? 그 데이터의 소유권은 누구에게 있다고 말할 수 있을까? 백화점에서 고객들의 동선(움직인 경로) 데이터를 축적했다고 해보자. 과연 이 데이터의 주인은 백화점 사장일까? 아마도 100%는 아니어도 통상 그렇다고 말할 수 있을 것이다. 구글이 페이지 랭크 알고리즘을 통해 만들어낸 데이터는 구글의 소유일까? 아마도 통상적으로 그렇다고 말할 수 있을 것이다. 운전자들의 주행 기록을 저장한 티맵 데이터의 소유는 SK텔레콤일까? 아마도 통상적으로 그렇다고 말할 수 있을 것이다.

그런데 다시 한번 현재 상태를 진단해보자. 우리가 진찰을 받고 치료를 받고, 차를 타고 나만이 알고 있는 길로 움직이고 웹페이지를 링크를 달고 궁금한 것을 검색하고, 블로그나 SNS에 글을 올리고, 백화점에서 물건을 구매하고, 구매하지는 않더라도 좋아하는 색깔과 디자인에 눈길을 주고, 길을 걷고 도로를 건너는 행위와 같은 것들이 모두 데이터로 활용된다면, 즉 개인들의 일상 활동이 모두 데이터화되어 이용된다면, 과연 이 데이터의 주인은 누구라고 말할 수 있일까?

빅데이터 시대에는 개인들의 행위와 판단 하나하나가 데이터를 생산한다. 빅데이터 이전에 사람들이 백화점에서 주는 이득은 물건을 구매하는 것이 전부였다. 그러나 사물인터넷과 빅데이터가 연동되는 환경에서 개인의 동선, 시선, 물건을 둘러보는 행위, 좋아하는 색깔과 디자인에 반응하는 행동 하나하나가 데이터로 생산된다. 즉 개인은 구매뿐만 아니라 행위를 통해 만들어지는 데이터까지 백화점에 제공하는 것이다. 내가 뉴스를 보는 것은 뉴스를 걸러내는 포털의 알고리즘으로 처리되어 ‘많이 본 뉴스’의 기본 정보가 되고, 내가 댓글을 다는 것은 ‘댓글 많은 글’로 분류되어 사람들의 관심도를 알려주는 데이터로 활용된다. 내가 사용하는 전력량과 전력 소비 패턴 데이터는 국가 전체의 전력 수급 전략을 세우는데 약 이천만분의 1 정도(전체 가구수 분의 1)를 기여한다. 빅데이터 시대 이전에 내가 아픈 것은 그냥 내가 아픈 것이고, 주위 사람들 특히 돌보는 가족이나 친척에게 부담을 주는 일이었다. 그런데 빅데이터 시대에 내가 아파서 진찰을 받는 것은 해당 병과 치료에 관련된 데이터베이스를 업데이트 해주는 행위이며, 결국은 나와 같은 증상을 겪을지 모르는 사회의 또 다른 구성원에게 도움을 주는 일이다. 그것은 곧 사회 전체에 도움을 주는 행위를 하는 것이다.

따라서 사물인터넷 시대에 개인들은 행동 일거수일투족이 바로 정보를 생산하고 있으며 일거수일투족이 가치를 생산하고 있다고 말할 수 있다. 더 포괄적으로 이야기하자면 즉 빅데이터 시대에는 개인의 활동 그 자체가 가치를 만들어낸다고 볼 수 있다. 산업사회에서는 공장과 토지가 생산 현장이었지만 빅데이터와 그 데이터를 처리하는 자동화 알고리즘이 일반화되는 (불과 몇년 앞의) 시대에는 생활의 모든 영역이 가치 있는 무엇인가를 생산하는 생산 현장이 된다. 개인들의 개별적인 판단과 행위가 모여 거대한 ‘집단지성’을 만들어내고, 기업가가 유용하게 활용할 수도 있는 어떤 패턴들을 만들어내기에, 개인들은 존재하고 행위하는 그 자체만으로도 무언가를 ‘생산’하고 있는 것이다. 즉 활동 = 생산이 되는 시대에 다다른 것이다.

그렇다면 다시, 개인들이 생산한 이 데이터들의 주인은 누구일까? 그것을 수집하는 사람 혹은 기관, 기업들의 것일까? 노동이 공장과 사무실 안으로 들어가면서부터 일상에서 개인이 만들어내는 가치를 증명하기는 대단히 어려웠다. 그런데 이제는 개인의 일상적 활동이 사회에 도움이 된다는 구체적인 근거를 확인할 수 있게 되었다. 즉 빅데이터 시대에 개인들은 역설적으로 자신이 사회를 운영하는데 5천만 국민이면 5천만분의 1을 기여한다고 증명할 수 있게 된 것이다. 사회적 부담, 가족에게 부담으로만 여겨졌던 중환자를 예로 든다면, 빅데이터를 통해 환자는 아픈 상태에서도 사회에 1/5천만의 분량을 기여하는 것이다. 즉 빅데이터 시대에 이르러 개인들은 존재 그 자체만으로 사회에 이득을 준다는 것을 증명할 수 있게 된 것이다.

그렇다면 이 활동으로 만들어진 데이터는 100% 구글과 페이스북, 병원 소유주와 같은 기업들과 기업주들의 소유라고 말할 수 있을까? 원데이터를 생산하는 개인들의 역할을 인정한다면, 그 데이터를 가공한 기업들이 100% 소유권을 가지고 있다고 주장할 근거는 없을 것이다.

필자가 보기에 그것은 적어도 세 부류가 공동소유권을 주장할 수 있다고 본다. 가장 먼저 현재의 사회적 통념에 어긋나지 않게 이 데이터들을 취합하고 집적하고 처리하여, 즉 개별데이터들을 빅데이터로 처리하여 무언가 의미 있는 것을 생산하는 기업(기업주)들의 역할을 인정해야 한다. 이들은 이 데이터를 가치 있는 것으로 전환시키는데 역할을 하므로 이 데이터에 대한 소유권을 주장할 정당한 근거가 있다고 말할 수 있다. 두번째로 소유권을 주장할 수 있는 부류는, (이 부분은 아직 사회적으로 인정되지도 논의되지도 않는 영역인데) 빅데이터의 원재료가 되는 행위 데이터를 생산하는 개인들이다. 이 원 데이터들은 개인들의 행위로 만들어지기 때문에 이 개별 데이터들의 최초 소유자는 개인들이라고 말할 수 있다. 아마도 이것은 (필자가 법을 잘 모르지만) 개인이 ‘노동’으로 생산한 무엇에 대한 소유권이 법적으로 인정받는 것과 동일하게 법적인 소유권을 인정받을 수 있지 않을까 생각한다. 세번째는 소유권을 주장할 수 있는 것은 사회다. 사회는 개인들의 개별 행위가 형성될 수 있는 활동의 장을 제공한다. 예컨대 개인들이 행위할 수 있는 인도, 도로 등은 모두 사회가 제공하는 것이다. (사실 사회는 기업들이 이윤활동을 하는 공간도 제공하고 있다.) 따라서 사회 역시 이 데이터에 대한 소유권을 주장할 수 있다. 아마도 이 소유권은 사회를 대표해 ‘정부’가 소유권을 행사할 수도 있을 것이다. 그리고 정부는 사실상 특정한 공동체에 소속된 개인들의 집합체로 구성되기에, 사실상 정부의 소유권은 개인들에게 1/n로 귀속될 수도 있다.

이 3개의 소유권의 지분율을 계산한다던지, 정확한 기여분을 계산하는 것은 쉽지 않을 것이다. 그럼에도 불구하고 이 개인들이 이 데이터의 소유권을 (일부) 가지고 있다는 것은 명백하다.

바로 이 지점에서 나는 이 시대에 ‘기본소득’의 정당성이 증명될 수 있다고 생각한다. 빅데이터를 기반으로 한 자동화된 생산이 일반화되는 사회에서 개인들은 그 존재만으로도, 아주 일상적인 활동만으로도 사회에 이득을 주는 것이기에, 사회가 그들로부터 얻은 이득의 댓가를 지불하는 것은 지극히 당연한 것이다. 그리고 개인들이 이렇게 기여하는 행위는 단위별로 계산하기에는 너무 작고도 가지수가 많아서 계산하기는 쉽지 않을 것이다. 즉 개개의 행위를 측정해서 지불할 비용을 계산하는 것이 사실상 불가능한 것이다. 따라서 이 부분은 개인들이 사회에 기여하는 공동의 역할로 인정할 수 있고, 바로 그만큼을 개인들에게 ‘기본소득’으로 제공하는 것이 정당하고 합리적인 방법일 것이다.

빅데이터의 주인은 누구인가?

Written by Myung Sahn Juhn