미국의 데이터 사이언스 생태계

Jin Young Kim
Information and Data Science
12 min readJun 25, 2014

--

기술 업계에서는 매년 수많은 유행어(buzz word)가 명멸하지만 ‘데이터 사이언스’라는 말은 등장한지 몇년이 지난 후에도 계속 참여 업체 수와 컨퍼런스가 늘어나면서 하나의 ‘현상’으로 자리매김하고 있다. 데이터의 양이 2년마다 두 배로 늘어난다는 각종 리포트와 함께 데이터에서 가치 창출 업무의 중요성이 부각되며 ‘데이터가 이시대의 원유’라는 말까지 나왔다.

‘현상’으로 자리 잡은 데이터 사이언스

잘 알려진 대로, 데이터 사이언스라는 용어는 흔히 ‘빅데이터’라는 대용량 데이터 처리에 대한 관심 확대와 함께 널리 사용되고 있다. 이는 2000년대 초반, 구글과 야후를 비롯한 온라인 서비스 회사에서 개발한 하둡(Hadoop)과 같은 데이터 처리 기술이 다른 분야에까지 널리 퍼지면서 나타난 현상이다.더불어 스마트폰 대중화로 인해 언제 어디서나 데이터를 접하고 생산할 수 있게 된 것도, 일반 사용자 입장에서는 중요한 변화다.

데이터 사이언스 현상을 얼핏 보면, 이렇게 눈에 보이는 기술적인 발달을 중심으로 해석하기가쉽다. 대용량 데이터를 수집·가공·분석해 가치있는 결과를 끌어내는 데에는 인프라, 분석, 시각화에 이르기까지 다양한 기술이 필요하다. 스마트폰의 대중화 역시 포터블 하드웨어/소프트웨어 기술의 발달로 가능했다. 실제 이런 기술이 없었다면 지금과 같은 ‘붐’이 일어날 수 없었을 것이다.

하지만 이런 기술적 진보가 ‘데이터 사이언스 현상’의 본질을 꿰뚫고 있는지는 다시 한번 생각해볼 문제다. 몇몇 최신기술을 도입만 하면 우리나라도 데이터 사이언스 선진국이 될 수 있을까? 전문 인력 몇명을 고용하면 ‘데이터 중심 조직’이 되는 걸까? 만약 그렇지 않다면 어떤 요소가 더 필요한 걸까? 이런 변화가 개인에게 갖는 의미는 무엇인가?

이 글에서는 데이터 사이언스의 종주국이라고 할만한 미국의 사례를 바탕으로 앞 질문에 대한 해답을 찾아보려 한다. 지난 5여 년간 필자의 경험을 바탕으로, 데이터 사이언스는 특정한 기술의 집합이라기보다는, 미국이라는 사회 경제적인 토양에서 탄생·성장한 생태계에 가깝다는 결론에 이르렀다. 이는 기술과 조직 문화, 산업계와 학계 등을 아우르는 종합적인 개념이다. 그리고 데이터 사이언스를 제대로 구현하기 위해서는 이런 생태계에 대한 이해가 필수적이다.

지금부터는온라인 서비스 기업, 데이터 솔루션 기업, 스타트업, 학계 순서로 미국의 데이터 사이언스 생태계의 각 구성요소를 살펴본다.

온라인 기업: 데이터 사이언스 기술개발 주도

우선 데이터 사이언스 혹은 빅데이터 처리와 관련된 대부분의 기술적 혁신이 시작된 구글, 야후, MS, 아마존, 페이스북, 링크드인, 트위터 같은 주요 온라인 기업의 역할을 살펴보자. 이 기업들의 공통점은 우선 현재 기술로 감당하기 힘들 정도의 대용량 데이터 처리를 주 업무로 한다.구글과 빙(Microsoft Bing)이 검색해주는 웹 문서의 양, 페이스북과 트위터가 보유한 사용자 수를 생각해보면 이들 데이터의 규모를 상상할 수 있다.

이 기업들은 최고(state-of-the-art)의 기술 역량을 자랑하지만 데이터의 용량 및 변화속도는 점차 방대해지고 빨라지고, 데이터에서 얼마큼의 가치를 뽑아내느냐에 따라 그 경쟁력이 결정되기때문에, 지속적으로 신기술을 개발해야 한다. 웹 검색 시장을 예로 들어보자. 최근 몇 년간 구글과 MS는 검색 데이터의 양을 늘리고 검색 품질을 개선하는데 노력을 기울여 왔으며, 이런 경쟁은 대용량 데이터의 저장, 처리 및 분석을 위한 다양한 기반 기술의 등장과 발전을 가져왔다.

이 회사들이 개발한 기술은 특허로 보호받거나 외부에 공개되지 않는 경우가 대부분이지만, 경우에 따라 개발한 기술을 오픈소스로 공개하거나, 관련 논문을 발표해 기술 확산에 기여하기도 한다. 실제 검색 및 데이터마이닝 학회에 가보면, 이들 기업에서 나온 논문이 상당수에 달한다. 기술을외부에 공개해 기술 리더십을 공고히 함으로써, 기업가치 및 인력채용에 도움을 받는 모습이다. 한가지 특이한 점은, 이런 회사들이 기술적 리더십만큼이나 조직 문화라는 관점에서도 변화를 주도하고 있다는 점이다. 정도나 성격의 차이는 있지만 이들 기업의 대부분이 수평적 조직구조와 함께 데이터에 기반한 의사결정 및 기민한 조직문화를 조직 운영의 근간으로 하고 있다. 재미있는 것은 이런 조직문화를 경쟁력의 주요 요인으로 꼽는 견해가 많다는 점이다.

예컨대 데이터 사이언스의 대표격이라고 할 수 있는 웹 검색 회사에서 발표된 논문에는 구체적인 기술만큼이나 기술의 운영이나 조직 문화와 관련된 부분이 많다. 이들 논문을 읽어보면, 새 기술의 적용 여부를 판단하기 위해 사용자 트레픽의 일부를 활용하는 A/B테스트와 같은 기술이 효과적으로활용되기 위해서는 조직의 의사결정의 축이 완전히 데이터 중심으로 바뀌어야 함을 알 수 있다. 실제 사용자 트래픽을 통해 실험한 결과를 의사결정권자가 무시하는 일이 반복된다면 데이터 수집과 분석 과정이 낭비에 지나지 않을 것이기 때문이다.

또한 많은 경우 데이터 분석을 위한 전문 인력 (Data Scientist)또는 팀을 보유하고 있다는 점도 특징이다. 구글의 수석 이코노미스트인 Hal Varian은 검색 트렌드에서 거시경제 지표를 예측하는 내용의 연구를 발표한 바 있다.링크드인의 데이터 사이언스팀은 가입자 검색 및 그룹 추천 등의 기술 구현에 결정적인 역할을 수행했다. 이들 전문 인력은 데이터 처리, 분석, 시각화라는 전 영역에 걸친 전문성을 가졌다는 점에서, 특정 영역의 업무만을 담당하는 기존 인력과 구분된다.

빅데이터 솔루션 업계: 첨단기술 확산 주도

데이터 사이언스 생태계의 다른 축으로, 일반 기업에게 데이터 관련 솔루션을 제공하는 여러 업체를 빼놓을 수 없다. 여기에는 전통적인 데이터베이스 업체인 오라클 / 마이크로소프트 / IBM을 포함해 빅데이터 관련 솔루션을 전문으로 제공하는 클라우데라·MapR, 마지막으로 빅데이터 처리용 플랫폼을 서비스로 제공하는 Amazon Web Service의 아마존 / Windows Azure의 마이크로소프트 등을 들 수 있다.

업체마다 각각 다른 타깃 고객층과 접근법을 갖고 있지만, 이들은앞서 언급한 주요 온라인 기업 등에서 개발한 첨단 기술을 다른 기업과 산업으로 확산하는 역할을 한다. 생태계에 비유한다면 기반 기술이라는 종자를 널리 퍼뜨리는 나비나 벌 역할을 하는 것이다.

예컨데, 구글/야후에서 처음 개발된 하둡(Hadoop)과 같은 대용량 처리기술은 클라우데라 / MapR과 같은 솔루션 업체가 없었다면 이렇게까지 널리 확산되기 어려웠을 것이다.여기에 대한 더 자세한 소개는 최근에 발간된 시장조사 보고서를 참고하기 바란다.

스타트업 & 오픈소스 커뮤니티: 건강한 숲을 구성하는 잡목과 풀

온라인 기업의 기술이나 문화는 한국에도 비교적 잘 소개된 편이다. 하지만 미국의 데이터 사이언스 생태계를 떠받치는 다른 축으로 스타트업과 오픈소스 커뮤니티를 꼽는 경우는 흔하지 않다. 몇몇 대형 온라인 기업이 숲속의 거대한 나무 역할을 한다면, 수많은 스타트업과 오픈소스 커뮤니티는 숲을 구성하는 잡목과 풀 역할을 한다.

미국의 온라인 스타트업에는 여러 형태가 있지만, 그중에서 대용량 데이터 처리를 기반으로 하는 스타트업이 다수 존재한다. 사실 SNS등의 발달로 성공적인 서비스의 가입자가 기하급수적으로 늘어나는 현실을 고려하면, 대용량 데이터 처리의 노하우는 어느 온라인 기업에서도 무시할 수 없는 부분이다.

이중 데이터 사이언스 관점에서 주목할만한 기업으로, 최근 페이스북에 인수된 인스타그램(Instagram)이나 한국에도 잘 알려진 드롭박스(DropBox), 검색 분야에서는 개인 정보를 모아 검색해주는 그렙린(Greplin) 등이 있다. 이들의 특징은 공개된 기술과 자체 노하우를 접목해 엄청난 규모의 데이터를 얼마 안되는 인원과 자본으로 처리해 낸다는 점이다.

이제는 스타트업이라기에는 규모가 너무 커졌지만, 트위터의 검색 아키텍처에 대한 공식 블로그의 포스팅을 보면, 처음에 MySQL과 Ruby on Rails를 결합한 솔루션으로 서비스를 시작했음을 알 수 있다.계속 늘어나는 사용자 리퀘스트와 데이터 용량을 수용하는 차원에서 Earlybird, Blender등의 자체 솔루션을 개발하여 대응하기에 이른다.

이와 함께 오픈소스 커뮤니티는 기업 혹은 개인이 개발한 수많은 기술 공유창구역할과 함께 스타트업이 성장하고 다시 커뮤니티에 기여할 수 있는 환경을 제공한다. 스타트업 창업자 및 초기 맴버의 경우 오픈소스 커뮤니티 활동을 통해 인연을 맺는 경우도 많기에, 스타트업과 오픈소스는 불가분의 관계라고 할 수 있다.

야후의 내부 프로젝트로 시작된 하둡(Hadoop)이나, 페이스북이 개발·공개한 아파치 카산드라(Apache Cassandra) 등 유명한 오픈소스 프로젝트 중에는 기업체 프로젝트에서 시작된 것이 많다. 기타 트위터, 링크드인을 비롯한 많은 회사들도 오픈소스 활동에 동참하고 있다.

기초과학 및 공학 교육, 연구기관: 데이터 사이언스의 터전

마지막으로 이 모든 조직이 필요로하는 인력을 양성하고, 기초과학을 발전시키는 학문적 환경에 대한 언급이 빠질 수 없다. 좋은 토양에서 다양한 유기체가 번성할 수 있듯이, 건강한 학문적 토양이야말로 데이터 사이언스 ‘문화’가 꽃피울 수 있는 터전이기 때문이다.

우선 미국이 데이터 사이언스 종주국으로 자리매김하게 된 데에는 세계 최고 수준의 기초과학 및 공학 교육 인프라의 역할이 컸다. 대부분의 학과에서 자국인의 비율이 절반이 되지 않을 정도로 미국뿐 아니라 전 세계의 젊은이들이 미국의 교육기관을 점령하고 있으며, 또한 졸업 후에 미국에서 자리를 잡기를 희망한다. 그야말로 고급 기술인력의 블랙홀 역할을 하는 것이다.

대학원 및 각종 연구기관 역시 산업계와 협력해 신기술 개발 및 확산에 큰 역할을 하고 있다. 데이터 사이언스와 직접 관련된 컴퓨터과학 및 통계학뿐 아니라 대부분의 기초과학 분야에서 미국 학계가 주도권을 쥐고 새로운 연구결과를 쏟아내고 있다. 이러한 연구 결과가 논문이나 기술 이전의 형태로 직접 산업계에 활용되는 것은 드문 일이 아니다.또한, 산업계에서는 인턴 및 정규직 모집 시에 이런 연구경험이 있는 인재를 적극 채용하고 있다.

미국의 데이터 사이언스 따라잡기 — 사회

지금까지 미국의 데이터 사이언스 생태계를 대기업, 스타트업 및 오픈소스 커뮤니티, 학문적 토양의 순서로 살펴보았다. 요약하면 미국의 데이터 사이언스 현상은 기술과 조직문화, 산업계와 학계간의 어우러짐이 이루어낸 복합체다. 따라서 이를 단지 받아들이고 흉내 내는 것에서 벗어나 장기적인 안목에서 우리만의 ‘생태계’를 만들어야 한다는 것이다.

물론 토양, 작은 유기체, 큰 나무까지 모두 조화를 이루는 생태계를 만드는 일에는 오랜 노력과 투자가 뒤따라야 한다. 우선적으로 우수 인력을 양성할 수 있는 교육제도 마련과 더불어 스타트업 및 오픈소스 활동이 활발히 일어날 수 있는 환경이 필요하다. 적어도 컴퓨터 관련 학과에서 ‘스펙’을 쌓는다는 의미가, 창업과 자발적인 개발활동을 하는 것으로 바뀐다면 가능하지 않을까 생각해 본다. 또한 대기업에서 기술 수입과 아울러, 이를 운용하는 자세와 조직 문화까지 배우려는 태도가 필요한 시점이다.

데이터 사이언스 따라잡기 — 조직

지금까지 주로 사회적 관점에서 데이터 사이언스 현상을 살펴보았다. 그렇다면 개별 조직의 관점에서는 어떨까? 관련 솔루션을 그대로 도입함으로써 데이터 사이언스를 구현할 수 있을까? 필자는 그렇지 않다고 생각한다. 데이터 사이언스를 성공적으로 구현하기 위해서는, 주어진 문제와 데이터의 성격에 맞는 모델과 시스템을 사용해야 하는데, 이는 주어진 솔루션을 그대로 도입하는 식으로 해결하기 힘든 경우가 많기 때문이다. 앞서 언급한 트위터의 사례처럼, 처음에는 적합한 외부 솔루션을 찾을 수 있다고 하더라도, 데이터의 양이나 성격의 변화로 인해 추가적인 개발이 필요한 경우가 많다.

앞서 주요 온라인 기업 사례에서 잠깐 소개했지만, 어떤 조직에 데이터 사이언스를 구현한다는 것은, 의사결정권자의 주관이 아니라 데이터에 기반한 추론에 의해 의사결정이 내려짐을 의미한다. 그런 의미에서 데이터 사이언스 도입은 기술보다는 ‘문화’의 문제다. 우선 지금 가능한 인프라를 활용해데이터를 수집하고 이를 의사결정에 응용해본 후에, 필요한 경우에만 빅데이터 솔루션 등에 투자하는 것이 낭비를 막을 수 있는 방법이다.

솔루션 도입에 있어서도오라클이나 IBM, EMC 등에서 내놓은 고가의 상용 솔루션 뿐만 아니라, 클라우데라, MapR등의 무료 솔루션 혹은 아마존 Web Service등의 호스팅 서비스 등 다양한 옵션을 고려해야 할 것이다. 효과적인 선택을 위해서는 데이터의 규모, 보안 요구사항, 처리 내용의 전화 등등 다양한 고려사항이 존재한다.

데이터 사이언스 따라잡기 — 개인

데이터 사이언스는 주로 조직 차원의 논의로 다루어지기에, 개인을 위한 데이터 사이언스라는 개념이 생소한 독자가 많을 것이다.하지만, 스마트폰의 보급과 R등 오픈소스 분석 도구의 보급으로 모든 개인이 데이터 분석가의 역할을 하는 것이 가능해졌다. 이중 주목할만한 움직임은 개인의 삶에서 수집된 데이터를 가공 / 분석해 개인의 삶을 분석/개선하는데 활용하는 Self-Tracking이라는 기술 및 관련 커뮤니티의 발달이다.

이중 대표격인 Quantified Self라는 커뮤니티는 지역별로 각 개인이 자신의 Self-Tracking사례를 정리해 발표하는 모임을 개최하고 있다. 여기서 버터 복용과 수학 문제 풀이 속도의 관계, 수면 시간과 행복도의 관계 등 다양한 사례가 소개되고 있다. 기업이 정보 시스템 도입을찰을 얻는 것이다. 필자는 약 10년동안 삶에서 여러가지 데이터를 추출하여 이를 분석하는 활동을 해왔고, 이를 블로그를 통해 소개한 바가 있다.

이런 개인적 데이터의 분석에는 빅데이터도, 최신 기계학습 기술도 들어가지 않지만, 각 개인이 자신의 문제를 해결하기 위해 찾아내는 해결책의 다양함을 보면 데이터 사이언스는 거창하고 복잡한 것이 아니라, 일상의 문제에 대한 과학적 해결책을 찾으려는 노력에서 시작함을 알 수 있다.또한, 이런 개인을 많이 보유한 조직은 변화하는 시대에 살아남을 수 있는 경쟁력을 확보하게 될 것이다.

한국 데이터베이스 진흥원에서 운영하는 DBGuide.net의 9월호에 기고한 내용입니다. 원문은 여기서 보실 수 있습니다. 저자의 홈페이지 http://www.hellodatascience.com/ 에서 데이터 사이언스에 대한 더 많은 글을 보실 수 있습니다.

--

--

Jin Young Kim
Information and Data Science

Head of Data Science and Director of Naver Search US. (We’re hiring data scientists and engineers in Korea & US!) #헬로데이터과학 #데이터지능팟캐스트