3년 전, 필자는 파리로 여행을 가게 되었습니다. 타지에서 헤메고 싶지 않은 마음에 각종 지도며 관광 정보등을 찾아보며 만반의 준비를 했지만, 막상 현지 도착 첫날부터 호텔까지 가는데에도 구글맵의 도움을 받았습니다. 그 후로도 여행 사전 조사를 했다는 말이 무색하게도 길 안내부터 달팽이 요리 맛집 검색까지 인터넷의 도움을 수시로 받았고, 덕분에 모든 일정을 무사히 소화시키고 여행을 끝마칠 수 있었습니다. 피곤한 몸을 뒤로하고 집으로 돌아오는 비행기 안에서 문득 생각이 들었습니다. “인터넷이 없다면 이번 여행은 어땠을까?”
많은 사람들이 한번쯤은 해 보는 생각이 아닐까 합니다. 아침에 일어나 메신저를 확인하고 자기 전 이메일을 보내기까지 인터넷은 현대인의 일상에 가장 많이 스며들어있는 기술인것 같습니다. 그런데 현재 없다고는 상상이 불가능할 정도로 중요한 인터넷을 세상의 절반정도만이 쓰고 있습니다. 특히 아프리카나 중앙 아시아쪽의 낙후된 지역들은 인터넷 보급률이 현저히 낮죠.
이러한 인터넷 문맹률을 해소하고자 페이스북이 출사표를 던졌습니다! 전 세계를 인터넷으로 연결하고자하는 비전을 안고, 인터넷을 인프라가 구축되지 않은 곳에 보급하겠다는 의지를 보이고 있는데요, 페이스북의 계획은 무인 드론을 띄워서 인터넷이 없는 곳에 전파를 쏘는 형식이라고 합니다.
하지만 계획을 실행하기에 앞서, 페이스북은 한가지 난관에 봉착하게 됩니다.
드론을 띄우고 난 후 어디에 인터넷을 쏘아야 하지?
지구의 대부분은 사람이 살지 않는 곳인데, 모든 곳에 인터넷을 연결할 필요가 있을까요? 사막의 전갈이나 농작물들이 인터넷을 쓰는것은 아니잖아요? 그렇다고 사람이 사는 곳이라고 알기 쉬운인구 밀집 지역에만 인터넷을 연결하자니 도시 사람이 아니면 혜택을 보지 못하고 본래의 취지와는 멀어지죠. 그래서 페이스북의 과제는 “지구의 인구 밀집도를 파악하는것"으로 귀결됩니다. 전 세계를 발로 뛰며 인구 조사를 해 볼수도 없는 노릇이니, 페이스북은 이 문제를 위성 사진을 이용한 딥러닝으로 (딥러닝에 관한 자세한 이야기는 추후에 다른 이야기로 소개하겠습니다) 접근합니다. 페이스북의 단계별 접근을 소개하겠습니다.
- 데이터, 데이터, 데이터!: 데이터 수집
그렇다면 위성사진을 이용한 인구 밀집도를 측정하기 위해서 페이스북에게 가장 먼저 필요한 것은 무엇일까요? 바로 모든 데이터 분석의 시발점, 데이터 입니다. 위성 사진을 분석 하기 위해서는 위성 사진이 필요하죠. 페이스북은 DigitalGlobe 와 협력해 위성 사진을 준비합니다.
바로 위와 같은 사진 수십억장을 준비하죠.
2. 전갈과 사자는 인터넷을 쓰지 않아요: 데이터 선정
페이스북은 DigitalGlobe 와의 협력으로 인하여 이미지가 아주 많습니다. 하지만 모든 이미지가 필요할까요? 위성 사진중에는 사막 한복판을 찍은 사진도 있을것이고, 사바나의 사자 무리가 들어간 사진도 있을 것이며, 광활한 옥수수밭을 찍은 사진도 있을 것입니다. 이러한 지역들의 사진은 드론이 비행을 할 가능성도 낮고, 딥러닝을 이용하는데에 있어 도움을 주지 못하기 때문에 걸러내는 작업을 합니다. 좋은 재료를 써야 맛있는 요리가 나오는것 처럼, 데이터 사이언스도 좋은 데이터를 써야 정확한 결과가 나온답니다.
3. 인간의 흔적을 찾아라: 딥러닝 이용
사막과 사바나같은 “당연히" 사람이 살지 않는 곳의 사진은 없으니, 이제 본격적으로 사람이 사는 흔적을 찾을 차례 입니다. 사진으로 사람의 흔적을 찾으려고 한다면, 무엇을 찾는것이 가장 효율적일까요? 사람이 사는 곳이라면 무조건 존재하고, 발견하기 쉬운 “흔적"들에는 무엇이 있을까요? 위의 위성 사진을 보아도 한눈에 들어오는! 바로 건축물 입니다. 페이스북은 신경망 (Neural Network)이 건물들을 찾아낼 수 있도록 8000장의 인도 위성 사진들로 훈련을 시작합니다.
**********
여기서 잠깐! 신경망 훈련이 무엇이냐고요? 간단히 말해 신경망이 건물들을 찾아낼 수 있도록 예시를 주며 “가르치는것” 이라고 보시면 됩니다. 아무것도 모르는 아이에게, 사진을 주며 건물을 찾으라고 하면 못하는것과 마찬가지로, 훈련이 안된 신경망은 백지 상태와 같습니다. 즉, 8000장의 “정답” (인간의 흔적의 유무에 대한)이 포함된 사진들을 가지고 신경망을 훈련시켜, 다른 사진을 주었을때 정답을 맞출 수 있도록 하는 것이죠. 원래 신경망을 훈련하는데에 있어 8000이란 데이터의 양은 적은 축에 속하지만, 이 경우에는 훈련이 잘 된 케이스라고 합니다.
**********
훈련의 결과를 볼까요?
말라위와 케냐의 위성 사진을 가지고 신경망이 건축물을 찾아낸 예시입니다. 언뜻 보아도 훈련이 잘 된것 같습니다. 이제는 신경망이 찾아낸 건물들을 토대로 본격적인 인구 밀집도를 예측하여 볼 것입니다.
4. 여기 이렇게 모여있었군!: 밀집도 계산
이제 건물들이 보이니, 인구 밀집도 계산할 차례 입니다. 인구 밀집도를 계산하기 위해서는 기존에 존재하는 인구 통계 (나라나 지역별 통계)를 이용합니다. 페이스북과 협력 관계에 있는 콜럼비아 대학교에서는 인구 통계 자료와 “건물 지도”를 바탕으로 인구 밀집도 지도를 생성합니다.
위에서부터 차례대로 A: 아이티, B: 스리랑카, C: 남아공, D: 가나, E: 말라위 입니다. 처음에는 단순했던 위성 사진이 이런 멋진 인구 밀집 지도로 변신했네요! 더 궁금하신 분들은 이미지 출처나 출처에서 소개된 인구밀집 지도를 방문 하시는것도 추천 드립니다. 아래와 같이 높은 해상도의 지도를 보여주고 구글맵과 같이 확대가 가능한 지도입니다.
그렇다면 페이스북의 이러한 연구는 인구 밀집도 통계를 얼마나 더 정확하게 만들었을까요? 다음은 과거의 밀집도 지도와 이번 연구 결과의 지도입니다.
과거 지역별 인구 통계로만 인구 밀집도를 예상했어야 하는 지도보다 갑절로 정확해진 모습을 볼 수 있습니다.
페이스북은 앞으로도 더 많은 지역들을 대상으로 연구를 확대 시킬 것이라고 하네요. 인구 밀집도 지도는 효율적인 인터넷망 구축 이외에도 재난/재해 대처, 인프라 구축등 여러 방면에도 활용도가 높을 것으로 보입니다. 페이스북과 콜럼비아 연구팀의 행보가 기대되네요.
마지막으로 이번 연구 결과의 성과를 보여주는 비디오와, 페이스북의 인터넷 프로젝트의 링크를 소개하고 끝마치겠습니다.
아래 비디오는 기존의 인구 밀집도 지도와, 이번 연구로 더욱 정확해진 밀집도 지도를 비교합니다.
페이스북의 인터넷 연결 프로젝트에 관심이 더 있으시다면 아래의 링크 방문을 추천 드립니다 (아쉽게도 아직 한글로 된 웹사이트는 없는듯 합니다).
https://info.internet.org/en/
이 현 2017–03–12