김인근 | ingeun92@naver.com | CURG
현재 Medium CURG 그룹 내에 AI 세션에는 14개의 글이 올라와 있다. AI에 관련된 여러 정보들이 알차게 설명이 되어있다. 대부분이 기술에 관련된 정보들과 설명으로 이론적인 부분들이 강조가 되어있다. 물론 CURG가 스터디 그룹이기 때문에 이론적인 부분에 맞추는 것이 맞지만 필자를 포함한 많은(?) 사람들의 궁금증을 위해 이번 글을 기획하게 되었다.
위에서 말한 궁금증은 이렇다. 이렇게 이론적으로 정립되고 있고 논문도 많이 나오는 상태의 AI의 기술들이 우리의 실생활에서는 어떻게 쓰이고 있는지에 대한 궁금증이다. 사실 이 부분에 대해 필자의 궁금증이 컸기 때문에 조사를 하는 것이지만 이 조사 결과가 다른 독자들에게도 많은 도움이 되길 바라면서 글을 시작해 보겠다.
Intro
우선 인공지능(AI)은 인간의 학습능력, 추론능력, 지각능력, 자연언어의 이해능력 등을 컴퓨터 프로그램으로 실현한 기술로써 이미 1956년에 인공지능이라는 학문 분야가 들어서게 되었다. 이걸 설명하는 이유는 인공지능이라는 분야 자체는 등장한지 꽤 오래되었지만 이것이 학문적인 응용이 아닌 산업이나 실생활에 적용되어 응용된지는 얼마 되지 않았다는 사실을 강조하기 위해서이다.
21세기에 들어와 컴퓨터 성능이 이전보다 훨씬 업그레이드 되고 학문적으로 침체기에 있던 여러 문제들에 대해 해결되면서 지금에 이르게 되었다. 물론 예전 인공지능 학자들이 생각하던 인간 수준의 지능을 위한 전체적인 시스템으로까진 발전되지 않았지만 특정 문제나 접근 방식에 따라 특수한 인공지능들이 지금도 우리 주변에서 뛰어난 활약을 펼치고 있다(Google Deepmind 팀의 Alphago도 바둑이라는 특정 문제에 집중한 케이스). 이러한 인공지능 시스템이 실생활에서 어떻게 활용되고 있는지 하나하나 알아보자.
추천 시스템
먼저 추천 시스템을 이루는 가장 기본적인 방식은 아래의 콘텐츠 기반 필터링 방식과 협업 필터링 방식이 있다.
콘텐츠 기반 필터링
콘텐츠 기반 필터링은 콘텐츠 정보를 기반으로 다른 콘텐츠를 추천하는 방식으로 영화 콘텐츠를 예를 들면 영화의 줄거리, 등장인물과 장르 등을 데이터화 하여 추천하는 방식이다. 콘텐츠 기반 필터링의 장점은 콘텐츠 자체를 분석하는 것이기 때문에 초기에 사용자의 행동 데이터가 적더라도 추천이 가능하다는 점이다. 그러나 콘텐츠 기반 필터링의 경우 콘텐츠의 정보를 모두 함축하는 것에 어려움이 따르기 때문에 알고리즘의 입장에서 이용자의 성향을 세부적으로 파악하기가 어렵다는 한계점이 존재한다.
협업 필터링
협업 필터링은 많은 사용자로부터 얻은 기호 정보에 따라 사용자들의 관심사를 자동으로 예측하게 해주는 방법으로 같은 행동을 한 사람들을 하나의 프로파일링 그룹으로 묶어서 그룹 내의 사람들이 공통적으로 봤던 콘텐츠를 추천하는 방식이다. 예를 들면, 쇼핑몰에서 상품을 구매하면 해당 상품을 구매한 사람들이 구매한 다른 상품들을 추천 상품으로 보여주거나 SNS에서 나와 친구를 맺고 있는 사람들의 친구들을 자동으로 추천해주는 방식이다. 그러나 협업 필터링의 경우 기존 데이터가 없는 신규 사용자의 경우 추천이 힘들고 사용자가 많아질수록 추천에 계산시간이 증가하며 다수의 사용자가 관심을 보이는 소수의 콘텐츠가 전체 추천 콘텐츠로 보이는 비율이 높아져 소외되는 콘텐츠가 생긴다는 한계점 또한 가지고 있다.
이를 유명한 콘텐츠 회사들은 어떻게 활용하고 있을까?
유튜브
첫번째 상황: 유튜브에 접속한다. 나의 아이디로 로그인 한다. 첫 홈화면에서 보고 싶어 손길이 가는 영상들이 쭉 쏟아져 나온다.
두번째 상황: 유튜브에서 재밌게 영상을 보고 댓글창을 확인한다. 댓글 중에서 “유튜브의 알 수 없는 알고리즘이 나를 이곳으로 이끌었다.”라는 댓글을 목격한다
위의 상황들로 대표되는 현상은 유튜브에 추천 알고리즘이 적용되고 나서 발생하기 시작했다. 유튜브는 매분마다 500시간 이상의 새로운 동영상이 업로드 되며, 매일 3000만 명이 방문하여 10억 시간 이상 시청하는 동영상 플랫폼 계의 공룡같은 존재이다. 이렇게 방대한 양의 정보가 있기 때문에 우리가 원하는 정보를 찾아다니기 위해서는 우리의 시간과 노력이 많이 들 수 밖에 없다. 유튜브 측에서는 이러한 점을 해결하기 위해 유튜브 추천 알고리즘을 이용해 대신해서 정보를 추천해주고 선택할 수 있게 해주었다. 그렇다면 유튜브는 추천 알고리즘을 어떤 AI 기술을 사용하고 있을까?
유튜브에서는 일단 추천 알고리즘을 외부에 공개하지 않고 있다. 그러나 세간의 추측으로는 위의 콘텐츠 기반 필터링과 협업 필터링을 믹싱하여 사용하고 있으며 여기에 들어가는 필터링 요소는 영상의 길이, 태그, 설명 그리고 같은 채널 구독자의 패턴 등이 들어갈 것으로 예상하고 있다.
이러한 필터링 요소를 분석한 보고서가 있는데 한국언론진흥재단에서 펴낸 “유튜브 추천 알고리즘과 저널리즘”이란 제목의 연구보고서이다. 보고서에서 카이스트, 서울대 공학전문가들이 ‘문재인 대통령’, ‘방탄소년단’, ‘유시민’, ‘홍준표’, ‘조국’의 5개 키워드를 대상으로 2019년 9월 2일부터 8일까지 일주일간 수집한 33만 4425개의 추천 목록을 분석해 유튜브 추천 알고리즘의 경향을 파악했다. 그 결과 전통적인 언론사에 대한 선호 현상과 제목이 길고 제목 안에 주요 키워드가 많을수록 선호하는 현상 그리고 생중계 영상에 대한 선호 현상을 발견했다고 밝혔다.
넷플릭스
넷플릭스는 협업 필터링과 콘텐츠 기반 필터링의 단점을 보완하고 통합한 앙상블 체계를 사용한다. 이 앙상블 체계는 동일한 영상을 본 사람들이 비슷한 패턴의 행동을 보인다면 같은 프로파일링 그룹으로 묶는 협업 필터링을 사용한다. 예를 들면, 같은 영화를 시청하는 두 사람이 영상을 일반 배속이 아닌 느린 배속 혹은 빠른 배속을 적용하는 행위를 보이거나 드라마를 같은 회차까지 보고 종료하는 행위를 보인다면 이들을 같은 시청 패턴을 가진 하나의 프로파일링 그룹으로 묶게 된다. 여기서 넷플릭스는 콘텐츠 장르, 재시청 비율, 중간정지 여부 등 아주 다양한 기준으로 세부적인 그룹을 만들어서 더 정확한 추천을 제공하려고 한다.
그리고 넷플릭스는 AI의 능력뿐만 아니라 대규모의 인력을 활용하여 콘텐츠 자체를 태그화하는 작업을 수행하고 있다. 영상의 분위기를 묘사하는 형용사, 지역적 요소, 시대적 배경, 스토리의 출처, 등장인물의 특징 등 다양한 태그로 분류하여 콘텐츠에 구체적인 속성을 부여하고 이것을 이용하여 추천을 하게 된다.
추천 시스템은 이외에도 멜론이나 지니 그리고 유튜브 뮤직 같은 음악 플랫폼에서도 활발하게 사용되고 있다. 영상과 음악은 콘텐츠의 유형만 다를 뿐 콘텐츠의 정보 요소나 사용자가 선택하여 즐긴다는 점은 동일하므로 추천 시스템이 빛을 볼 수 있다. 특히, 요즘에는 이 추천 알고리즘 시스템을 통해 음악을 들을 때 검색을 하여 듣는 것이 아닌 “나에게 맞는 음악 리스트” 등 한 번의 터치로 바로 내가 원하는 음악으로만 구성된 리스트가 귀로 흘러나오는 매우 효율적인 서비스를 사용자들이 사용할 수 있게 되었다.
변환 시스템
Amazon Polly: 텍스트 -> 음성 변환 애플리케이션
Amazon Polly는 텍스트를 음성으로 변환시켜주는 서비스이다. Polly는 딥 러닝 기술을 활용하여 자연스러운 사람의 음성을 합성을 해주는 특징이 있다. 또한 신경망 텍스트 음성 변환 모델을 통해 뉴스 내레이션 맞춤 음성 스타일이나 양방향 통신에 적합한 대화식 음성 스타일도 선택하여 텍스트를 변환할 수 있다.
Speech-to-Text (Google Cloud): 음성 -> 텍스트 변환 애플리케이션
Google의 Speech-to_Text는 인공지능을 활용하여 음성을 텍스트로 정확하게 변환시켜 주는 서비스이다. 이 서비스의 특징으로는 자동 음성 인식을 위해 Google의 딥 러닝 신경 알고리즘을 적용하였고 클래스를 사용하여 음성으로 인식된 숫자를 주소, 연도, 통화 등으로 자동으로 변환될 수 있게 하였다. 또한 스트리밍 환경에서도 음성 인식을 통해 이것을 텍스트로 바로 변환할 수 있도록 빠른 속도로 딥 러닝 프로세스가 돌아가게 구현되었다.
창작 시스템
AI Designer (NCSOFT): 스스로 디자인하는 AI
인공지능 기술 중 이미지와 관련된 기술은 매우 많다. 그 중에서 AI Designer가 사용하는 기술은 Image Translation이다. 이 Image Translation을 이용하면 이미지를 흑백에서 칼라로, 스타일의 합성, 자동 채색 그리고 사진 변환(사진 -> 애니메이션) 등 여러 방면에서 이용할 수 있다.
그렇다면 이 기술을 왜 NCSOFT에서 사용하게 됐을까?
NCSOFT에서는 리니지, 아이온 블레이드&소울 등 게임을 서비스 중에 있는데 이러한 게임들에는 아이콘이나 캐릭터 등 이미지와 관련된 오브젝트들이 필요하다. 그런데 이러한 오브젝트들을 새로 만들기 위해서는 기획 -> 검색 -> 합성 -> 리터칭 -> 최종본 식으로 프로세스가 진행된다. 이 프로세스는 기존에 사람들이 참가하여 굉장히 많은 시간이 소요되는 문제점이 있었는데 AI를 이용하니 고작 1초도 안되는 시간에 수많은 오브젝트들을 생성할 수 있었던 것이다. 즉 AI를 이용하면 엄청난 효율성을 바탕으로 게임회사가 큰 이득을 얻을 수 있었던 것이다.
여기서 이용한 인공지능 시스템은 Generative Adversarial Network(GAN)로 두 개의 인공지능 네트워크를 서로 상호작용 시켜서 새로운 창작물을 만드는 인공지능 시스템이다. 하나의 인공지능 네트워크(생성모델)는 계속해서 새로운 창작물을 만들고 다른 하나의 인공지능 네트워크(분류모델)는 창작물에 대한 검수를 하여 생성모델이 사용자가 원하는 창작물을 만들도록 조종을 한다.
Conclusion
필자의 궁금함으로 시작한 이번 글은 현재 상업적으로 혹은 실생활에서 인공지능이 어떻게 쓰이는지 알아볼 수 있었다. 반백년 전에는 이론으로만 존재했던 컴퓨터 속 인공지능이 2020년 현재에는 다방면에서 인류를 도와 그 실력(?)을 뽐내고 있다. 인공지능을 공부하고 있거나 공부를 할 예정인 분들에게 이렇게 실제로 사용되는 사례를 먼저 살펴보고 공부를 진행한다면 더 재밌고 동기부여도 되는 인공지능 공부가 될 것이라고 생각한다. 특히, 실생활의 문제를 풀어나간다는 점에서 더 정확한 방향성을 확립하고 인공지능 연구를 시작한다면 좋은 연구 결과나 논문이 나올 수도 있을 것이다. 실제로 이용되는 인공지능은 여기에 나열된 것보다 훨씬 많기 때문에 이 글을 읽고 더 궁금해지신 분들은 직접 찾고 그 재미를 느껴보는 것도 굉장히 좋은 경험이 될 것이라고 필자는 생각한다.
참고 문헌
- 유튜브와 넷플릭스의 추천 알고리즘 | 과학기술정보통신부 Blog | https://m.blog.naver.com/with_msip/221870532849
- 유튜브 추천 알고리즘과 저널리즘 | 한국언론진흥재단 연구보고서 | 오세욱, 송해협
- AI Designer: 스스로 디자인하는 AI | NCSOFT Vision AI Lab Generation Team | 김준호 | https://github.com/taki0112
- Amazon Polly | https://aws.amazon.com/ko/polly/?nc=sn&loc=0
- Google Speech-to-Text | https://cloud.google.com/speech-to-text?hl=ko#