웨어러블 시대 승부처 ② ‘음성인식’

JS Liu
Korean Medium Post
Published in
10 min readAug 2, 2014

--

시리(Siri), 구글나우(Google Now), 코타나(Cortana)의 미래는?

웨어러블 기기가 올해 계속해서 등장하고 있습니다. 3년 전부터 스마트 워치가 나오고 ‘뜬다~ 뜬다~’고 하는데 조용하긴 했죠. 뭐 그래도 모바일에서 주도권을 쥔 구글이 움직이고, 삼성도 따라 움직이고 있는 상황이기에 ‘주목할만 합니다’라고는 쓰지만…아직 기기들의 수준은 기대 이하이기에 욕도 많이 먹고 있습니다. 1~2일에 한번씩 충전하라고 하면 누가 쓰나요.

지난 번에 <웨어러블 시대 승부처 ① ‘PUSH’>라는 제목으로 첫번째 포스팅을 올렸습니다. 푸시(PUSH)가 뜰 것이라는 게 주제였죠. 간단한 내용은 다음과 같습니다.

푸시가 의미하는 것은 무엇일까요. 스마트폰에서도 많이 봤잖아요. 소식 알려주는 것. 스마트폰 시대와의 차이점은 스마트 워치에서 혹은 구글 글래스와 같은 웨어러블 기기로는 화면에서 키보드 좌판을 여는 게 거의 불가능해졌다는 것입니다. 결국, 쿼티 키보드라도 쓸 수 있는 모바일보다 더 극단적인 형태의 맞춤형 큐레이션 서비스가 승부수가 될 수 있다는 의미죠. 튀어나오는 거 누르는 용도로 쓸 수 밖에요.

화면의 크기가 작아졌습니다. 스마트 워치는 그나마 화면이라도 있습니다. 하지만 스마트링, 스마트 귀고리, 목걸이(?) 등은 기기 자체에서 무언가 볼 수 있는 기능이 없죠. 시계를 제외한 나머지 제품들은 시판된 것도 없기 때문에 뭔가 용팔이 냄새가 나기는 하지만요.

지난 번에 설명했듯 스마트 워치를 놓고 보면, 푸시를 통한 알림 기능이 핵심 요소가 될 가능성이 높습니다. 스마트폰을 대신해 정보를 소비하는 용도로 사용되기 때문이겠죠.

입력은 그러면 어떻게 할 수 있을까요. 더이상 스마트폰처럼 쿼티 키보드와 같은 입력 기능은 기대할 수 없게 됐습니다. 그러면 뭘로? 눈, 코, 입?

네, 입으로 해야죠.

우리에게는 목소리가 나오는 성대가 있지 않습니까. 이를 제대로 활용할 수만 있다면 변화는 가속화될 수 있을 것입니다.

사실, 음성인식 기술은 나온 지 엄~청 오래됐지요. 몇 가지 사건만 추려보겠습니다.
전문 링크 : https://medium.com/@yoojs8512/5831b571ca4d

  • 1952년 — 벨 연구소에서 말하는 숫자를 단일 음성으로 인식하는 오드레이(Audrey) 시스템 개발
  • 1971년~1976년 — 미 국방부의 DARPA 음성이해연구(Speech Understanding Research, 이하 SUR) 프로젝트는 음성인식 역사상 가장 큰 프로젝트 중 하나다. 연속적은 음성을 이해할 수 있는 프로그램을 개발하는 것이 목적으로 차후 카네기 멜론의 ‘하피(Harpy)’ 음성이해 시스템의 기반이 됨. 하피는 1011개의 단어를 이해할 수 있으며, 이는 3세 유아의 어휘 수준임
  • 1994년 — 뉘앙스커뮤니케이션 설립
  • 2007년 — 시리(Siri) 설립, SRI인터내셔널에서 독립
  • 2009년 — 구글, 음성인식 기술인 구글 보이스 공개
  • 2012년 — 구글 보이스 서치, 안드로이드 4.1 이후 구글 나우로 대체
  • 2014년 — MS, 코타나 발표

하 지 만

우린 안될 거야…

왜?

“시리, 구글 나우가 나온 지 벌써 2년이야. 그런데 쓰는 사람이 있긴 하나? 뭐 물어보면 돌아오는 답은 이상하고, 요청할 수 있는 기능도 한정되고. 그러다보니 “너의 이상형은 누구야?”, “애플이 좋아, 구글이 좋아?” 뭐 이런 질문만 하다가 결국 안 쓰게 되지. 목소리로 하는 것 말고는 심심이랑 다를 게 뭐야? 더이상 음성인식 기술에 기대 안해”

문제는 간단했습니다.

  1. 음성 인식률이 현저히 떨어진다.
  2. 스마트폰 환경에서 연동할 수 있는 서비스에 한계가 있다.(터치로 실행하는 것보다 불편하다)
  3. 맥락(콘텍스트)을 고려하지 않는다.

어떻게 해결할 수 있을까요.

음성 인식률은 계속해서 보완이 되고 있습니다. 지난 3월 서울과 제주도에서 각각 만났던 이상호 다음 검색그룹 부사장과 강국진 다음커뮤니케이션 음성인식 TFT 부장이 다음과 같이 설명했습니다.

“인식률은 99%는 나오더라도 100%는 거의 불가능하다고 보면 됩니다. 사실 70%만 넘어도 보통 사람들은 인식이 잘된다고 느끼지요. 그리고 이러한 문제는 음성인식 엔진이 사용자에게 ‘지금 말한 단어가 이러한 뜻으로 쓰인 건가요?’라고 다시 한 번 확인해주는 것으로 보완할 수 있습니다. 인식 속도도 중요합니다. 이용자가 5초간 얘기하면 인식하는 데 1RT(Real Time) 내로 측정이 됩니다. 1RT란 어떤 사람이 30초간 얘기했을 때 30초간 인식한다는 의미입니다. 1RT 내로 측정할 수 있다면 한 박자 차이로 결과를 볼 수 있습니다.”

연동되는 서비스의 부재. 모바일 시대에서 전혀 해결하지 못했던 문제입니다. 스마트폰 화면을 꾹꾹 누르는 게 음성보다 편한 게 사실입니다. 시리나 구글나우를 불러서 “누구한테 전화좀 해줘~”라고 요청하는 것보다 그냥 전화 버튼 누르는 게 더 편하기 때문이지요.

하지만 사용자인터페이스(UI)와 사용자경험(UX)이 완전히 새롭게 되는 웨어러블 시대에서는 연동을 얼마나 잘하느냐가 승부처가 될 것입니다.

마지막으로 콘텍스트의 문제입니다. 개인적으로는 애플과 구글이 해결하지 못한 이 문제를 MS의 개인비서 서비스인 코타나가 해소할 것으로 기대하고 있습니다.

MS? 설마 윈도우 만드는 MS?

네.

무슨 말이여. 도대체 근거가 뭐야?

이해가 안되시죠? 저는 코타나를 만져본 적도 없고, 그저 빌드 컨퍼런스에서의 소개와, 영상을 본 것이 전부입니다. 다만, 기대를 거는 부분은 ‘코타나’ 그 자체는 아닙니다. MS가 코타나를 통해 그리고 있는 음성 인식 기술의 청사진입니다. 한국MS의 김영욱 에반젤리스트, 황리건 개발자 및 플랫폼 사업총괄 부장에게 들은 내용의 일부를 소개합니다.

“코타나는 단순히 음성인식 서비스가 아니라 개인 비서 서비스입니다. 콘텍스트 엔진이 들어가 있어 상황을 인지하는 것이 특징이지요. 검색엔진 빙(Bing)이 붙어있으며, 설정을 통해 사용자의 일정에도 접근할 수 있습니다. 단순 앱의 실행뿐만 아니라 앱의 기능도 호출할 수 있지요. 그리고 재미있는 기능이 있는데, 바로 ‘노트북’입니다. 코타나만의 정보 저장소이지요. 이메일, 연락처, 소셜 관계와 같은 사용자의 스마트폰 내부 데이터를 분석하고 데이터베이스화 합니다. 예컨대 사용자의 부인이 누구인지, 어떤 친구와 친한지 노트북에 기록해 코타나에 명령했을 때 이를 참고합니다.”

코타나, 시리,구글나우 비교 영상 http://youtu.be/-HJodK56EsU

구글나우는 무언가를 질문하면 보편적인 대답을 해줍니다. “오늘 날씨가 어때?”라고 물으면 “맑습니다”, 혹은 “흐립니다”와 같은 대답을 해주는 기능이 전부입니다. 검색도 해주고요. 애플은 약간 더 사용자에 집중합니다. 가령 알람을 오전으로만 맞추는 사용자가 있다면, “5시에 깨워줘”라고 요청했을 때 자연스럽게 오전 5시로 바로 설정을 해줍니다. 혹은 “지금 물어본 게 이 뜻이 맞나요?”라는 식으로 다시 한 번 되묻기도 합니다. 하지만 시리의 기조 역시 보편성에 있습니다.

코타나는 이 둘의 서비스보다 앞선 부분이 있습니다. 사용자의 상황에 맞추어서 대답을 해준다고 합니다. 그리고, 이들의 데이터를 수집해 분석도 합니다. 직접 확인은 할 수 없으나 MS의 이러한 청사진은 상당히 마음에 듭니다.

상상해봤습니다. 결과물을 화면에만 보여주거나 음성을 더한 화면을 보여주지 않을까 싶네요.

“오늘 날씨 좀 알려줘”

“주인님아. 님 눈 뜨면 만날 페이스북 확인하던데, 페이스북 소식부터 볼래요? 제가 정리해놨는데…”

“싫어, 날씨부터 알려줘”

“네, 주인님이 지금 위치하고 있는 경기도의 오늘 날씨는 흐리네요. 오늘 서울 광화문 쪽에서 오후 2시에 약속 있으시죠? 그때 되면 광화문에는 비가 많이 올 것 같아요. 3단 우산 말고 장우산 챙겨가세요”

뭐 그렇다고 해도 모바일에서 주도권을 쥐고 있는 구글과 애플을 넘어서기는 쉽지 않아보입니다. 말마따나 구글과 애플이 이 기능을 추가하게 된다면 차별점을 갖기 어렵게 되기도 하고요.

현재 판도는 구글이 쥐고 있는 것처럼 보입니다. 올해 6월 25일, 26일 양일간 미국 샌프란시스코에서 열린 연례 개발자 회의인 구글I/O에서 웨어러블 전용 운영체제(OS)인 안드로이드웨어를 공개했고, 이를 플랫폼으로 한 G워치(LG), 라이브기어(삼성)도 선보였습니다.

모바일 영역을 선점한 구글의 움직임이기에 다음과 같은 반응도 나오고 있습니다.

<안드로이드 웨어가 현존하는 최고의 스마트워치 플랫폼인 이유> 기사 일부 발췌.

안드로이드 웨어의 기능이 엄청난 것은 아니지만, 실제로 꼭 그럴 필요도 없다. 스마트워치는 주머니 속의 스마트폰을 대체하는 것이 아니며, 휴대폰과 스마트워치를 골고루 사용할 때 그 효과가 배가될 것이다. 그것이 안드로이드 웨어의 본질적인 기능이며, 1세대의 문제를 해결하고 나면 (그리고 더 많은 하드웨어들이 출시되면) 많은 사람들이 스마트워치로 스마트폰을 더욱 잘 활용할 수 있게 될지도 모를 일이다.

분명 구글이 유리한 고지를 점유하고 있습니다만, 윈도우로 데스크톱 진영을 점령하다시피 한 MS가 추락한 것도 한 순간이라는 것을 기억해야할 것입니다. 지금 나오는 제품들을 보면 시계에 최적화된 플랫폼이란 생각은 안 들더군요. 스마트워치가 3년째 유망주인 것도 이러한 생각을 뒷받침하죠. 박주영(?)도 아니고…

사실, 스마트워치는 카시오나 스와치 같은 전통 시계 강호들이 더 잘할 수 있는 영역이 아닐까 생각도 듭니다. 다음은 <웨어러블 시장 성장에…카시오 스마트워치 출시> 기사 일부 발췌.

카시오가 자사 G-SHOCK 시리즈의 신제품으로 블루투스를 활용해 스마트폰으로 걸려온 전화나 문자, 이메일을 수신하고, 스마트폰의 뮤직플레이어도 제어할 수 있는 스마트워치 GBA-400을 선보였습니다. GBA-400은 전용 뮤직플레이어 애플리케이션인 G MIX App을 다운로드 받아 스마트폰에 설치하면, R&B, 댄스, 힙합, 클래식, 재즈, 팝, 락 등의 이퀄라이저와 실내, 야외, 공연장 등의 음장효과를 설정할 수 있는 게 특징입니다. 시계 본체에 마련된 로터리 스위치를 통해 곡 넘김도 가능한데, 단순히 재생, 멈춤, 곡넘김 등의 기능만을 제공하는 것이 아니라 음악을 다운로드 받을 수도 있는 것이 차별점입니다.

다만, 지금의 형태는 스마트워치라고 보기에 한계가 있습니다. 시계의 ‘화면’을 통해 할 수 있는 기능이 거의 없기 때문이지요. 다만, 카시오 시계 자체가 갖고 있는 강점에는 집중해볼 필요가 있습니다. 방수는 물론 충격에도 강하고, 사용 기간도 한 번 충전하면 1~2년은 사용할 수 있습니다. 자체 화면을 구축하고, 스마트폰과의 연동 기능, 푸시, 음성인식 기술이 추가된다면, 시장을 장악할 수 있지 않을까 싶습니다.

결론입니다.

웨어러블은 절대 강자가 없는 ‘무풍지대’이자 새로운 시장입니다. 구글이 먼저 선전포고를 했습니다. 기대는 있지만, 아직까지는 한계가 커보입니다. 모바일 시대의 시작으로 손목시계를 사용하는 숫자가 현저히 줄어들었는데 다시 시계를 차라는 것도 모순이긴 합니다.

다만, 스마트폰을 ‘허브’로 한 웨어러블만의 새로운 패러다임이 시작한다면, 상황이 바뀌는 것도 한순간이라고 생각합니다. 그 핵심 역할에 ‘푸시’와 ‘음성인식 기술’이 있을 것이라고 생각합니다. 저도 조만간 시계 하나 사야겠습니다. ㅎㅎ

--

--

JS Liu
Korean Medium Post

科技圈深度观察, interested in AI, Ecommerce, Fintech, Chinese tech