음성인식 기술의 역사

JS Liu
5 min readAug 2, 2014

1952년~2014년…벨 연구소부터 코타나까지

<웨어러블 시대 승부처 ② ‘음성인식’>의추가 설명을 위해 정리한 포스팅입니다. 자세한 내용은 아래 링크에서 확인하세요.

원문 : https://medium.com/@yoojs8512/ce346469acaf

시리(Siri), 구글나우(Google Now), 코타나(Cortana)와 같은 2014년 현재의 음성인식 기술과 과거의 기술은 아무래도 패러다임에 있어서 많은 차이가 있을 것입니다. 인공지능(AI)이나, 딥러닝과 더 관련이 많을 수도 있습니다만, 음성인식의 측면에서 정리를 해봤습니다. 위키피디아와 각종 뉴스 링크를 참고해 만들었습니다. 틀린 부분은 지적해주시면 곧바로 반영하겠습니다.

  • 1952년 — 벨 연구소에서 말하는 숫자를 단일 음성으로 인식하는 오드레이(Audrey) 시스템 개발
  • 1963년 — IBM, 월드 페어에서 ‘슈박스(Shoebox)’ 공개. 음성을 통해 16개의 영어단어 인식, 간단한 숫자 계산 가능
  • 1969년 — 벨 연구소의 존 피어스 “자동 음성인식 시스템에는 인공지능이 필요하기 때문에 향후 몇십 년간은 실체가 없을 것”이라고 발표
  • 1969년 — 분리된 단어를 제한적으로 인식하는 비센즈(Vicens), 메드레스(Medress) 시스템 개발
  • 1970년 — 프린스턴대학교의 레니 바움이 통계적 처리방법(HMM) 개발. 단어와 같은 음성의 단위를 통계적으로 모델화한 음성 인식 알고리즘
  • 1971년~1976년 — 국방부의 DARPA 음성이해연구(Speech Understanding Research, 이하 SUR) 프로젝트는 음성인식 역사상 가장 큰 프로젝트 중 하나다. 연속적은 음성을 이해할 수 있는 프로그램을 개발하는 것이 목적으로 차후 카네기 멜론의 ‘하피(Harpy)’ 음성이해 시스템의 기반이 됨. 하피는 1011개의 단어를 이해할 수 있으며, 이는 3세 유아의 어휘 수준임
  • 1978년 — 텍사스인스트루먼트(TI) 세계 최초로 디지털신호처리(DSP) 이용한 유아용 장난감 ‘스피크 앤드 스펠’ 개발
  • 1982년 — 코복스(Covox) 설립. 디지털 사운드를 코모도어 64, 아타리 400/800, IBM 컴퓨터에 이식
  • 1982년 — 드래곤시스템즈(Dragon Systems) 설립
  • 1984년 — 스피치워크(SpeechWorks) 설립. 전화상 자동 음성 인식 솔루션 공급
  • 1985년 — 커즈웨일 텍스트 투 스피치(Text-to-Speech) 프로그램 개발. 1000개의 단어 인식, 5000단어의 어휘 지원
  • 1994년 — 뉘앙스커뮤니케이션 설립
  • 1995년 — 드래곤(Dragon), 최초의 소비자용 음성인식 제품인 드래곤 딕테이트(Dragon Dictate)를 9,000달러에 출시. IBM과 커즈웨일도 몇달 뒤 소비자용 출시
  • 1996년 — 찰스 슈왑, 뉘앙스와 함께 리소스를 음성 자동응답(IVR) 개발에 활용하는 시스템 구축
  • 1996년 — 벨사우스(BellSouth) 최초의 음성 포털 VAL 개설. 이는 다이얼인 방식의 음성인식 시스템으로 수화기에 대고 말한 내용을 기반으로 정보 제공.
  • 1997년 — 드래곤 내추럴리스피킹(Dragon NaturallySpeaking) 695달러에 출시. 최초로 연속적인 음성을 인식. 분당 100단어의 속도.
  • 1998년 — 마이크로소프트(MS) 음성인식 기술 투자 시작. MS는 커즈웨일을 인수한 런아웃앤허스피(Lernout&Hauspie)에 4500만 달러 투자하고 파트너십 체결. MS 시스템에 음성인식 기술 공급
  • 1999년 — MS, 당시 세계에서 가장 정확한 음성인식 시스템을 갖고 있는 엔트로픽(Entropic) 인수
  • 2000년 — 런아웃&허스피, 드래곤 시스템즈 4억6000만 달러에 인수
  • 2000년 — 전 세계 최초 음성 포털 업체인 텔미(TellMe) 등장
  • 2000년 — 넷바이텔(NetBytel) 세계 최초로 온라인에서 음성 주문을 할 수 있는 ‘보이스 이네이블러’ 출시
  • 2001년 — 스캔소프트, 파산한 런아웃앤허스피 인수
  • 2003년 — 미국 국방부 인공지능 기술을 확보하기 위해 2008년까지 CALO 프로젝트 연구비 2억달러를 지원. 스탠퍼드대에서 분리된 SRI인터내셔널이 주도.
  • 2005년 — 스캔소프트, 뉘앙스 커뮤니케이션 인수합병 후 뉘앙스로 사명 변경
  • 2007년 12월 — 시리(Siri) 설립, SRI인터내셔널에서 독립
  • 2009년 3월 — 구글, 음성인식 기술 적용한 구글 보이스 공개
  • 2010년 4월 28일 — 애플, 시리 인수
  • 2010년 6월 9일 — 다음 음성검색 서비스 출시
  • 2010년 10월 7일 — NHN 음성검색 서비스 출시
  • 2011년 6월 14일 — 구글 보이스 서치(Google Voice Search) :전화번호음성안내서비스(GOOG-411), 구글맵스, 구글 모바일 앱 적용
  • 2012년 6월 27일 — 구글 보이스 서치, 안드로이드 4.1에 포함되면서 구글 나우로 대체
  • 2012년 9월 11일 — 음성인식 문자전송 앱 다이알로이드 출시
  • 2013년 3월 21일 — 에릭 슈미트 회장 구글 나우 iOS용 버전 출시 질문에 “애플에 물어봐야 할 것”이라고 대답
  • 2013년 4월 29일 — 구글 나우, 애플 기기에 서비스 시작
  • 2013년 12월 — 다음커뮤니케이션, 다이알로이드 인수
  • 2014년 1월 16일 — 구글 나우, 크롬 카나리 버전에서 활성화
  • 2014년 2월 3일 — 다음커뮤니케이션, 모바일 음성 API 공개
  • 2014년 4월 2일 — MS, 연례 개발자 컨퍼런스 ‘빌드(Build)’에서 코타나 공개

--

--

JS Liu

科技圈深度观察, interested in AI, Ecommerce, Fintech, Chinese tech