최상위 사용빈도 영어 단어 100개가 전체 사용 빈도의 50%를 차지합니다. 영어 학습 방법을 바꿔야 할 때입니다.

Mark Kim
9 min readNov 6, 2017

--

언어와 멱함수 분포 — 언어 학습 방식을 완전히 바꿔야합니다. 10억개의 대화문으로 빅데이터 분석을 해봤습니다. 영어 공부에 얼마나 큰 삽질을 해왔는지, 영어 실력이 왜 그리 늘지 않았는지, 그래서 어떻게 해야하는지 아래에 해답이 있습니다.

현재 사어, 학술어 등을 제외한 가용 영어 단어의 수가 약 30만개 정도됩니다. 정말 어마 어마하게 많은 수입니다. 하지만 이중에 단 5%에 해당하는 15,000개의 어휘가 실제 사용되는 전체 어휘중 92%를 차지합니다.

더 놀라운 사실은 이제부터 시작입니다.

가장 빈도가 높은 상위 25개의 단어가 영어 활자로 구성된 모든 매체의 30%를 차지하고 상위 빈도 100개의 단어는 약 50%를, 상위 300개의 어휘가 65%를, 상위 500개의 어휘가 68%를, 상위 1000개의 어휘가 무려 73%를 점하고 있습니다. 흥미로운 것은 단어의 사용빈도 순위가 내려 갈수록 사용 빈도가 기하 급수적으로 떨어진다는 사실입니다. 즉 자주 사용하는 단어는 소수에 불과하고 다른 대부분의 단어들은 비슷하게 적은 횟수로만 쓰이고 있다는 사실입니다.

어휘의 사용 빈도에도 정확히 멱함수 분포가 나타나고 있습니다. 아래 첫번째 도표를 보시면 이러한 멱함수 분포가 뚜렷이 나타나고 있음을 명확히 알 수 있습니다.

가장 빈도가 높은 단어는 ‘the’였으며, ‘of’ ‘and’ ‘to’ 가 그 뒤를 따르고 있습니다. 흥미로운 것은 가장 높은 빈도로 사용된 단어가 부정관사 a가 아니라 정관사 the라는 점입니다.

이 결과는 링고봇의 인공지능 기계학습 source로 사용하는 10억 단어 대화문 데이터를 분석한 결과에서 얻은 것이며 Oxford Corpus를 사용한 몇 몇 다른 분석에서도 거의 같은 결과를 내놓고 있습니다. 과거에도 하버드 대학교 등에서 영어 성경과 같은 아날로그 데이터를 이용해서 분석된 적이 있었으며 현재와 유사한 결과를 보여줍니다.

아래 도표 참조하세요.

이러한 분포는 데이터의 양이 많든 적든 그 결과는 동일합니다. 아래 도표를 보시면 신기하게도 데이터의 양과 상관없이 동일한 분포를 보이는 것을 알 수 있습니다. Common Words는 사용 빈도 상위 100 단어 입니다.

아래 첫번째가 93,680 단어로 된 UN 보고서, 두번째가 무작위로 고른 2,024 단어의 허핑튼 포스트 기사, 세번째가 13,832 단어의 ‘How to lose a guy in 10 days’라는 영화, 네번째가 10,534 단어의 IELTS Listening 4회분 Script 전체입니다. 정치적인 수사를 많이 사용하는 UN 보고서와 허핑튼포스트 기사의 경우 상위 100단어에 해당하는 common words의 사용빈도가 40% 이상이고 일상 생활 영어인 영화와 IELTS Listening의 경우 모두 다 50%를 넘기고 있습니다. 또한 최상위 25단어의 활용 빈도는 4개의 결과 모두에서 거의 동일합니다.

UN 보고서 분석

허핑튼 포스트 기사 분석

영화 How to lose a guy in 10 days 분석

IELTS 4회분 리스닝 Script 분석

UN 보고서 : http://www.un.org/en/ga/search/view_doc.asp?symbol=A/71/2

허핑튼 보고서 기사 : https://goo.gl/FERGZC

How to lose a guy in 10 days https://goo.gl/rnSYgX

위의 분석에 기초해 보았을때 한국 학생들이 영어를 학습하는 방식에 상당히 큰 문제가 있다는 것을 발견하게 됩니다. 사실, 한국 학생들의 경우 기본적이고 사용빈도가 높은 단어를 중심으로 철저히 공부하기 보다 어려운 어휘의 수를 늘리는데 집중하는 우를 범하고 있습니다.

사용빈도가 높은 기본적인 어휘 1000개를 완전히 이해하고 활용할 수 있도록 훈련을 한다면 나머지 어려운 수준의 어휘도 그 문장들 사이에서 문맥을 파악하게되고 그렇게해서 인지적 학습(cognitive language learning)으로 어휘 수준을 넓혀 나갈 수 있습니다.

5살짜리 어린아이가 어른과 대화할때 어른들이 사용하는 모든 어휘를 알고 있지 않습니다. 그래도 자신이 알고 있는 기본적인 어휘를 이용해서 모르는 단어도 문맥을 통해 파악합니다.

초등학교 5학년에 영어권 국가로 유학 혹은 이민와서 학교에 다니는 어린 아이들의 경우 1년 정도 지나면 또래와 불편없이 의사소통을 합니다. 하지만 대화에 사용되는 모든 어휘들을 그들이 아는 것은 결코 아닙니다. 그 어휘들 중에서 사용 빈도가 낮은 어려운 어휘 하나를 꼭 집어서 무슨 뜻인지 물어보면 대부분 대답을 못합니다. 하지만 1000 단어도 채 되지 않은 매우 제한된 어휘로도 이해할 것은 다 이해하고 말한 것은 다 말합니다.

영어 리스닝이 잘 안되는 경우나 리딩이 안되는 경우는 문법을 모른다거나 아는 어휘의 수가 적어서가 아니라 사실 가장 흔히 사용하는 어휘들을 철저히 이해하지 못했고 그 어휘의 조합인 의미구 혹은 문장에 반복적인 노출이 되지 않았기 때문입니다.

한국 학생들이 써놓은 혹은 말한 문장을 분석해보면 중학교 1학년 영어 수준의 실수가 가장 많습니다. 관계대명사와 같은 높은 수준이 아니라 평서문, 의문문, 부정문 등 가장 기초적인 분야에 대한 실수가 오히려 훨씬 더 많습니다. 한마디로 말하면 “기초적이고 쉬운것을 생각보다 너무 못한다”입니다.

늘 어려운 어휘의 수를 늘리려 했지, 사용 빈도가 높은 기본 어휘들이 다양하게 조합된 표현들을 내 입으로 익히고 듣는 훈련을 거의 하지 않은 것입니다. 비교할 수 없을 정도로 더 많이 사용될 기본 어휘의 조합은 무시하고 언제 쓸지 모를 하위 빈도의 표현을 늘리는데 거의 모든 힘을 쏟아 부은것입니다. 한마디로 그냥 “삽질” 한 것입니다.

That hair style is beginning to catch on. 이 문장에 사용된 단어들은 style을 제외하고 모두 다 상위 빈도 100단어 안에 드는 단어들입니다. 모르는 단어는 없지만 이 문장이 “저 헤어스타일이 인기를 얻기 시작했다”라는 의미라는 것을 모른다면 들어도 사운드만 들릴 뿐이지 의미가 들리지는 않습니다.

이러한 상황에서 우리는 과연 어떻게 공부해야할까요? 사용빈도가 높은 어휘들이 활용된 문장을 먼저 철저히 완벽히 공부한 후 자신이 사용해야할 분야별 어휘를 더해가는 방식을 선택해야 합니다. 가장 먼저해야 할것은 활용 빈도가 높은 1000개의 어휘를 집중적으로 공부해야 한다는 것입니다.

위의 분석에서 보셨지만 영화든, 신문기사 든, 일반 채팅 대화문이든 모두 다 상위 빈도의 표현들이 공통적으로 나타납니다. 무엇이든 하나를 선정해놓고 완전히 숙달될때까지 반복해야합니다. 그런데 사람들은 ‘완전히 숙달될때까지’ ‘반복’을 잘하지 않습니다. 재미없다고 여기기 때문입니다. 그래서 실패합니다.

실패의 이유를 알았다면 실천하시면 됩니다.

영어 잘하는 법을 묻는 모든 사람들에게 저는 늘 조언을 해왔습니다. “가장 많이 사용되는 영어필수표현들을 최소 300번 이상 입으로 반복하세요.” “영화 한편을 300번 보세요. 완전히 암기할때까지” 이 지론이 틀리지 않았습니다. 위 분석에서 보셨듯이 한 편의 영화에도 결국 상위 사용빈도 100단어가 50퍼센트 이상을 차지합니다.

제가 만들어서 출시한 영어필수표현 패턴500응용 500은 이러한 멱함수 분포로 나타나는 상위 사용빈도 어휘가 완벽히 반영된 것들입니다. 또한, 빅데이터 분석에 기초해서 추출한 원어민들이 가장 많이 사용하는 영어 표현과 그 표현들을 쉽고 효과적으로 익히게 해주는 스마트 학습 툴의 묶음인 StudyFlow를 이용하면 원어민 상위 빈도 영어 표현을 가장 빠르게 익힐 수 있습니다.

StudyFlow 상세 내용 바로가기 https://goo.gl/eptRRd

Cambridge IELTS 전 권과 제가 소장하고 있는 IELTS 실제 기출문제 리스닝 스크립트를 모두 다 집어넣고 분석해보았는데 여기에도 동일한 분포를 보이고 있습니다. Common words를 제외한 나머지 어휘들에서는 아이엘츠에서만 독특하게 반복 사용되는 어휘들이 존재한다는 결과를 얻었습니다. 이 어휘들과 common words를 조합해서 IELTS에서 가장 빈출되는 어휘들로 구성된 리스닝 훈련 문장들을 조합하고 있습니다.

IELTS 스피킹의 경우 더 재미있습니다. 파트별 6점, 7점, 8점대의 답변을 링고봇 시스템에 넣어서 분석하고 있는데 가장 많이 사용되는 공통된 표현들이 반드시 존재합니다. 즉, 각 점수대별로 시험관들이 좋아하는 어휘들이 존재한다는 것입니다. 빅데이터 분석전에는 알 수 없었던 내용입니다.

이러한 빅데이터 분석에 기반한 IELTS 교재를 조만간 발표하고 또한 사용빈도 데이터를 기반으로한 Overall Learning Process를 SCHOOOL에 적용하도록 할 예정입니다.

영어 잘하고 싶으시죠! 다시 한번 강조하지만 사용빈도가 높은 어휘, 표현, 문장들을 먼저 완벽히 내것으로 만드세요. 말을 아주 잘하는 각 언어의 원어민들도 사실 늘 습관적으로 쓰는 표현들만 사용할 뿐입니다. 그런 다음에 자신의 필요에 맞는 전문 분야의 어휘들을 늘려가세요. 제 경험상 영어권 국가에 살면서 전문적인 분야의 일을 하더라도 총 3000 단어면 충분합니다. 아무 생각없이 어려운 어휘를 늘리려했던 습관을 재고해야 할 시점입니다.

SCHOOOL 링고봇에서 어휘 사용빈도를 분석할때 사용한 데이터는 2005년 — 2015년 사이에 AOL 등 메신저에서 실제 사용된 채팅 대화문과 Newsnet의 자연어 문장, UN 보고서 등을 하나로 묶은 데이터중에서 사용자 이름 등을 비식별화(De-identifying) 조치한 약 10억개의 어휘로 구성되어있습니다.

아래 링크 눌러서 네이버 카페에 들어가시면 상위 사용빈도 영어 단어 1000개 텍스트 파일이 첨부되어 있습니다.

단어가 아닌 최고 사용 빈도의 영어 의미구에 대한 새로운 내용은 아래 링크를 참조하세요.

최고 사용빈도 영어 의미구 빅데이터 분석 https://goo.gl/eptRRd

--

--

Mark Kim

CEO and Founder of SCHOOOL, World’s first Social Net-education Service platform.