지프의 법칙(Zipf’s law)

UX DAYS SEOUL
3 min readAug 17, 2020

--

텍스트 중 어구별 빈출 순위와 빈도의 관계에서 k번째로 많은 어구의 빈도가 1번째로 많은 어구의 빈도의 1/k의 값이 되는 법칙

대량의 텍스트에 사용된 어구의 빈출 순위와 빈도를 집계하면, 빈출 순위가 k번째 빈도는 빈출 순위 첫 번째 빈도를 1/k한 값이 되는 법칙을 짚의 법칙(제타 분포)이라고 한다. 이 법칙이 기능하는 세계를 「지프 구조」라고 기록하는 논자도 있다.

조지 킹슬리 지프(George Kingsley Zipf) 인용 : Wikipedia
조지 킹슬리 지프(George Kingsley Zipf) 인용 : Wikipedia

집씨는, 어느 텍스트로부터 영단어마다의 빈도를 높은 순서로 나열하면, 아래의 표와 같이 빈출 순위(r)와 빈도(f)를 곱하면 거의 같은 값이 되는 것을 발견했다.

빈출 순위와 빈도를 곱하면 값이 거의 같은 값이 된다

빈출 순위가 두 번째인 단어 빈도는 빈출 순위가 첫 번째인 단어 빈도의 약 1/2이고 빈출 빈도가 세 번째인 단어 빈도는 빈출 순위가 첫 번째인 단어 빈도의 약 1/3이다. 그래프에 쓰기 시작하면 빈출 순위와 빈도가 반비례한다.

보편적으로 볼 수 있는 지프의 법칙

32개월 미만 어린이들의 발화나 대학급 전문서에서도 지프의 법칙이 성립된다. 단어뿐 아니라 어느 도시에서 n번째로 소득액이 큰 사람의 소득액이 첫 번째 사람의 소득액의 1/n이 되거나, 월면 크레이터 중 n번째로 큰 면적은 가장 큰 크레이터 면적의 1/n이 되는 등 모든 사례에서 지프의 법칙이 성립된다.

지프의 법칙이 일어나는 원인은 불분명하지만 몇 가지 법칙으로 설명되기도 한다. 단어의 빈출 순위와 빈도는 화자가 추상적으로 사용할 수 있는 단어를 가급적 많이 사용하고 의사소통 노력을 최소화하려는 최소한의 노력의 법칙으로 설명할 수 있다. 도시의 소득 분포에 대해서는, 부유한 사람이 보다 부유해지는 유르·사이먼 분포의 우선적 어태치먼트로 설명할 수 있다.

UX DAYS SEOUL

UX DAYS SEOUL 스태프 모집!

UX DAYS SEOUL에서는 함께 이벤트를 만들어가고 UX를 공부하며 성장해 나갈 수 있는 스태프를 상시 모집 하고 있습니다.

[활동 내용]
・UX DAYS SEOUL 컨퍼런스 등 이벤트 기획, 진행
・독서회 등 UX 공부회 실시

관심 있으신 분들은 다음으로 연락 부탁드립니다. (uxdaysseoul@gmail.com)

--

--

UX DAYS SEOUL

UX DAYS SEOUL2020, 참가자와 연사자의 안전을 위해 2021년 3월경으로 연기되었습니다.https://2020.uxdaysseoul.com/