[카카오 아레나] 쇼핑몰 상품 카테고리 분류 대회 리뷰 — N줄 요약

baseI(L아니고 대문자 i)ine으로 참가한 팀의 아이디어를 설명하는 글입니다. 자세한 내용은 이 포스트의 하단을 확인해주세요.

작년 11월, 카카오에서 총 상금 3천만원의 쇼핑몰 상품 카테고리 분류 대회를 개최했습니다. 상품 정보(상품명, 제조사 등)를 보고 대, 중, 소, 세분류의 4개의 계층적인 카테고리를 예측하는 문제입니다. 예를 들어,

맛있는 제주차 3종세트 …

라는 상품을 아래처럼 분류하면 정확한 분류기라고 할 수 있습니다.

  • 대분류: 음료/생수/커피
  • 중분류: 차/티백
  • 소분류: 차 선물세트
  • 세분류 : 없음

대회 참가를 결정한 여러 이유가 있지만 그중에서 데이터셋이 주로 한글이면서 천만 건이 넘는 것이 가장 큰 매력 포인트였습니다. 개인/학교는 물론이고 심지어 회사에서도 쉽게 접하기 어려운 규모라고 생각하는데, 큰 데이터셋 덕분에 한 달여간 데이터랑 씨름하면서 많이 배웠습니다.

지금 하는 연구가 NLP와 거리가 멀어서 최신 논문을 적용하기 보다는 실험 주기를 짧게 만들어서 많은 실험을 돌려보는 것에 집중했습니다. 데이터셋이 크고 연구실의 리소스를 활용한 덕분에 최종 2등(baseIine)이라는 결과를 얻을 수 있었던 것 같습니다.

최종 결과(Official) — https://arena.kakao.com/forum/t/topic/191

다시 본업(?)으로 돌아가야한다는 아쉬움에 대회를 정리하는 글을 쓰고 있는데 비슷한 문제를 푸시거나 NLP를 시작하시는 분들에게 좋은 참고자료가 되었으면 하는 바람입니다.

이어지는 포스트를 통해서 다룰 내용은

입니다.