딥러닝으로 동네생활 게시글 필터링하기

우리 나라 동네 사진(감천 문화 마을): 사진 링크
  • 동네생활과 BERT
  • BERT Pretrain 하기
  • 게시글 필터링을 위한 데이터셋 만들기
  • 게시글 필터링 모델 학습하기
  • 게시글 필터링 모델 배포하기

동네생활과 BERT

동네생활 탭 예시
SQuAD 1.1 리더보드: 이미지 출처
일반 분류 모델과 BERT 활용 모델 학습

BERT Pretrain 하기

텍스트 전처리

중고 거래 게시글의 예시

토크나이저 선택

데이터셋 만들기

모델 학습하기

  • token embedding: tokenizing한 sequence에 2가지 작업을 합니다. 하나는 두 번째 문장을 50 %의 확률로 다른 문장으로 바꾸는 것입니다. 두 번째는 각 토큰을 15 %의 확률로 masking을 하는 것입니다.
  • sentence embedding: 모델이 첫 번째 문장과 두 번째 문장을 구분하도록 합니다.
  • position embedding: 입력 sequence 상에서의 위치에 대한 embedding입니다. Transformer에서도 position embedding을 사용했었는데 BERT에서는 학습하는 embedding으로 사용합니다.
  • Next Sentence classification: 두 번째 문장이 첫 번째 문장 다음에 오는 것이 맞는지 예측하는 문제입니다.
  • Masked Language Model: 무작위로 가린 token을 예측하는 문제입니다.

모델 크기

모델 학습

게시글 필터링을 위한 데이터셋 만들기

게시글 필터링 모델 학습하기

모델 학습하기

학습 결과 분석

게시글 필터링 모델 배포하기

이 글을 마치며

--

--

당근마켓은 동네 이웃 간의 연결을 도와 따뜻하고 활발한 교류가 있는 지역 사회를 꿈꾸고 있어요.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store