속성을 활용한 추천 고도화 : Part 1. 무신사만의 패션 택소노미 구축기

Jungmin Seo
MUSINSA tech
Published in
14 min readJul 7, 2024

안녕하세요. 데이터프로덕트 팀에서 상품 속성 기획과 운영을 담당하는 서정민입니다.

데이터프로덕트 팀은 무신사 서비스에서 발생하는 데이터를 활용하여 개인화와 추천, 검색 서비스와 같은 데이터 프로덕트를 기획, 개발하고 있습니다. 이번 글에서는 상품의 메타데이터인 속성을 패션 도메인 관점에서 설계하고 AI 자동화를 통해 추천 서비스로 구현한 과정 중에서 Part1. 무신사의 패션 택소노미 구축 과정을 소개하고자 합니다.

배경

여기 매우 유사해 보이는 상품들이 있습니다. ‘여유 있는 핏의 카라가 높고 길이가 짧은 패딩’이라는 공통의 특징이 있지만 브랜드마다 상품을 설명하는 용어가 다양합니다. 어떤 브랜드에서는 푸퍼 자켓이라 하고, 다른 브랜드에서는 패딩 혹은 패딩 점퍼라고 합니다. 기장은 크롭과 숏으로, 카라모양는 퍼널넥과 하이넥으로 각각 다르게 표현하고 있습니다.

[이미지1] 유사 상품을 브랜드마다 다르게 표현한 예

이번에는 ‘미디스커트’로 표현하고 있는 상품들을 모아보았습니다. 스커트의 기장을 나타내는 ‘미디(Midi)’의 범위가 무릎 길이에서부터 발목에 닿는 길이까지로 그 범위가 너무 넓습니다.

[이미지2] 미디 기장을 브랜드마다 다르게 사용하고 있는 예

이렇듯 패션은 매우 주관적이고 경계가 모호하며, 같은 대상이라도 다양한 표현 방식이 존재합니다. 그러나 추천, 검색 등 다양한 시스템의 메타데이터로 활용하기 위해서는 상품의 고유한 속성 정보가 일관되고, 체계적이어야 합니다.

무신사는 기존에 속성 정보를 1) 카테고리 2) 필터 3) 태그의 형태로 각각 수집하고 있었는데요. 그 현황을 좀 더 자세히 살펴보겠습니다.

1) 카테고리: 유사한 속성을 갖는 상품을 그룹화한 것으로, 현재의 카테고리는 유저의 편의성을 중심으로 구성되어 있어 분류의 기준 속성과 계층이 다소 혼재되어 있습니다. 따라서 일관성 관점에서 메타데이터로 그대로 활용하기에는 어려움이 있습니다.

[이미지3] 기존 아우터 카테고리의 서로 다른 분류 기준

2) 필터: 카테고리 내의 세부 분류를 위한 필터로, 소매기장, 넥라인과 같은 상품 구성 요소와 두께, 신축성과 같은 소재 특성을 파트너사가 상품 등록 시 선택하도록 하고 있습니다. 그러나 상품마다 선택해야 할 속성이 많고, 각 속성 클래스에 대한 가이드라인이 없어 서로 다른 해석으로 인한 오류가 많습니다. 이러한 이유로 유저의 필터 사용률이 낮아지고, 낮은 사용률로 인해 파트너사가 속성 기입을 생략하는 경우가 많아 주요 속성이 모두 기입된 상품 수가 의류 전체 상품의 10% 미만으로 매우 낮습니다.

[이미지4] 넥라인 ‘U넥’의 필터 결과로 ‘U넥’ 과 ‘라운드넥’이 혼재되어 나오는 예

3) 태그: 파트너사가 상품 등록 시 추가 입력하는 키워드로, 검색 데이터로 활용되고 있어 비교적 높은 약 70%의 입력률을 보입니다. 그러나, 태그는 임의로 입력할 수 있어 상품과 관련 없는 키워드를 잘못 입력하거나, 파트너사마다 다른 표현을 쓰는 경우가 많아 일관된 정보를 얻기 어렵습니다.

[이미지5] 후드 티셔츠 상품과 관련 없는 ‘스웨트셔츠’를 태그로 사용하거나 (상품1), 유사한 두 상품을 ‘후드티셔츠’, ‘후드’, ‘후디’, ‘로고티’ 등 서로 다르게 표현하고 있는 예

이와 같이 속성 정보를 파트너사의 입력에 의존하고 있는 한 누락된 정보가 많고 데이터의 품질을 보장하기 어려워 보입니다. 또한, 속성 정보가 분산되고 체계가 일관되지 않아 메타데이터로 활용하기 적합하지 않습니다. 그렇다고 파트너사를 대신해 내부 운영 인력이 속성 정보를 입력하기에는 매일 평균 3천 개의 신규 상품이 등록되는 무신사에서는 비용이 많이 들고 효율이 떨어집니다.

저희는 이러한 문제를 해결하기 위해 일관된 기준을 세우고, 상품 이미지를 기반으로 AI 모델에 학습시켜 상품의 속성 추출을 자동화하기로 하였습니다. AI를 활용하면 많은 양의 상품 속성을 신속하게 추출할 수 있을 뿐만 아니라, 정보의 누락을 최소화하고 일관된 데이터를 유지할 수 있을 것입니다.

패션 택소노미 (Fashion Taxonomy)란?

AI 모델이 상품을 잘 이해하기 위해서는 잘 정의된 택소노미(Taxonomy)가 필수적입니다. 택소노미란 생물학에서 생물을 분류하기 위해 사용하던 개념이지만 현재는 데이터 사이언스에서 널리 쓰이며 여러 용어와 개념을 범주화하고 세분화하는 분류 체계를 의미합니다.

즉, ‘패션 택소노미(Fashion Taxonomy)'는 패션 상품의 의미 있는 속성을 식별하고, 이 속성 정보를 표준화하여 상품의 중요한 기반 데이터로 설계하는 작업을 의미합니다. 이를 위해서는 다음과 같이 패션 도메인 관점과 개발 관점을 모두 고려하는 것이 매우 중요합니다.

  • 패션 도메인 관점: 무신사의 서비스와 상품의 특징이 잘 반영된 속성인가?

무신사는 타 커머스 플랫폼과 차별화된 스타일과 상품적 특징을 갖고 있습니다. 남성 상품의 비율이 높은 편이며, 스트릿 캐주얼의 상품이 주를 이룹니다. 이러한 현재의 상품 특징을 잘 반영함과 동시에 앞으로의 비즈니스 확장과 목표에 맞는 택소노미 설계 전략이 필요합니다.

  • 개발 관점: 메타데이터로서 AI 모델 학습에 적합한 속성과 속성 클래스로 구성되어 있는가?

패션 도메인 관점에서만 속성 체계를 구축한다면 지나치게 세분화되거나 추상적인 속성 클래스를 생성하기 쉽습니다. 그리하여 AI 모델의 효과적인 성능을 고려한 설계가 중요합니다.

[이미지6] 무신사 패션 택소노미를 통한 표준화 예

패션 택소노미가 중요한 이유

이렇게 패션 택소노미를 통해 데이터화된 속성 정보는 다음과 같이 다양한 측면에서 활용할 수 있습니다.

  • 개인화: 상품 속성은 각 유저의 취향과 관심사를 파악하는 데 중요한 정보를 제공합니다. 상품의 디자인, 스타일, 소재 등의 속성은 유저가 선호하는 상품의 특징을 나타내며, 이러한 구체적인 선호 속성 정보를 통해 유저의 취향에 맞는 상품을 발견할 기회를 높여 개인화된 경험을 제공할 수 있습니다.
  • 설명 가능한 추천: 구조화된 상품 속성을 조합하여 추천 상품에 대한 추천 이유를 명시적으로 제공할 수 있습니다. 예를 들어, ‘당신이 좋아할 만한 상품’ 보다는 ‘당신이 좋아할 만한 그래픽 오버사이즈 티셔츠’와 같이 추천하는 상품에 대한 설명을 더하여 유저가 추천된 상품을 이해하고 수용할 수 있도록 도와주며, 서비스에 대한 신뢰를 높이는 역할을 할 수 있습니다.
  • 검색 가능성 향상: 상품의 속성 정보 커버리지와 정확도를 향상시켜 관련성이 높은 상품의 노출이 증가하고, 속성 필터링을 더욱 정교하게 하여 유저가 원하는 상품을 쉽게 찾을 수 있도록 도울 수 있습니다.
  • 운영 자동화: 상품 속성의 기입과 검수를 자동화함으로써 수작업에 의한 운영 시간과 비용을 줄일 수 있습니다. 또한, 운영 작업의 실수나 오류 가능성을 최소화하여 일관된 데이터를 확보하고, 전체 운영 효율을 높일 수 있습니다.

자, 그럼 이제부터 무신사의 패션 택소노미 구축 과정을 좀 더 상세히 살펴보겠습니다.

속성 체계의 범위 정하기

무신사에는 다양한 카테고리의 상품이 있지만, 그 중 가장 비중이 큰 카테고리는 ‘의류’ 로 전체 상품의 약 47%를 차지하고 있습니다. 이에 따라, 의류의 속성 체계를 우선 수립하기로 하고, 그중에서도 비즈니스와 유저에게 ‘의미 있는 속성’을 선별하기 위해 다음과 같이 속성을 특성별로 구분하여 우선순위와 설계 범위를 정하였습니다.

[이미지7] 속성의 특성에 따른 구분

1. 유저의 속성 인식 관점에 따른 구분

대다수의 유저는 대표 이미지를 통해 상품을 먼저 접하고 평가하게 됩니다. 이에 따라 유저가 대표 이미지에서 인지할 수 있는 속성인지 여부로 보이는 속성보이지 않는 속성을 구분하였습니다.

  • 보이는 속성

유저가 이미지를 통해 시각적으로 파악할 수 있는 속성 정보입니다. 이는 유저의 관심을 끌고 클릭(상세 페이지로 진입)을 유도하는 중요한 역할을 합니다. 상품 유형(티셔츠, 셔츠, 데님팬츠 등), 구성 요소(넥라인, 핏, 기장 등), 디자인 요소(패턴, 주요 장식 등)와 스타일(캐주얼, 스포티 등)이 보이는 속성에 해당합니다.

  • 보이지 않는 속성

보이지 않는 속성은 이미지로는 확인이 어렵고 주로 상세 페이지 내의 설명(텍스트)으로 확인할 수 있는 속성입니다. 이러한 속성들은 상세 페이지에 진입한 유저가 구매 결정을 내리는 데 중요한 정보를 제공합니다. 소재 정보(구성, 신축성, 두께, 비침 정도), 안감 정보(안감이나 기모 유무), 기능성(퀵드라이, 냉감 등)이 이에 해당합니다.

속성 체계 정립의 우선순위를 정하는데 있어, 보이는 속성과 보이지 않는 속성의 중요도는 유저의 행동 단계에 따라 다를 수 있습니다. 그러나 주로 상품 전시 영역에서 속성이 활용될 예정이었기에, 유저의 즉각적인 관심을 끌 수 있는 ‘보이는 속성’ 체계를 우선적으로 정립하기로 하였습니다.

[이미지8] 보이는 속성과 보이지 않는 속성 구분의 예

2. 속성의 특징에 따른 구분

보이는 속성은 다시 상품의 실제적인 특징인 물리적 속성과 상품이 전달하는 감성을 분류한 감성적 속성으로 나누었습니다. 두 속성은 상품의 다른 측면을 다루고 있어, 1차) 물리적 속성과 2차) 감성적 속성으로 나누어 각각 별도의 이미지 라벨링과 모델 개발을 진행하였습니다.

[이미지9] 물리적 속성과 감성적 속성 구분의 예

속성 체계 설계하기

1. 물리적 속성

물리적 속성은 상품의 실제적인 특징을 나타내며, 형태적인 구성 요소와 디자인 요소를 포함합니다. 이는 상의, 아우터, 바지, 치마, 원피스의 대분류 카테고리에 따라 다르게 나타나므로, 아래와 같은 계층 구조로 기획하였습니다.

[이미지10] 물리적 속성 체계 구조

1) 서브카테고리: 상품 카테고리는 유저가 상품을 이해하는 가장 직관적인 정보로, 상의, 아우터, 바지, 치마, 원피스 카테고리 하위에 유형적 특징을 기반으로 서브카테고리를 구성하였습니다.

- 상의: 티셔츠, 탱크탑, 스웨트셔츠, 후드티셔츠, 셔츠, 블라우스, 니트, 베스트, 가디건 등

- 아우터: 후드집업, 블루종, 아노락, 윈드브레이커, 트렌치코트, 발마칸코트 등

-바지: 치노팬츠, 슬랙스, 스웨트팬츠, 트랙팬츠, 카고팬츠, 데님팬츠 등

-치마: 플레어스커트, 플리츠스커트, 카고스커트, 랩스커트 등

-원피스: 셔츠원피스, 랩원피스, 슬립원피스, 티셔츠원피스 등

기존 카테고리 체계에서는 반소매 티셔츠, 미니 스커트, 환절기 코트와 같이 서로 다른 속성(소매기장-반소매, 치마기장-미니, 계절-환절기)의 기준에 따라 분류되기도 하였지만, 신규 서브카테고리 체계에서는 속성 정보를 배제하고 고유한 디자인 특성을 기준으로 분류하였습니다. 이렇게 함으로써, 서브카테고리는 그 자체로 상품의 유형적, 디자인적 특성을 더 잘 설명할 수 있게 되었습니다.

[이미지11] 치마카테고리의 기존 카테고리와 신규카테고리의 차이

2) 구성 요소: 상품의 각 부분에 대한 세부적인 특징으로, 넥라인, 핏, 기장, 소매기장, 여밈방식 등이 이에 해당합니다. 각 속성과 속성 클래스에 대한 정의와 기준을 세워 일관성을 유지할 수 있도록 하였습니다.

[이미지12] 치마기장 속성 클래스의 구분 기준

3) 디자인 요소 : 패턴(단색, 스트라이프, 체크 등), 부가 장식(벨트, 스트링, 프릴 등), 소재표현(플리츠, 시스루, 니트, 가죽 등)이 이에 해당합니다.

특히, 소재표현은 실제 소재 구성과는 다른 개념으로 이미지에서 구분이 가능한 소재의 조직감이나 질감 표현을 의미합니다. 예를 들어, 니트류의 실제 소재 구성 성분은 울, 코튼, 아크릴, 폴리에스테르 등 다양하지만, 이는 이미지로는 파악이 어렵습니다. 대신 플레인 니트(일반적인 니트 조직), 케이블 니트(꽈배기 모양의 짜임이 보이는 니트), 메쉬 니트(성글게 짠 시원한 소재의 니트)와 같이 이미지로 구분이 가능한 소재표현을 속성 클래스로 설정하였습니다.

[이미지13] 소재표현 속성 중 니트류의 예

이렇게 구조화된 속성과 서브카테고리를 다양하게 조합하여 다음과 같이 상품의 특징을 잘 설명할 수 있게 되었습니다.

[이미지14] 속성 + 서브카테고리 조합의 예

2. 감성적 속성

상품의 감성적 속성에 해당하는 스타일은 패션 도메인에서 유저의 취향이나 상품의 디자인 의도를 파악할 수 있는 중요한 개념입니다.

기존의 무신사에서도 스타일 속성이 존재하였지만, 상품 보다는 브랜드의 포지셔닝(컨템포러리, 트레디셔널, 럭셔리, 키즈, 스포츠 등)에 가까웠고, 일부 용어가 직관적이지 않아 스타일 속성 정보 입력이 누락된 경우가 많았습니다.

스타일을 정의하고 분류하는 것은 앞서 정의했던 물리적 속성보다 더 주관적이고 상대적이어서 일반적으로 경력이 많은 전문가의 주관에 의존하여 분류되어 왔습니다. 이러한 상품 스타일을 정량적인 정보를 활용하여 일관된 기준을 세우고 AI 모델을 통해 분류할 수 있다면, 유저의 취향을 더욱 정교하게 파악할 수 있어 개인화 측면에서 서비스에 강력한 임팩트를 줄 수 있을 것으로 보았습니다.

1) 스타일: 분류 체계로서의 상품 스타일은 브랜드나 가격, 트렌드는 배제하고, 이미지에서 확인 가능한 상품 특징에 기반하여 무신사의 상품을 잘 표현할 수 있는 15개의 스타일(캐주얼, 스트릿, 미니멀, 스포티, 프레피 등)로 구분하고 정의하였습니다.

상품 스타일은 미세한 속성들의 조합을 종합적으로 판단해야 하므로 분류 난이도가 높습니다. 아래의 예시 상품들은 ‘ 화이트 반소매 티셔츠’ 라는 공통점이 있지만, 그 외 속성의 특징에 의해 각기 다른 스타일로 보입니다. 이처럼, 스타일과 물리적 속성의 관계를 분석하고 각 스타일의 주요 속성을 카테고리별로 정의하여 스타일 분류 기준을 세웠습니다.

[이미지15] 속성에 의한 스타일 변화

또한, 각 상품이 하나 이상의 스타일 클래스를 가질 수 있도록 하여 더 세분화된 선호도를 반영할 수 있게 하였습니다. 예를 들어, 사랑스럽고 발랄한 ‘걸리쉬’ 스타일은 캐주얼, 스트릿, 스포티 스타일 클래스를 함께 가지며 무드의 미묘한 차이를 표현할 수 있습니다. 하지만 걸리쉬 스타일과 반대되는 성숙하고 차분한 미니멀, 클래식 스타일 클래스는 동시에 가질 수 없도록 설정하였습니다.

[이미지16] 걸리쉬 스타일과 다른 스타일의 조합의 예

2) TPO: 상품 스타일을 활용하면 유저의 취향뿐 아니라 라이프스타일(출근, 데이트 등)과 특별한 이벤트(결혼식, 면접, 바캉스 등)에 적합한 상품도 추천할 수 있습니다. 계절 속성과 조합하여 TPO(시간, 장소, 상황)에 맞는 상품을 데이터함으로써 더 다채로운 상품 큐레이션을 제공할 수 있는 기반을 마련하였습니다.

[이미지17] TPO에 맞는 상품 큐레이션의 예

마치며

이와 같이 잘 정의된 패션 택소노미를 기반으로 이미지 데이터 라벨링을 진행하여 학습 데이터를 구축하였고, 이번 글에서는 상세히 다루지 않았지만 데이터 사이언티스트 분들께서 추론 성능이 높은 AI 모델을 설계 및 개발하여 물리적 속성과 감성적 속성 추출을 자동화하였습니다.

이로 인해 무신사 의류 상품의 90%가 일관된 기준으로 상품 속성 정보를 갖게 되었으며, 무신사의 추천 시스템에 우선 적용되어 유저에게 맞는 상품을 추천하는데 활용되고 있습니다. 이를 통해 사용자 경험에 미친 긍정적인 변화를 추천프로덕트 팀 PM 김지윤님께서 이어 Part 2에서 상세히 소개할 예정입니다.

그 외에도 의류 속성은 메타데이터로서 검색 및 랭킹 서비스로 확장하여 활용되고 있고, 의류 외 다양한 카테고리의 택소노미를 수립하고 AI 모델을 통한 자동화를 진행하고 있습니다. 앞으로도 데이터프로덕트 팀에서는 유저의 쇼핑 및 구매 경험 만족도를 높이기 위해 새로운 속성 기획, 개발 및 고도화를 계속할 예정이오니 많은 관심 가져주시기 바랍니다.

Musinsa CAREER

함께할 동료를 찾습니다.

데이터프로덕트 팀은 데이터사이언티스트, 데이터애널리스트, ML엔지니어, API개발자가 한 팀으로 구성되어 무신사 및 그룹사 플랫폼 데이터를 활용해 추천, 검색 등 다양한 데이터 프로덕트를 제공합니다. 전국민이 사용하는 1위 패션 플랫폼 무신사에서 기술로 비즈니스를 성장시키는 경험을 함께하고 싶으시다면 아래 채용 페이지를 통해 지원해 주세요!

🚀 무신사 채용 페이지 : https://corp.musinsa.com/ko/career

--

--

MUSINSA tech
MUSINSA tech

Published in MUSINSA tech

무신사 테크의 이야기를 공유합니다.

Jungmin Seo
Jungmin Seo

Written by Jungmin Seo

소싱 MD, 커머스 MD 등 패션 도메인에서 쌓아온 경험을 바탕으로 데이터프로덕트 팀에서 속성 데이터 기획 및 운영을 맡고 있습니다. 패션 및 커머스 도메인 지식을 나누고, 데이터 및 개발 문화는 배워 새로운 영역을 개척해 나가는 것을 목표로 하고 있습니다.