두피 케어 시스템을 위한 모발 데이터 가공
안녕하세요. 테서의 연구개발팀에서 의료 영상 모델을 개발하고 있는 박기민입니다.
이번 프로젝트는 두피 스캐너에서 활용할 모발과 모낭 검출 AI 학습 데이터셋 구축에 관한 프로젝트입니다. 데이터바우처 지원사업을 토대로 6,000건 이상의 모발 데이터를 구축한 방법과 우수사례로 선정 되었던 배경에 대해 소개합니다.
Hair & Scalp Analysis 시스템의 핵심, 두피 검출 데이터셋 구축기
최근 Object Detection 기술을 탑재한 두피 스캐너가 주목받고 있습니다. 두피 스캐너는 모발량, 모발 굵기, 모낭 밀도, 각질 등을 분석하여 두피 건강과 탈모 진행률을 분석할 수 있는 모발 전용 현미경입니다.
여기에 탈모 정도를 정량적으로 더욱 빠르고 정확하게 진단하는 인공지능 기술이 도입된다면 더욱 큰 시너지를 낼 수 있으며, 탈모 환자는 인공지능 두피 스캐너를 활용하여 그날의 모발 상태를 집중적으로 관리할 수 있습니다.
모발 탐지 분야에서 주로 사용 되는 AI 기술은 Object Detection과 Classification 기술입니다. 두피를 60배로 확대하여 촬영된 모발 확대 이미지 내에서 모발과 모공을 박스로 표시하고, 두피 상태에 따라 분류하는 라벨링이 필요합니다. 이러한 기술은 아래와 같이 활용될 수 있습니다.
모발과 모공의 위치를 분석해주는 Object Detection 기술
- 모발, 모공 등 원하는 객체에 박스를 표시해주어 관심영역을 쉽게 검출할 수 있게 합니다.
두피 상태에 따라 분류해주는 Classification 기술
- 새롭게 촬영된 두피 사진을 두피 상태에 따라 자동으로 분류하는데 사용됩니다.
테서는 인공지능 알고리즘 중에서 특히 영상과 자연어 데이터에 특화되어 있습니다.
고객사는 높은 성능의 모발 탐지 기술과 정확하고 빠르게 두피와 탈모를 검사하고 분석할 수 있는 인공지능을 위한 학습 데이터셋 구축이 필요한 상황이었습니다.
이에 3D 치아 데이터 가공, 안저 이미지 데이터 가공 등 다양한 의료데이터 프로젝트를 진행해 왔던 테서에게 프로젝트를 의뢰해 주셨습니다.
모발 데이터 작업, 핵심은 “픽셀 단위로 꼼꼼하게”
탈모 여부를 판단하기 위해서는 모발의 크기, 모공 당 모발의 수와 같은 정보가 중요합니다.
모공 안의 모발의 개수, 면적에 따라 탈모 여부를 판단할 수 있습니다. 이에 얼마나 오차 없이 모발 영역을 라벨링 할 수 있느냐가 핵심입니다. 특히, 이미지 한 장에 담긴 모발의 개수가 촘촘한 경우 한 개씩 확대해서 꼼꼼하게 작업할 필요가 있습니다.
모공의 위치를 기반으로 모낭 및 모낭 군의 위치와 굵기를 판독하여 두피 상태를 확인하는 솔루션을 만드는 것이 프로젝트의 최종 목표입니다.
고객사는 데이터바우처에서 가공된 데이터셋을 활용하여 모발 검출에 최적화된 모델을 구현한 뒤 현재 개발 중인 두피 스캐너에 탑재할 계획이었습니다.
테서는 고객사의 요구사항을 파악한 후 다음과 같이 데이터 검수를 진행하였습니다.
고객사 요구사항
- 각 모공 영상에 대한 연모(Vellus)와 경모(Terminal), 단모(Truncated) 모발에 대한 바운딩 박스 검수 및 각도 수정
- 모든 모공에 대한 바운딩 박스 검수 후 박스의 크기 및 각도 수정
- 각 모발에 대한 총 3가지의 속성값 체크를 수행
- 이미지 분류 작업을 통해 총 8가지로 유형으로 분류
상호 협의된 데이터 검수 작업 내용
- 데이터를 수집하며, 수집된 데이터의 호환성을 체크하고 필요한 클래스 분류 태그를 추가
- 박스의 크기와 각도 수정, 속성값 라벨링을 진행
- 태그 누락, 불완전 처리 점검, 객체 누락, 잘못 분류된 데이터 점검 등을 통해 최종적인 검수
- 모발과 모공을 하나하나 확대하여 픽셀 단위로 정밀하게 처리
고품질 데이터를 위한 피드백과 반복
높은 퀄리티의 결과물을 위해서는 주기적인 피드백과 3차례에 걸친 검수 작업이 핵심이었습니다.
테서는 수요기업의 요구 사항을 충족시키기 위해 많은 피드백을 주고받았습니다. 우선 내부적으로 데이터 엔지니어가 1차 작업을 거치게 되면, 프로젝트 매니저를 통해 검증을 진행합니다.
검증이 완료된 작업물의 샘플은 수요기업에 전달되고, 수요기업의 담당자는 데이터 품질을 체크하여 피드백 내용을 주고받습니다. 아래 그림은 전체 프로세스를 요약한 내용입니다.
위 프로세스로 진행한 결과 고품질 퀄리티의 모발 데이터를 얻을 수 있었습니다. 그 결과 데이터바우처 결과 평가에서도 “우수”라는 높은 등급으로 마무리 지을 수 있었습니다.
픽셀 단위의 정확도가 요구되는 고난도 작업이었지만, 수요기업과의 원활한 소통을 통해 두 기업 모두 만족할 만한 결과물을 얻을 수 있었습니다. 테서는 모발 데이터뿐만 아니라 의료, 자연어처리, 챗봇, 3D 치아 영상 등 다양한 데이터에도 항상 준비되어 있습니다. 데이터 라벨링이 필요한 분들의 연락을 기다리고 있습니다!