데이터 분석의 4단계 여정 : 문제 정의부터 사용자 중심 솔루션까지
데이터 기반의 문제 정의와 내/외부 데이터의 결합
최근 1년 동안 네이버 통합 검색 데이터를 분석하며 지속적으로 가져왔던 문제의식이 있었다.
국내 MZ세대의 정보 소비 패턴이 점진적으로 변화하고 있으며, 변화하는 니즈에 맞춰 서비스가 제대로 대응하고 있는지 점검할 필요가 있다는 것이 주요한 문제의식이었다.
이 문제의식에서 출발해 가설을 구체화하고, 내/외부 데이터를 결합해 검증하고, 최종적으로 솔루션을 제안하는 과정을 이번 글에 정리해본다.
데이터 분석 프로세스를 고정된 단계로 일반화하기는 어렵지만, 여러 사이클을 반복하며 공통적으로 발견한 핵심 4단계로 분석 사례를 담아보았다.
목차
1️⃣ 문제 정의 : 다방면의 내/외부 데이터와 집단 지성을 통한 문제 발견
2️⃣ 외부 데이터 및 자료 리서치 : 가설을 뾰족하게 구체화하고 분석의 타당성을 확보
3️⃣ 내/외부 데이터 결합을 통한 가설 검증 : 지표화하여 내부 데이터에서 가설을 검증
4️⃣ 사용자 중심 스토리텔링과 솔루션 도출 : 사용자에 대한 이해도를 높이고 전달력을 높이는 스토리텔링
1단계 : 문제 정의
다방면의 내/외부 데이터와 집단 지성을 통한 문제 발견
데이터 분석의 시작은 명확한 문제 정의다. 하지만 문제를 처음부터 명확하게 부여 받거나 정의할 수 있는 경우만 있는 것은 아니다. 주로 제품이나 데이터가 먼저 주어지고, 그 안에서 문제를 찾아보라는 미션을 받게 되는 경우도 많다.
이런 상황에서는 데이터를 탐색하며 문제를 정의해가는 과정이 필수적이다. 데이터를 처음부터 탐색하는 EDA(Exploratory Data Analysis) 과정은 문제가 불분명한 초기 단계에서 매우 유용하다. 데이터를 탐색하다 보면 점차 문제의 윤곽이 잡히고, 이를 기반으로 방향성을 잡아나갈 수 있다.
문제를 정의해가는 과정은 다소 시간이 소요되다보니, 문제를 정의한 상태에서 데이터 분석을 시작하는 것이 가장 이상적이다.
문제 정의는 보통 제품이나 서비스에 대한 깊이 있는 이해에서 출발한다. 서비스의 목표와 사용자 요구를 가장 잘 알고 있는 사람의 고민에서 문제 정의가 나오는 경우가 많고, 데이터 분석가 역시 이러한 문제의식을 바탕으로 분석을 시작하는 것이 중요하다. (*그래서 티타임이나 문서를 통해서 서비스에 대해 가장 잘 알고 깊게 고민하는 분들의 생각들을 파악할 수 있는 것이 중요하다.)
필자는 이번 사례의 문제 정의를 위해 두 가지 접근 방식을 활용했다. 아래 두 가지의 접근 방식의 결합이 가장 주도적으로 문제를 정의해 갈 수 있어서 재미있다.
- 첫 번째는 다방면의 데이터와 동향을 조사하는 것이다. 특정 제품이나 서비스와 관련된 데이터를 다각도로 살펴보고, 그 흐름을 이해하다 보면 조금씩 문제의 윤곽이 드러나게 된다. 특히, 내부 데이터에만 의존하지 않고 외부 뉴스, 리포트, 동향 자료 등을 통해 확인할 때 더 정확한 문제 인식을 형성할 수 있었다.
- 두 번째는 조직 내 집단 지성을 활용하는 것이다. 기존 분석 자료나 문서들을 검토하고, 같은 문제에 대해 다양한 관점을 가진 구성원들과 의견을 나누면서 문제에 대한 이해가 더 깊어졌다.
📌 필자의 문제 정의 프로세스
필자가 다루고자 하는 사례는 ‘국내 MZ세대의 정보 소비 패턴이 변화하는 문제’이다. 이 문제는 23년에서 24년으로 넘어오며 6개월 정도 다방면의 데이터 분석을 하면서 점차 좁혀왔던 가설이었다.
- 23년에 내부 데이터 분석을 하는 중에, 사용자들의 검색 패턴이 바뀐 것으로 추정되는 점진적인 지표 변화가 있었다.
- 23년에 외부 시장 리포트를 리뷰하는 중에, SNS의 검색 점유율 증가가 두드러지는 점을 발견했다.
- 23년에 외부 시장 리포트의 원천 데이터를 분석하는 중에, 특히 MZ세대 연령대에게서 변화를 확인했다.
결과적으로, 이번 문제 정의 과정에서는 내부 데이터와 외부 트렌드 자료의 다각적 검토와 조직 내 경험적 지식을 통해 문제의 초점을 점차 좁혀가며 구체적인 가설을 설정할 수 있었다. 이 패턴이 어떻게 변화하는지, 왜 변화하는지, 어떤 방식의 대응이 필요한지의 답을 구하고 싶었다.
2단계 : 외부 데이터 및 자료 리서치
가설을 뾰족하게 구체화하고 분석의 타당성을 확보
문제를 정의한 후에는 외부 데이터와 시장 리포트를 통해 (1) 초기 가설을 더욱 구체화하고 (2) 분석의 타당성을 확보하는 단계에 들어갔다.
기존에 봐오던 내/외부 데이터에 한정짓지 않고 논문, 해외 동향, 추가적인 외부 리포트들을 리서치하고 참고했다.
- 국내 데이터의 경우 통계청, 트렌드 리포트, 캐릿, 딜로이트, 대학내일, 트렌드 모니터 등을 통해 Z세대와 M세대의 콘텐츠 소비 트렌드와 디지털 사용 행태를 끌어모았다.
- 해외 데이터의 경우 Gen Z 세대의 검색 패턴에 대한 리포트, 동향 리포트 등을 참고했다.
외부 데이터 및 시장 리포트를 참고하며 정리했었던 내용 중 일부를 담아봤다.
📌 Z 세대의 주요 특성 중 일부 :
- Short Attention Spans : 짧은 집중력 (M세대는 12초, Z세대는 8초)
- Digital Natives : 인터넷과 스마트폰과 함께 자라온 디지털 네이티브
- Visual Learners : 시각적 자료에 관심이 더 가며, 온라인과 오프라인 사이 배우는 경험에 차이가 없고, Diagram, Infographic, Mind Maps, Visual Aids 위주 자료로 배우는 경험에 익숙하다.
- Independent : 독립적 성향
📌 10대 사용자들에 관심을 가져야 하는 이유 :
- 10대는 다른 세대보다 트렌드에 민감함. 다른 국가의 트렌드 또한 더 빠르게 접하고 흡수함.
- 이들 사이에서 유행하는 게 Mega Trend*가 되는 경우가 많음.
(*현대사회에서 일어나는 거대한 시대적 조류’라는 의미로, 다양한 분야에서 단기적으로는 10~20년, 장기적으로는 50~100년을 내다보는 대대적인(mega) 변화 흐름(trend)을 지칭하는 장기적·포괄적인 개념)
이외에도 다양한 자료들을 통해 사용자들이 짧은 클립 콘텐츠나 간결한 정보를 선호하며, 다양한 플랫폼에서 정보를 빠르게 얻고자 하는 성향이 있다는 것을 확인할 수 있었다. 이를 바탕으로 구체화한 주요 가설은 다음과 같았다 :
1. 시성비 추구 성향
- 연령층 낮은 후기 M세대, Gen Z 세대는 ‘효율적 시간 소비(시성비)’ 를 중요시할 것이다.
2. 플랫폼 상호 연결성
- 트렌드에 민감하며 다양한 어플 사용에 익숙한 디지털 네이티브 저 연령층일수록, 네이버를 포함한 다양한 플랫폼들을 일상에 활용하고 있으며 상호 연결되어 있을 것이다.
- 다양한 플랫폼을 넘나들며 정보를 소비하는 경향이 강하기 때문에, 검색 플랫폼에서도 이런 성향이 드러날 수 있다.
이러한 가설들은 실제 내부 데이터를 통해 검증할 가치가 충분하다고 판단했다.
3단계 : 내/외부 데이터 결합을 통한 가설 검증
지표화하여 내부 데이터에서 가설을 검증
가설 검증 단계에서는 내/외부 데이터를 결합하여 사용자의 행동 패턴을 세부적으로 분석한다.
이 과정에서는 사용자들을 세대별로 섬세하게 구분하는 것으로부터 출발했고, 사용자가 서비스에서 보이는 검색어 그룹별 특성, 평균 체류 시간, 페이지 전환율, 클릭 성공률 등과 같은 지표들로 측정하고자 하는 행동을 지표화하여, 가설과 일치하는 패턴이 나타나는지 검토했다.
분석 결과, MZ 세대의 검색 행동은 예상한 가설과 다른 부분도 있었으나 일치하는 부분도 많았다. 내부 데이터를 기반으로 한 분석이기에 많은 내용을 담기는 어렵지만, 공유 가능한 결론은 아래 3가지로 요약할 수 있겠다 :
- 변화한 정보 소비 패턴 : 10~20세대는 검색 결과 하나를 진득히 탐색하기 보다는 짧게 짧게, 그때 그때 필요한 검색을 하고 떠나는 성향이 다른 세대 대비 짙음
- 시성비 : 이는 외부 동향에서 살펴본 숏폼, 클립의 사용량 증가와 사용자들의 짧아진 집중력과 효율적 정보 소비 추구 성향과 맞물리는 지점임
- 플랫폼 상호 연결성 : 사용자들이 네이버에서 정보를 얻고 나면 더 깊이 있는 정보를 다른 플랫폼에서 추가로 찾아보는 패턴도 존재하며 일부 사용자들의 행동 로그를 통해서 예시로 살펴봄
내부 데이터와 외부 데이터를 결합하여 비교 분석한 결과, 저연령대 사용자가 더 빠르고 간결한 정보를 선호한다는 가설을 실제 데이터로 검증할 수 있었다.
4단계 : 사용자 중심 스토리텔링과 솔루션 도출
사용자에 대한 이해도를 높이고 전달력을 높이는 스토리텔링
마지막 단계에서는 데이터 기반 스토리텔링을 통해 사용자 행동을 입체적으로 이해하고 이를 바탕으로 구체적인 솔루션 방향을 제안했었다.
단순히 수치로만 분석 결과를 제시하기보다는, 사용자가 어떤 흐름으로 검색을 진행하고 이탈하는지의 과정을 스토리 형식으로 설명했다.
예를 들어서, 사용자를 (세션당 검색수, 세션 수) 두 지표를 기반으로 큼지막하게 분류해서 Case 1과 Case2를 짚은 후, 각 그룹에서 일부 사용자들을 샘플링하여 로그 데이터를 확인해 사용자 여정을 스토리 형식으로 풀어내었다.
이 과정에서는 사용자별로 흥미로운 질문을 던져보며 행동의 배경을 주관적으로 해석해 나갔다. 예를 들어, Case 1 사용자 대상으로는 “주기적으로 방문하는 이유가 무엇일지?” “어떤 습관으로 서비스를 쓰는지?” 등, Case 2 사용자 대상으로는 “어떤 의도를 명확히 가지고 방문했을지?”, “이들이 기대한 결과는 무엇이었을까?” 와 같은 질문을 통해 더 깊이 있는 인사이트를 얻고자 했다.
이 접근 방식은 전체 사용자를 대표하기에는 한계가 있을 수 있지만, 정성적 이해를 높이는 데 도움이 되었다. 종종 분석에서 (1) 사용자 행동 양상에 대한 직관적인 이해가 필요할 때, (2) “왜?”에 대한 해답을 얻고 싶을 때의 하나의 툴킷으로 활용하고 있다.
최종적으로, 이러한 스토리 텔링 기반 분석을 통해 가능한 개선 방안을 2가지 방향으로 제안하며 분석을 마무리했다. 이후 진행된 피드백이나 실제 반영된 결과가 궁금하다면 언제든 티타임으로 이야기 나눌 수 있길 바란다.

