Phân tích tổ hợp (cohort analysis): công cụ phân tích quan trọng nhất cho startup giai đoạn đầu

Louis Nguyen
Sep 11 · 9 min read

Trong một session AMA (Ask-Me-Anything) trên Quora, Andrew Chen, General Partner của Andreessen Horowitz đã trả lời 1 câu hỏi về việc đâu là những chỉ số trong consumer tech vô dụng hoặc dễ gây hiểu nhầm nhất, và trong đó có:

Any retention metrics that aren’t standardized into cohort curves. Sometimes people will give a single snapshot number, like a “3 months later, X% still use the app!” and that’s not that helpful.

Mình đã tiếp xúc với khái niệm cohort analysis lần đầu vào khoảng 3–4 năm trước, trong quyển Lean Startup. Thú thực, lúc đó mình đã không hiểu cohort analysis là gì, và đến tận gần đây khi mình vẫn thấy khá khó để wrap my head around khái niệm này. Đến tận bây giờ mình mới hiểu rõ hơn khi có cơ hội để áp dụng khi tham gia vào team growth của một vài team portfolio của G&H Ventures.

Trong bài viết này, mình sẽ trả lời các câu hỏi: Cohorts là gì? Tại sao nó lại quan trọng đến thế? Làm thế nào để áp dụng cohort analysis vào việc vận hành startup cũng như gọi vốn?

Trước tiên, chúng ta sẽ đi qua ví dụ để có intuition về cohort analysis.

Giả sử một công ty đo chỉ số APRU (Average Revenue Per User) trung bình theo từng tháng, và chỉ số tại từng tháng như trong bảng tại slide bên dưới. Nhìn vào chỉ số này, rất khó để biết được tình trạng monetization đang tốt lên hay xấu đi, vì gần như chỉ số này đi ngang.

Lý do là vì chỉ số của tháng sau có thể bị ảnh hưởng bởi khách hàng đã acquire trong tháng trước. Ví dụ, một khách hàng chi $5 trong tháng 1 có thể chỉ chi $3 trong tháng 2, và vẫn được tính vào ARPU tháng 2. Như vậy kể cả công ty có acquire được khách hàng mới vào tháng 2, chi $6 trong lần đầu tiên thì ARPU của tháng 2 cũng bị kéo xuống bởi các khách hàng acquire trong tháng 1. Chỉ số dạng trung bình này không nhạy cảm với thay đổi, vì vậy rất khó để gain insights và make decision từ đây.

Vậy trong trường hợp áp dụng cohort analysis thì sao? Điều gì xảy ra khi chúng ta phân chia tập khách hàng theo các nhóm acquire vào các tháng khác nhau, và theo dõi hành vi của họ theo thời gian?

Mỗi nhóm khách hàng được acquire vào mỗi tháng được coi là mỗi cohort. Nhìn theo slide ở dưới, mỗi cohort là 1 hàng ngang, và mỗi tháng theo dõi là một cột dọc. Giả sử thời điểm bắt đầu theo dõi là tháng 1, và thời điểm hiện tại là tháng 5. Như vậy Jan cohort sẽ có 5 điểm dữ liệu (vì qua tháng 1 2 3 4 5), và May cohort chỉ có 1 điểm dữ liệu (chỉ tính tháng 5).

Nếu nhìn vào bảng này thay vì bảng trên, có thể thấy rõ được 2 việc:

  • Khả năng monetization đang tốt lên rất nhiều, vì doanh thu trong tháng đầu tiên thu được tăng lên nhanh qua mỗi cohort (APRU tăng từ $5 tháng 1 lên $9 tháng 5)
  • Bản chất việc APRU trung bình mỗi tháng không tăng, là do bị pha loãng bởi APRU của các cohort trước trong tháng đó (ví dụ khách hàng acquire trong tháng 1 chỉ chi $3 trong tháng 2, làm cho APRU tháng 2 bị kéo xuống)

Dựa vào ví dụ này, chúng ta có thể thấy sức mạnh của cohort analysis: cho ra insight rõ ràng hơn rất nhiều so với các chỉ số trung bình khác, từ đó hỗ trợ decision making chính xác hơn rất nhiều.

Một “cohort" có thể hiểu đơn giản nhất là một nhóm user chia sẻ cùng một đặc điểm với nhau, phổ biến nhất là theo thời gian acquire được.

Tất cả các em bé được sinh ra trong năm 2019 là một cohort, vì có chung năm sinh.

Cohort Analysis là phương pháp phân tích tách riêng từng cohort, theo dõi performance của chúng theo thời gian và so sánh các cohort này với nhau. Ví dụ, việc so sánh thế hệ con cái học giỏi hơn thế hệ bố mẹ chính là cohort analysis!

Dưới đây là một ví dụ của cohort analysis trên Google Analytics. Cụ thể ở đây chúng ta nhìn vào chỉ số retention rate, tức là cohort retention. Mỗi cohort là mỗi hàng ngang, hàng dọc là số tuần trải qua. Ví dụ ở đây, chúng ta có thể nhìn thấy retention rate trong tuần đầu tiên đang được cải thiện qua từng cohort đối với Table and Desktop Traffic.

Còn đây là visualization của cohort retention rate dưới dạng biểu đồ. Nếu retention rate tốt lên sau mỗi cohort, retention curve của cohort sau sẽ nằm cao hơn cohort cũ.

So với các chỉ số trung bình, cohort analysis cung cấp một góc nhìn rõ ràng hơn rất nhiều. Chúng ta có thể biết được điều gì đang xảy ra với retention rate của nhóm khách mới acquire được (thay vì bị pha loãng bởi chỉ số của các nhóm khách hàng acquire được vào thời gian trước). Sự thay đổi của chỉ số này phản ánh sự thay đổi trong product, marketing, etc. Nhìn vào các chỉ số này, ta có thể biết được kết quả của việc thực hiện những thay đổi này. Vì vậy cohort analysis là critical cho việc testing với các startup.

Đúng như Andrew Chen nói, một con số duy nhất không có tác dụng gì cả, vì nó chỉ là một snapshot trong cả một dòng thời gian. Cần theo dõi các chỉ số này thay đổi theo thời gian (điều mà không thể chính xác nếu không có cohort analysis!) để ra các quyết định về product, marketing, etc.

Đồng thời, cohort analysis cũng rất mạnh mẽ trong việc gọi vốn, đặc biệt đối với các team consumer hoặc enterprise nhưng mang hơi hướng kiểu consumer (kiểu như Slack, Dropbox, Zoom…). Đối với các team dạng này, chỉ cần một slide thể hiện 2–3 metric pillar quan trọng (monetization / conversion / retention / engagement) cải thiện qua từng cohort, mình gần như sẽ bị thuyết phục ngay lập tức, vì đây là minh chứng rất rõ ràng cho việc team đang đi gần đến product-market fit.

Nếu đây là một chart trong pitch deck, khả năng mình bị thuyết phục là cực cao, vì: (1) retention đi ngang sau 1 đoạn rơi, (2) cohort retention đang cải thiện

Mặc dù cohort retention là chỉ số phổ biến nhất khi nói đến cohort analysis, thực ra có thể áp dụng cohort analysis cho bất cứ chỉ số nào. Đây chỉ là một phương pháp phân tích, không phải một chỉ số. Vì vậy chúng ta có thể có cohort retention, cohort conversion, cohort APRU (monetization), cohort engagement…

Việc áp dụng cohort vào chỉ số nào thì tuỳ thuộc vào mục tiêu hiện tại của team. Thường thì đối với các team Pre-PMF, mục tiêu sẽ là đạt được PMF. Khi đó các chỉ số cần áp dụng cohort để phân tích sẽ là các chỉ số phản ánh PMF: retention, engagement, monetization, conversion… Mỗi team thường nên chọn 2–3 chỉ số quan trọng để theo dõi song song, chỉ số nào thì tuỳ vào bản chất model/sản phẩm của từng team.

Mặc dù mạnh như vậy nhưng cohort analysis chỉ thực sự hữu ích khi là một phần của quá trình vận hành. Bản chất của việc phát triển sản phẩm và tăng trưởng đối với startup giai đoạn đầu vẫn là thử sai liên tục. Vì vậy cohort analysis sẽ đóng vai trò điều hướng cho việc thử sai này. Một thử nghiệm có thể được coi là thành công khi nó làm thay đổi một chỉ số theo hướng tích cực, quan sát được trên cohort.

Khi nhìn vào cohort theo cột, ví dụ ở đây là tuần đầu tiên của tất cả các cohort, ta có thể thấy được retention rate đang tăng lên, chứng tỏ các cohort sau perform tốt hơn cohort trước. Việc này chứng minh những sự thay đổi về product feature, marketing tactic, etc. có hiệu quả.

Trong khi đó, hàng ngang lại thể hiện performance của một cohort duy nhất theo thời gian. Ví dụ đối với cohort retention, nếu cohort của bạn có tỉ lệ drop off quá lớn sau một thời gian ngắn (say 90% after a day), thì có 2 trường hợp có thể xảy ra: (1) bạn đang không thực sự giải quyết được vấn đề của khách hàng, (2) sản phẩm của bạn thuộc dạng low-frequency, tức thời gian hợp lý để khách hàng quay lại dùng sản phẩm có thể dài hơn, vì vậy bạn nên chọn khung thời gian để phân tích (weekly or monthly).

Đối với việc quan sát một cohort duy nhất theo hàng ngang, cái mà bạn muốn thấy sẽ phụ thuộc vào từng loại chỉ số. Nếu là cohort retention (user), bạn sẽ muốn thấy retention rate giảm nhanh trong thời gian đầu nhưng đi ngang sau một thời gian nhất định. Điều này thể hiện bạn có một lượng khách hàng trung thành luôn ở lại kể cả khi những người rời đi.

Build a cohort analysis dashboard

Cách phổ biến nhất, đồng thời cũng khá đơn giản và free để build cohort analysis dashboard là sử dụng Google Analytics. Google Analytics cho phép tuỳ chỉnh rất đa dạng, hợp với những team có nhu cầu tuỳ chỉnh việc phân tích nhiều để fit với sản phẩm và model của mình.

Ngoài ra, bạn cũng có thể sử dụng một số tool analytics cao cấp hơn như Mixpanel, Amplitude. Các tool này đều mất phí, tuy nhiên điểm mạnh là chúng recommend cho bạn luôn các tuỳ chỉnh, có user experience tốt hơn, và có một số tính năng phân tích cao cấp hơn.

Còn nếu không muốn dùng tool nào trong các tool trên, bạn có thể tự build dashboard cho mình, có thể đơn giản là một trang spreadsheet cũng được. (Tất nhiên bạn sẽ phải nhập liệu bằng cơm).

Key points

  • Cohort analysis là phương pháp phân tách từng cohort (tập khách hàng có cùng một đặc điểm chung, thường là thời gian acquire), theo dõi performance của chúng theo thời gian và so sánh với nhau.
  • Cohort analysis là một phương pháp phân tích mạnh mẽ, vì nó cho thấy sự thay đổi của các chỉ số theo thời gian một cách rất rõ ràng, điều mà các chỉ số dạng trung bình không làm được.
  • Các chỉ số được phân tích theo cohort đóng vai trò điều hướng trong quá trình phát triển sản phẩm / tăng tưởng. Một thử nghiệm có thể được coi là thành công khi nó làm thay đổi một chỉ số quan trọng theo hướng mong muốn, có thể quan sát được trên cohort. Đồng thời cohort analysis cũng có thể rất mạnh trong việc gọi vốn.
  • Bạn có thể build cohort analysis dashboard bằng cách sử dụng Google Analytics, Mixpanel, Amplitude, etc. hoặc tự build từ đầu.

G&H Ventures

We work with bold entrepreneurs from Day 1.

Louis Nguyen

Written by

Basic growth/analytics for startups + fundraising + life. Contact: louis.nguyen@ghventures.vc

G&H Ventures

We work with bold entrepreneurs from Day 1.

Welcome to a place where words matter. On Medium, smart voices and original ideas take center stage - with no ads in sight. Watch
Follow all the topics you care about, and we’ll deliver the best stories for you to your homepage and inbox. Explore
Get unlimited access to the best stories on Medium — and support writers while you’re at it. Just $5/month. Upgrade