[商業數據分析] Google map 評論分析- 顧客關注項目、負向評論原因

Ben Hsu
6 min readOct 11, 2020

--

通常到一些連鎖餐廳用餐時,他們都會請顧客填寫用餐的餐後問卷,目的是要了解這是用餐的滿意程度,對顧客而言加分、扣分的項目是什麼 ? 以便之後對品項進行改善。但除了連鎖餐廳外,我很少收到其他餐飲業者的問券,原因大概有幾項:

  1. 問卷的設計成本,發放、回收率低;
  2. 結果多數是正向樣本,要透過問券了解需改善的項目難度高;

而我們想進行市場調查的原因則是:不清楚國外與台灣市場的顧客關注差異

但因為Covid-19疫情,歐洲禁止集會,所以也沒辦法進行問券調查,所以從google map的評論作為市場調查替代,但是這個抽樣的母體可能與以問卷的有所不同,會是:造成顧客到google map留言的原因。但大概還是可以得到下面資訊:

  1. 顧客在各個連鎖店、獨立店面的關注項目
  2. 現有連鎖店營業的加分、扣分項目,作為借鏡

結果呈現

先附上結果,再說明是如何做的。圖1是統計結果,最左邊的Type是使用者在google map的評論中,是否有提到的屬性;而第二欄是All_num,表示提到這個屬性的數量;第三欄All_ratio則是提到這個屬性占所有評論的比例,而因為一則評論可能同時提到多項屬性,所以加總會大於1。右邊P、N則是將正向、負向評論分開檢視。

圖1. Starbucks 顧客關注統計表

圖1最後一列,All_num = 736,表示有736則評論提到跟產品有關的關鍵字;而All_ratio = 0.377,則表示有3成7的評論者是因為產品而留言、2成3是因為品牌、2成因為服務。而正負評論方面,第二列廁所,正向評論數 P_num = 6,而負向評論數N_num = 46,可能可以解讀為,當你提供了一項額外服務,做得好加分的可能不多;但做的差則會被嫌到死。

只看Starbucks可能無法看到整個市場情況,圖2是 5 家獨立飲料店評價的統計結果,可以看到產品的屬性占評價的8成2,這可以反映出如果沒有品牌,產品的占比會有多重要。這項理解來自於我們對於市場上的了解,一個方便的地點、聊天的座位,供人聊天是歐洲人進到店家的重要原因。但從圖2的結果看起來,一個獨立店面,相較於加分項目,產品的重要性比起連鎖店要來的重要得多。而這個表的各個屬性比例,會隨著不同性質連鎖店會有差異。

圖2. bubble tea shop顧客關注統計表

這個將Google map評論整理的做法,其實就是問券的多選題,或是將問卷開放式問題統整,但多選題在統計分析上是困難的,所以僅進行敘述統計。但還有幾個討論點

  1. 這是其他店家的統計結果,僅能選擇與自己相似的店家進行參考
  2. 屬性是個人主觀分類,有誤差
  3. 對於特定的商業問題,無法靠公開評論解析,仍需要進行問卷調查。ex:綠茶(指定產品)在歐洲市場的接受度? 是否願意付更多錢?

整理過程

這裡整理的原則是,我們統計一則評論中,是否有出現特定關鍵字,當有出現關鍵字時,我們就認為該評論具有某種特性。所以我們需要針對每一個詞,給定我們想知道的屬性。

整理過程大致就2個步驟,以下為均將不同類型店面分開整理

  1. 去除無效字詞
  2. 賦予高頻字詞屬性

1. 去除每則評論的無效字詞

這裡指三個項目,第一個是評論中,會出現很多主詞、冠詞、代名詞等。而這些字詞通常對於屬性的定義沒有幫助,部分舉例如下:

‘a’, ‘about’, ‘above’, ‘after’, ‘again’, ‘against’, ‘all’, ‘also’, ‘am’, ‘an’, ‘and’, ‘any’, ‘are’, “aren’t”, ‘as’, ‘at’, ‘be’, ‘because’, ‘been’, ‘before’, ‘being’, ‘below’, ‘between’, ‘both’, ‘but’, ‘by’, ‘can’, “can’t”, ‘cannot’, ‘com’, ‘could’, “couldn’t”, ‘did’, “didn’t”, ‘do’, ‘does’, “doesn’t”, ‘doing’, “don’t”, ‘down’, ‘during’, ‘each’, ‘else’, ‘ever’, ‘few’, ‘for’, ‘from’, ‘further’, ‘get’, ‘had’, “hadn’t”, ‘has’, “hasn’t”, ‘have’, “haven’t”, ‘having’, ‘he’, “he’d”

第二個是,有一些評論是一個廣義的稱讚、敘述的單詞、可能附有多種意義,沒有指特別的屬性。舉例如下:

‘good place’、‘time’(多重意義。有可能是來的次數,或是真的指時間)、‘busy’(無特別屬性;通常指這家店很忙碌)、‘standard’(不好不壞)

第三個是google評論特有的狀況,會有外國人留言,所以要去除外國文字。舉例而言:

‘(Tnslted by Google)’、‘(Ognl)’、‘y’、‘e’、‘il’、‘la’、‘de’、‘un’

2. 賦予高頻字詞屬性

步驟如下:

(1) 將每則已經去除無效字詞的評論,再去除重複的單詞。舉例若評論是 ‘very very very very very good place’,‘very good place’

(2) 將所有評論集合做字頻統計。如圖3.,會發現大多數詞都是無效的,會不斷加入新詞至無效字詞中。

圖3. 字詞統計(節錄)

(3) 針對高頻字詞賦予屬性

結果如圖4.,這裡需要先定義出你們關注的屬性,而我定義的屬性包含‘產品’、‘地點’、‘服務’等等。那如果有我特別想知道的項目,我會再新增,如‘WIFI’。

而在賦予完屬性後,我會再回頭檢視沒有被任何賦予屬性的評論。這時有很多確實無法歸類(約占總留言數的1/5),但也有很多是罕見字,如barrista、vegan、espressobel、espresso等。這時我會把這些單詞賦予屬性。這時我們就可以得到個屬性的統計表。

圖4. 字詞屬性定義(節錄)

結論

這篇文章將Google map的評論轉化成類似問卷多選題的形式,了解不同特性店面客群在意的點、造成顧客負面觀感的項目,藉以改善店家的缺點。而因為google map為開放問題,所以可以藉由自定義屬性。

但像我們更在意顧客對市場上茶飲的評價,這時就會再將茶類的評論抓出來做更細緻的探討。

--

--