電腦也會美食評鑑?以分群演算法尋找最高級的巧克力

徐佳靖
Marketingdatascience
Mar 3, 2022
Photo by Denny Müller on Unsplash

情境

生產巧克力時,什麼產地的可可豆或是可可百分比可以為公司帶來更高的獲利呢?

巧克力作為一種流傳古今的甜品,消費市場也逐漸出現改變,由原來的衝動性購物轉變為追求品質的購物型態。當消費者購買一盒高級的巧克力作為禮物送給朋友或自己時,他們希望得到更多關於巧克力的資訊,但一般巧克力的包裝及標示並不能讓消費者知道巧克力的口感。這時如果有第三方巧克力評鑑機構透過相對客觀的角度,整合影響巧克力口感的因素(例如:可可豆產地和可可含量百分比)並給予評級,協助消費者判斷這個巧克力是否值得購買,則可以為消費者和巧克力生產商創造雙贏的局面。廠商可以透過這個巧克力評級來調整巧克力的配方,使他們生產的巧克力能夠獲得更高的評級,來達到吸引消費者與提升銷售量的目的,而消費者也可以透過評級,尋找到他們最喜歡的巧克力。

解決方法

  1. 資料簡介

巧克力的評級資料由曼哈頓巧克力協會的創始成員Brady Brelinski編制提供,本資料集共有1795筆,包含九個變數,如圖一所示。其中可可豆種類和可可豆原產國各有888筆和74筆的遺漏值,而可可豆種類之遺漏值過多,目前區分可可豆的品種只有三種,根據此資料推估許多可可豆並無明確分類在此三種類別中,而產生過多缺漏值,因此我們將這項變數刪除,不納入考量,另外,資料中特定的可可豆原產地和可可原產國,分別代表種植可可豆的城市及國家,所以可可原產地中的74筆遺漏值,會依據種植可可豆的城市所在之國家填補遺漏之欄位。

圖一、資料簡介

2.區分巧克力評級之特徵

在這筆資料中,我們雖然有各種巧克力的評級,但卻不知道較高的巧克力評級會包含什麼特徵,因此我們希望能有一個演算法能夠讓資料們自己「物以類聚」,有相似特性的資料就自己分成一群。在這個案例中,我們使用了DBSCAN演算法針對上述資料做分群,圖二為分群過後的結果,我們可以觀察圖二,同一種顏色即為同一群體,而坐標軸為每一筆資料之位置,由於資料存在之空間較複雜,難以肉眼區分,因此我們可將資料投射在平面上,較容易觀察所區分出之群體,在此總共區分為12群。

圖二、視覺化資料分群結果

接著,利用盒鬚圖觀察巧克力評級與可可含量百分比之間的關聯性,圖三橫軸之數字從-1至11表示為共有13個群體,其中-1代表離群值之群體,而縱軸則表示評級之分數;圖四橫軸同樣表示分成13個群體,而縱軸表示可可含量百分比。

由圖四可知,離群值的可可百分比之平均數相較於其他群體較高,但在巧克力評級的分數(圖三)為所有群體當中最低。

圖三、評級分群盒鬚圖
圖四、可可含量百分比分群盒鬚圖

成果與應用

完成上述之分群與分析後,可得知巧克力中的可可百分比較高並不一定會帶來更高的巧克力評級,甚至會使得巧克力評級變得更差。而評級最高的巧克力來自 Bolivia 和 Chile這兩個國家,且可可占比為73.5%時平均評級最高。因此對於對消費者來說,此結論可使得消費者在挑選巧克力時,不需盲目的追求濃度較高的巧克力,則可挑選評級較高的巧克力送禮或自己享用;對廠商來說,可根據上述之資料分析,挑選評級最好的可可豆產地來購買原料,也可以依據評級較高的可可百分比來做生產上的最適選擇。

此外本文所使用之分析工具與方法也可應用於具評級的相關產業,例如像是紅酒產業,紅酒同樣是具有多種葡萄品種以及各種產地來源,資料型態與巧克力類似,可以藉由本文之方法提升紅酒之評級!

作者:徐佳靖(臺灣行銷研究特邀作者)、林蔚恩(臺灣行銷研究特邀作者)、鍾皓軒(臺灣行銷研究有限公司創辦人)

參考資料

1.Chocolate Bar Ratings

2.Chocolate ratings-Outlier analysis with DBScan

◆◆◆ TMR最強新書與新課報到◆◆◆

📣新課快報

【Excel Power BI 實戰商品搭售分析與視覺化】

課程售價:$2,888

您可以學到:

購物籃分析資料前處理:利用 Power Query 進行資料前處理,將資料轉換成購物籃分析格式,以利後續找出潛在顧客購物籃中的熱門產品。
產品搭售方法解析:運用 Power Pivot(Excel Power BI) 及 Power View(Power BI),從銷售資料中找出可能的產品搭售。
財務指標分析:運用 Power Pivot(Excel Power BI) 及 Power View(Power BI),從財務價值觀點,找到具獲利效益的產品搭售及產品搭售的建議售價。
應用於自我商城經營:把購物籃分析結果應用於電商平台中,帶領您優化自我商城經營,達到提升營業額的目標。

💡 點此連結,購課詳情輕鬆看

📣新課快報

【Python輿情應用趣:顧客樣貌分析攻略】

募資優惠價:$2,388

您可以學到:

👉技術面:網路爬蟲學習
◆ 爬蟲技術基礎至實戰教學,建構爬蟲能力,強化爬蟲技巧。
◆ 實戰全台最大輿情平台爬蟲,結合財務指標,蒐羅消費者與市場銷售資料。

👉應用面:顧客樣貌與財務價值分析
◆ 帶您從消費者角度出發,找出消費者在意的重點關鍵字
◆ 以機器學習模型,進行顧客分群,找出重點顧客
◆ 從顧客樣貌分析角度出發,檢視市場上不同區隔的消費者行為與樣貌
◆ 從財務價值分析角度出發,找出有價值的客群市場,協助行銷策略制定

💡 點此連結,購課詳情輕鬆看

📣新書快報

【最強行銷武器 — 整合行銷研究與資料科學】

特惠價格: $458(原價:$580) 79折特惠中

💡 點此連結立即預購

— — — — — — — — — — —

往後的文章都會持續在行銷資料科學粉絲專頁上發表喔,喜歡我們就趕緊追蹤吧!

同時再請大家多多follow我們的FB粉絲專頁,我們會在粉專上即時公佈最新資訊,讓您重要消息不漏接!

FB粉絲專頁:行銷資料科學

官網:臺灣行銷研究

歡迎加入我們的LINE社群,一起交流行銷資料科學相關知識!

---------------------------------
歡迎加入我們的Line@獲取即時訊息!https://line.me/R/ti/p/%40cde8265r

---------------------------------
歡迎加入我們的Telegram獲取即時訊息!https://t.me/marketingdatascience

--

--