開放資料優化使用者體驗，以臺灣政府稅務資料為例

Published in

Finformation當資料科學遇上財務金融

16 min readAug 16, 2020

寫在寫完之後：通篇完成後發現要給定一個框架其實很難，不同問卷的問題面向、形式、架構都不一，其實問卷分析很難說有什麼訣竅，光分析方法就有千百種。至少對我而言看到不一樣的問卷、設計不一樣的問題都會讓我調整自己分析的方式，尤其可能又會引入Machine learning 相關的技術讓分析難度提升，對於資料分析的新手比較不友善。可以客製化的地方太多，所以這篇後來覺得只能算是一個 case study，不介意請再往下讀。 — 2020.8.16 Dennis

對於UX結合數據更有興趣的人，可以看看我的另一篇文章：如何用數據優化使用者體驗？以信用卡產品為例

寫作動機

在使用者研究中，經常會需要梳理出「用戶痛點」來做產品營運、改善與強化產品功能，進而讓「價值」更好被傳遞。多數研究機構與資料分析學者會用「問卷調研」、「用戶訪談」、「焦點團體」等方式來釐清用戶痛點、並且改善規劃，通常「問卷調研」會歸類在「量化分析」上，主要回答管理者或者研究者「做什麼」的問題，若要進一步了解使用者的深度描寫，會用焦點訪談等來回答「為什麼」的疑問，並且搭配兩種質量化分析方式、結合設計思考與發想來回答「如何做」的問題。

在使用者體驗這一塊，問卷分析不只可以讓我們了解到產品使用者的輪廓，還能夠搭配巧妙的問題來解答產品的不足之處、有沒有尚未被滿足的地方，特別是現在以使用者中心（(User-Centered Design, UCD)）的觀念越來越強烈，透過實作與MVP改善的調整可以讓產品越來越符合使用者的需求，就決定分享一下如果要做問卷分析我會怎麼做，隨後上網找了一下開放資料看看有無相關資料可用，並且把「改善網站體驗」當作分析專案的虛擬題目。

我覺得這份新竹市政府提供的開放資料可以拿來示範的原因是它包含了一些基本的人口特徵（年齡、職業等等）還有對於「流程優化」十分重要的滿意度資料，並且拆分各個環節，感覺可以從中挖出一些東西。如果您對其他資料有興趣，也可以上open data的網站找找各個地方政府分享的資料，這方面做得挺不錯的。

專案規劃

資料來源：新竹市政府稅務網站資料
使用方法：集群分析、EDA、匯總分析
使用工具：Python、K-mode algorithm
專案時間：6 hr （從問題界定 > 下載資料 > 建立架構 > coding > 完成文章）

所以我們的目標，就是透過數據來回答：

「界定問題」>「該做什麼方向的優化」>「解決了什麼問題」

並且期望輸出一份PPT、訊息來指導網站的優化方向、可以怎麼調整… 並且希望具體到「用A方式解決B問題」來指導業務人員。釐清了專案的輸入、輸出之後，就開始作數據分析吧！

資料分析

通常分析前我會先想一個初步的架構，否則要看的變數太多了會很容易迷失，這一次我們的架構如下：

填答者輪廓
職業對滿意度的差異分析
教育對滿意度的差異分析
象限分群，了解不同使用族群的問題點
網站功能優化策略

下載下來的資料在Excel中打開大概長這樣：

但是中文對於程式操作上很不方便，因為語法大部分都是英文的，所以我會自己再另外設計一下變數名稱，如果不設計的話變數會顯得很雜亂、名稱太長，這些都不是好的變數。雜亂是什麼意思呢？比方說這份問卷的後面問題都在問滿意度相關的，那其實可以在這些變數前面透過一個類別名稱去命名它，比如nps_{問的問題}的格式去重新命名 (凈推薦值，雖然這邊用里克特量表，自己看得懂就好)

剛開始我會優先觀察「人口特徵」的資料，了解填答者的輪廓。通常依照問卷投放的渠道會有不同的填答者。又剛好這次使用的資料投放管道主要為網站使用者填寫，也就是說它正面反應了網站使用者的輪廓。

主要報稅人以30~59為主，這群人也是稅務網站主要服務的對象。而大多數人都是使用PC來處理報稅流程，這點與我們的認知相同。並且推測都是下班後處理，在晚上來操作網站。

女性比較多一些，另外大部分人其實不是新竹的居民。

在大學的統計學第一節課程中會告訴我們資料有四種尺度，而其中問卷調查常常出現的滿意度屬於ordernal data（順序資料，資料間沒有運算關係，但有順序關係，比如5 > 4 是「程度上的差別」，但是不會說「5比4高1滿意度」），我會透過小提琴圖來觀察滿意度的分佈，好處是你可以看到不同類別（這邊用職業，你也可以用年齡區間、教育程度等等個體間的差異）在5個分數上的分佈情況，藉此一眼就掌握個體間對於滿意度的差異，可以回答兩個問題：

「什麼樣的個體比較滿意什麼環節」
「個體A在B的集中情況，是否有極端值？」

而一口氣觀察這些變數的分布也很簡單，三行左右，此時先前重新命名變數的好處就體現出來了，我可以用一點語法就找到所有我想觀察的變數（比如說名稱中有nps的欄位）然後寫個迴圈把所有圖一次性畫出來：

有趣的是在滿意度調查中，農林漁牧業人員的分佈與其他職業比較不同，這點如果回到資料筆數去看，就知道是因為資料筆數比較少的關係，從理論上，當資料筆數愈多，則各個分數區間都會是常態的，無須太過緊張。

另外可以觀察到大部分人給出的滿意度都偏高，尤其是服務業、商業從業人員給予滿分的評價較多。

改善流程藏在哪處？

我們來看看平均而言，哪個環節比較需要改善：可以看到雖然數值的差距不明顯，但是透過折線圖就可以發現：

這裡可以發現有三處明顯的拐點，作為管理者可以思考手上的資源可以改善的範圍，比方說如果資源比較少、預算較緊，那麼就優化第一個拐點（流程），如果這是一個專案，則從資訊完整度以下都可以安排優化（info_full）

實用性部分分數最高，表示消費者還是認可這個產品的價值，換句話說要優化「實用」部分，創新點就是「有沒有其他媒體」、「其他表達形式」來更好傳遞價值？
清楚看到需要改善的是流程，再到UI、Layout，UI跟Layout其實如出一徹，都是視覺方面需要改善的訊息，不夠美觀大方，排版也沒那麼好搜尋。
即時更新的部分比較差強人意，操作便利性上還過得去。

但是流程真的這麼差嗎？我們可以細看它的職業差異分佈：

nps_process其實蠻有趣的，只有學生有給到1分的評價，這點可能是因為學生報稅經驗比較不足，所以對流程的掌握度比較差，而退休人員則是對process的部分滿意度偏高，這可能也是因為他們是最熟悉、有最多報稅經驗的人，所以對這方面比較無感。

在info_time則看到幾乎每個職業的人都給到了2分以下，這在其他環節是沒有看到的現象，畢竟觀察其他小提琴圖會知道頂多專業人員、軍公教人員比較嚴格、給予比較低的評價，但是少見所有職業都給出低分的選項，由此可知我們在time的部分（即時更新）上需要做到調整，因為雖然overall並不是最低分，但是這一塊是幾乎所有職業都有不滿意族群存在的部分，這部分我們就要進一步了解問題、思考可以怎麼改善。

PCA 主成份分析

我們可以用主成份分析來把資料降維，這邊我把滿意度指標投影到二維平面上，透過資料投影與類別的組合往往可以發現一些不錯的模式，是一個很常見的機器學習技巧。

PCA解釋了約79%的變異，效果還不錯

接著我們解讀PCA的組成因子，可以看到：

第一個主成分主要由資訊(info)相關組成，比如說實用度、更新即時性、資料保護程度(nps_info_practical、nps_info_time)
第二個主成份主要由使用者體驗、介面操作（nps_ui,nps_ux）為主。

然而似乎沒有什麼特別的模式，各職業的滿意度並沒什麼差別。

如何解決雜論無章的問題？象限分群

那我們可以怎麼樣獲得更深刻的洞察呢？就是利用「象限法」也就是透過將散點圖透過中間值來去區分四個象限的資料，並且為他們加上人物側寫（取每個集群的最大數）。象限法很簡單卻很好用，搭配散點圖可以劃分出不同資料個體間的關係，進而做出簡單的四個群體。

比如管理學中著名的BCG矩陣就是將成長率、市占率為軸所畫分出來的產品組合理論，這理論背後最為重要的其實是「選軸、區分象限」的思想，而這也是我們可以借鑑到不同數據分析專案中的：

不同象限的人物輪廓如圖，這樣的結果其實不錯，我們可以看到結果十分類似，更加確立了平台的使用者輪廓，比如我可以這樣描述這群使用者：

40–49歲、大學專科學歷畢業的女性工、商業從業人員，主要都在晚上使用桌上型電腦查詢活動資訊，使用頻率可以分為三個月一次（一季）、一個月內使用不等…最主要的差異體現在：「瀏覽次數」上，那麼我們就可以進一步討論「瀏覽次數差異的主因」

這樣的輪廓還可以讓我們做一些猜想，結合稅務人員來思考這群人的特徵，比如：可能是一個家庭的母親、有正在讀國中的孩子、不想花太多時間填寫網站資料、經常需要查詢活動資訊等等…

依照功能分群

雖然確立了使用者輪廓，但我們也需要去想除了「活動查詢之外」的使用情境，所以可以將功能劃分先分開，再去分群一次，看看會不會找到相似行為特徵的使用者，有個欄位是「browse_utility」，這個欄位可以知道每個填答者有使用哪些網站功能，我們可以把這筆資料去分割為「有無此行為」的OHE 欄位：

並且將這個0–1的矩陣做分群，然後如法炮製畫出代表群體的受眾：

可以看到除了「查詢活動資訊」之外的結果：主要拆成兩個群體，群體又可以拆為兩個子群體。

工業從業人員較常使用：

0群 — 活動關注者: 以「查詢」功能為主，網站的價值在於找到活動資訊，可能更為關注「資料完整相關、得到想要活動通知」
1群 — 稅務試算者: 以「稅務試算、搜尋相關法令規定」為主，網站的價值在於「知道自己到底要繳多少稅」，可能更為關注「如何快速完成稅務資料試算，甚至跳過法令的繁雜細節」

商業人員可以細分為兩群：

3群 — 法令更新者 : 以「搜尋稅務法令規定」，且使用頻率較低（一年左右才會用一次），網站價值在於更新自己對稅法的理解，有稅法更新時優先顯示在首頁、提供信箱訂閱並定期出更新懶人包
2群 — 報稅新手 :「什麼都要做」，網站的價值在於走過完整的報稅流程，可能會想要：「專人協助與指導」，更在意的是「手把手教學與稅務規劃陪伴工具」

題外話：通常集群分析的結果最好都另外取名比較好溝通，用數字編號並不是一個很好的溝通方式。

當然以上只是我初步觀察使用行為與群體代表性所發展出來的假說，這部分我們可以用數據驗證一下我們的假說，透過匯總每一群組的滿意度分數來觀察，通常我會用熱點圖來把這種匯總資料做視覺化方便觀察：

越黑代表分數越低，所以可以看到每一群比較不滿意的地方為：

0：流程、UI（視覺設計是否美觀大方？）、更新時間
否定假說的解決方案，但價值不變 : 資料其實是頗完整的，更應該從UI優化著手來「協助找到活動資訊」
1：Layout排版（整體版面設計是否易於瀏覽？）、更新時間（新竹稅務局網站的資訊是否即時更新的？）
假說得證：可透過版面設計的瀏覽檢討來將法令規定更易閱讀，藉以讓使用者更好試算稅務
2：跟上一群很像，但是更要求流程（線上申辦流程，在操作上是否便利？）
假說得證：需要完整的「稅務陪伴」，也就是在便利性上著手，可試圖縮短報稅流程
3：個資保護（輸入個人資訊讓我感覺是否有受到良好的保護？）、流程、UX（整體版面設計是否易於瀏覽的？）
假說得證：「搜尋稅務法令規定」的版面設計是否好瀏覽需要再做測試與改善，這點可以結合第一群應該改善的地方，也就是說優化一處，造福兩群。

統計使用功能頻率，我們可以發現「查詢活動資訊」的頻率明顯高於其他功能，如果是管理者，可以優先優化的功能面向為：

查詢活動資訊
搜尋稅務法令相關
稅務試算服務

如果預算有限，結合上述分群的人數，我們知道第0群應該優先滿足，那麼就可以從UI優化著手來「協助找到活動資訊」，比如說請UI 設計師重新設計與檢討網站設計、思考搬到App上是否會更為簡便…

如果能夠結合質化訪談，相信可以得到更多使用者使用上述三者的動機，可以更好配合使用者的理解打造好產品。怎麼說呢？我試著上網找一下有沒有稅務相關的UX research，結果真的找到了體驗諮詢AJA公司的案例分享，看看這張圖跟我們上述的分析其實「如出一徹」：

source : http://tax-beyond2018.aja.com.tw

對方在使用者旅程上做了更深刻的調研，這就是UX可以協助數據的其中一個地方，我們可以更理解使用者的體驗與流程：

看看他們所歸納的TA，是不是其實從開放資料的數據就能抓到呢？

上述案例也可以看到UX可以具體幫助我們設計出正式產品功能、優化過後的介面。透過數據分析可以「制定優化策略」、而體驗優化則是屬於「策略落地」的一環。

報告製作與訊息溝通

我們可以統合以上的分析，用slide、note等方式呈現分享insight，更進一步可以透過與相關使用者體驗流程設計的專家討論具體落地成果、轉化為優化產品的提案書。以這次的分析為例，message可以如下：

產品優化訂定

insight : 流程需要先優化，這是滿意度較低的環節，又因為調查變數之間的相關性，可以從UI著手來優化
next step : 檢討設計介面，重構流程佈局，網站測試佈局優化
insight : 即時性在多數人眼中都是沒那麼令人滿意的，應確立問題並著手改善
next step : 確立資訊更新情況

使用者滿意度提升策略

insight : TA為40–49歲、大學專科學歷畢業的女性工、商業從業人員，主要都在晚上使用桌上型電腦查詢活動資訊，使用頻率可以分為三個月一次（一季）、一個月內使用不等…
next step : 找族群特徵的人來訪談，確立與了解生活、報稅流程、痛點並且進一步分析

功能優化策略

insight : 優先透過「版面設計易於瀏覽」優化「搜尋稅務法令規定」、「視覺設計美觀」優化「查詢活動資訊」
next step : 跟UX設計師協助稅務法令的版面流程專案、與UI討論「查詢活動資訊」的查詢介面優化專案

總結

其實問卷的資料分析往往跟問題設定最為相關，這裡因為示範的關係，我直接找了網路上的開放資料來試著回答一些跟使用者設計有關的問題，並未從「問題設定與問卷設計」開始，然而調研中最難的部分其實是一開始「梳理出問題」，也就是把問題確立好並且設計問題，整理為問卷的過程，畢竟我們想要知道「目的是什麼」、「問題是否與目的相關？足不足夠回答我們的問題？」這些東西都是需要跟相關利益相關者討論、回答清楚的。那麼以上，就是這次的文章分享，希望對問卷調研的使用者有所幫助：）

歡迎想學習Python資料科學、商業分析、金融知識的人一起交流！本部落格的內容全部都是基於「分享」的實作、理論兼顧文章，希望能夠幫助到所有對資料科學領域有興趣的人們，長期關注可按左手邊的Follow!若喜歡我在 Medium 的內容，可以拍個手（Claps）這邊想做個實驗，好讓我知道你/妳喜不喜歡這篇文章：
拍 10 下：簽個到，表示支持（謝謝鼓勵！）
拍 20 下：想要我多寫「商管相關」
拍 30 下：想要我多寫「資科相關」
拍 50 下：我有你這讀者寫這篇也心滿意足了！

敬請期待下一篇！或是您也可以逛逛我的其他資料科學文章：人工智慧商務系列：

Python資料科學系列：

看我用金融的概念解釋AI：

如果想跟著我實作資料科學，開始寫程式必知必會基礎系列：

Coding共十講，讓你進入程式世界