WiDS Taipei 2023 | 一手資料救地球:Think with Data 資料英雄打造社會安全網— 廖立文 Liwen Liao

Chia H.
Taiwanese in Data Science
8 min readJul 10, 2023
📍講者介紹:廖立文(Liwen Liao),現任 LINE Taiwan 的資料科學家(Data Scientist),文學院背景出生的她是一位充滿好奇心的資料科學家,喜歡觀察人類行為、提問為什麼,並擅長抽絲剝繭,最大的成就感來自於混屯中理出頭緒,就像偵探進入充滿線索與證據的世界。

📍講者簡介影片:https://www.facebook.com/TWiDataScience/videos/911375680118834/

「資料科學技術不斷進步,而在我工作十多年後,我發現數據思維是那個深植在我腦海中的核心概念。你們還有在看金庸嗎?它其實就有點像內功一樣,它可以以無形的方式應用於各個領域。因此今天我不打算與大家分享具體的工具等等的,相信你們可以在網絡和各個平台上找到許多資源。我想和你們分享的是我這十多年內所積累的數據思維的內功。」

這是 Liwen 這十多年在資料領域的修煉心得,在本次WiDS論壇中分享數據思維、兩個實際案例,即使是小小的數據也可以有著巨大的力量!

— — — — — — — — — — — — — — — — — — - — — — — — — — — — — — — — —

▍ 一、什麼是數據思維 What’s ‘Think with Data’

  • 量化數據 キ 數據思維

數據思維並不僅僅是關注數據的量化。它更關注如何以精確具體的方式表達數據,並將其應用於解決問題和做出決策。舉個生活中的例子來說,假設我們說「男生身高為170公分」,聽起來這個數據已經相當具體了。然而當有人說「英國平均身高為183公分」時,這就引出了更多的維度和角度。你可能會開始思考種族和其他因素的影響。因此,僅僅提供數據是不夠的,我們還需要考慮維度,這樣我們才能獲得更準確、更具體的結果。

  • 指標+維度

指標+維度是在討論問題或數據分析時,不僅考慮到數據本身的度量指標,還要考慮到問題的多個方面或維度,以獲得更準確、全面的信息。

  1. 指標:是衡量、量化某個特定現象或變量的度量標準,例如身高、轉化率、點擊率等。
  2. 維度:是指從不同角度或方面觀察和分析問題,以獲得更全面的認識。通過加入維度,可以在討論或分析中考慮更多的因素和變量,從而得到更精準、具體的結果!

✍️ 來個例子吧

假設我們正在一個會議中,大家正在進行brainstorming,各自分享關於使用者習慣的例子。專案經理說:「我是音樂愛好者!常常聽音樂,喜歡的歌會一直一直聽」。一位行銷表示說:「我聽的音樂就很廣啦,什麼都聽,每天搭車跑步運動都會聽,算是重度了吧」。互相交流了一下,似乎和為重度、如何定義誰是愛好者都還說不清。

這時候數據思維方式是可以有助於溝通和討論的!

Source: 講者簡報

假如將討論中的關鍵維度用顏色標記起來(上圖左):

頻率:常常,每天

深度:一直一直

廣度:很廣,什麼都聽

再進一步轉化成(上圖左):

廣度:歌曲數目/天數

深度:播放次數/歌曲數目

使用者輪廓就清晰了起來,透過整合這些不同的維度和指標,我們能夠將大家的討論內容聚焦在一起,且能夠幫助我們更好地理解和討論數據,並為業務決策提供有力的依據,eg.那第一版的推薦模型應該針對哪個使用者群體呢?

▍ 二、公益專案:社工出勤風險預測

Source: 講者簡報

這個公益案件的委託人是台北市的家扶中心,是一個負責處理家暴案件的機構。家扶中心的社工時常需要出訪個案家庭了解真實情況,而這些家庭可能會涉及菸酒癮、毒癮、精神問題以及家庭暴力等。家扶中心在資源有限的情況下,面臨了一個重要的問題,想借助數據的力量建立決策模型:如何確保社工安全?有效地分配警力?

🤔 直觀來說

在商業場景中,決定input、output後就可以著手建立模型,在這個案例中,input可能是出訪家庭的數據、社工的安全事項確認,output可能就是危險係數。

每次出訪前,社工將所需資料輸入後,得到一個危險係數。這樣就夠了嗎?

😀 透過數據思維

只單純輸出一個危險係數無法提供足夠的信息給社工,解釋性稍低,社工需要更多的資訊來了解可能面臨的實際情況,以做出適當的干預和支援。另外,一般商業場景中可以透過A/B Testing, Traffic Control 來不斷優化表現指標,但公益案件事關社工的安全,那麼對社工來說最在乎的是什麼?最希望從數據中獲得什麼樣的資訊?

Source: 講者簡報

Liwen分享團隊當時後透過使用者訪談,歸納了以下重要的維度:

組別:A組,B組

時間:晚上,白天

地點:個案家,醫院

發現出訪時間和訪視家庭狀況等維度對於社工來說非常重要,這些維度提供了更全面的視角,幫助社工更好地理解家庭的需求和狀況。那麼基於這樣的理解,重新調整了原有的模型,將這些重要維度納入考慮,再加上資料視覺化,將模型的結果以直觀且易懂的方式呈現給社工。這樣社工能夠更輕鬆地理解和分析數據,進一步作出出訪安排,資源協調的決策。

Source: 講者簡報

▍三、生活應用:解析神秘占星學

維度、xy軸可能還是太抽象了,其實12星座的12筆數據就可以靈活解析,我們可以將每個星座視為一個特定的數據點,並使用不同的角度來解釋和比較它們之間的差異。

Source: 講者簡報

占星學起源於古代人們觀察星象並將其與人類生活經驗相結合。這種觀察基於天文學,將一年劃分為四季,並將星座分為四組。每個季節持續三個月,所以第一個月通常是開創的時期,接下來是穩定的時期,然後是變動的時期,這樣循環不斷,以及耳熟能詳的金木水火土,代表人類古代文明的四大元素。

😀 兩種維度:4種象限 (火/土/風/水)* 3種型態(開創/固定/變動)

Source: 講者簡報

試試看透過上面整理好的維度表格,回答下列常見的星座問題:

  • 哪個星座最固執?

開創、固定、變動三者中一定是選擇固定,那從固定這一行看下來,火土水風哪個最為固定:土象,就可以得到金牛座!

  • 哪個星座最靈活?

我們可以從變動的角度來看。射手座、雙子座和雙魚座可能是最具靈活性的星座。然而,在風象的分類中,我們可以看到變動星座是沒有界限的,這意味著最靈活的星座是雙子座。

  • 哪個星座最矛盾?

從固定和風向的角度出發,水瓶座是一個具有一定矛盾性的星座。它同時具有固定的特點和風象的特點,這使得水瓶座在某種程度上成為矛盾的結合體。

  • 哪個星座最柔情似水、多愁善感?

從變動和水象的角度來看,雙魚座是最貼切的答案。

透過Liwen舉的例子,可以明白到資料科學的核心不僅僅是技術上的追求,活用數據思維,也就是指標和維度,可以有助於理解、分析事物,更重要的是讓討論可以聚焦在同一個平面上

▍Q&A

  1. 高風險因子或決策樹可能被誤解為因果關係,如何避免這種誤解?
    因果這件事情是很難難以統計來解釋,
    為了避免非專業背景的人誤解高風險因子或決策樹代表因果關係,可以透過持續的教育和解釋來強調相關性而非因果關係。
  2. 如果要讓受眾了解多個重要面向,而不僅僅是二維或三維思考,該如何解釋?
    對於要讓受眾了解多個重要面向的情況,可以使用相關性分析、邏輯回歸、主成分分析等統計方法來轉換和解釋數據。然而,在與高層人士討論時,通常需要專注於 2~3 個維度的數據,以便更容易做出決策
  3. 使用者訪談後如何量化數據並轉換成問卷設計?
    你要反過來說我在設計問券之前,我想要回答什麼問題?
    在設計問卷時,需要明確問題想要回答的目標,並考慮如何使用數據來回答這些問題,重點是確定要使用哪些數據和如何解釋數據,以幫助自己做出決策。
  4. 危險預測的實際應用場景有哪些?當危險指數很高時,社工是否可以選擇不出勤?
    危險預測可以應用於各種場景,例如社工工作中的危險預測。當危險指數很高時,社工不能選擇不出勤,但可以提前調派當地警力或尋求同事的幫助,以增加安全保障。危險預測的目的是提供警示,並在做出決策時使用更多數據以幫助解決問題。
  5. 公益專案公益專案要去哪裡參加?
    D4SG —Data for Social Good 資料英雄計畫
    Website:
    https://d4sg.org/fellowship/
    (2023.07.15 會有 D4SG 資料英雄計畫2023年首波發表會唷)
如果喜歡這篇文章,可以幫我們拍手 👏 👏👏 50下,並且follow 我們,看更多 WiDS Taipei 2023 精彩紀錄,支持我們繼續努力! (找找左側或左下角 “拍手符號👏”,長按可以連拍50下喔)

--

--

Chia H.
Taiwanese in Data Science

One learning giraffe🦒 Big Data Engineer in SG/HK(soon!) 👩‍💻