資料探索和視覺化呈現

一、脫貧方案是否有助於低收入戶脫離貧窮?

社會局社會救助科作為提案單位,其中面臨的一個業務困境就是:每年花費很多資源和人力執行各種脫貧方案,但這些方案的成效難以評估。不管有無參加方案,這些家戶中都有一定比例可以脫貧,要如何得知這是方案的效果還是其他原因造成的,也就是方案是否能真正幫助到中低收入家戶改善他們的生活水平?

貧窮和脫貧的定義

中低收入戶資格審查步驟

如上圖所示,低收入戶想要接受政府生活補助,首先需要向社會局提出申請,進行財稅相關審核以界定貧窮的類別。申請時民眾可以自行選擇家戶中要擁有福利資格的人口(即輔導人口),依社會救助法,社會局再以輔導人口為基準推算需要列入審核計算財稅的人口數(即列記人口),通常為一親等血親。根據全戶每人每月的平均收入水平和擁有動產、不動產的多少,扶助的標準也會有所不同:參考107 年度臺北市低收入戶家庭生活扶助標準表。依據貧窮的不同程度,低收入戶會分為第0–4類,類別越低,收入水平越低,所接受到的補助金額也會相對較多。

這次分析的脫貧方案辦理期間為100/07~103/06,服務對象是低收入家戶中有80/09/01~82/08/31出生的青年。

首先,在分析脫貧原因的過程中發現,有一些家戶之所以脫離貧窮並不是因為收入有所增長、生活水平改善,而是由於類似遷戶、未居住本市等原因。由於我們無法確定這些家戶是否真正脫貧,因此在後續的分析中排除了“全戶註銷原因”為以下這幾個類別的資料:

“入獄服刑、因案羈押或依法拘禁” “其他” “已通知未補件” “應徵(召)入營服役(含替代役)” “最近一年居住國內未達183日” “未實際居住本市” “未補附審查所需資料” “未設籍本市” “死亡” “系統補建異動” “自願放棄資格” “遷出戶內”

只保留還有資格(即未脫貧)的家戶和註銷原因為收入/動產/不動產超過的家戶,最後實驗組有排除11戶,對照組排除272戶,且將脫貧定義為106年年底類別為M或註銷資格

資料視覺化

我們選擇以“平均每人每月收入”“貧窮的類別”作為方案成效的結果指標,比較有參加方案和沒有參加方案的這兩組家戶,從99–106年這兩個指標變化趨勢的差異:

實驗組和對照組平均每人每月收入和貧窮類別的變化趨勢

註:“類別”變量的編碼方式為 0–4, M=5, 失去中低收入資格=6,類別越高表示貧窮程度越低;年份為該年年底

解讀:發現實驗組(有參加方案的家戶組)和對照組(沒有參加方案的家戶組)平均每人每月收入和類別的初始均值(即99年年底)在同一個水平,隨著時間推移兩組的平均收入都變多、類別增高,推測這跟所有家戶中的青年完成學業變成勞動人口有關。103年後有參加方案家戶的平均收入比沒有參加方案的家戶增加更多,一定程度上說明方案的有效性,但以類別的平均來看有無參加方案的類別變化差異并不明顯。

在方案期間,實驗組類別的平均之所以會低於對照組的原因是為了要保留參與家戶的資格,所以即使在資格審查時發現資產超過中低收水平還是會將這些家戶的類別維持在第四類。

統計檢定

  1. 比較實驗組和對照組在106年的平均收入,並用t-test檢定其統計學差異
t.test(salary~group, dataset)

實驗組和對照組在106年年底,平均每人每月的收入的平均值分別為NT$20,119元NT$17,516元,差異有統計學意義(p=0.003)。但需注意收入的資料在失去資格的下一年是缺失的,因為不會對失去資格的家戶進行資產總清查。

2. 計算實驗組和對照組截至106年的脫貧率並卡方檢定是否有統計學差異

prop.test(c(54,1463),c(64,1921))

截至106年年底總清查時,實驗組的64戶裡面有54戶脫貧,脫貧比例為84.38%,對照組的1921戶裡面有1463戶脫貧,脫貧比例為76.16%。雖p>0.05無統計學意義,但實驗組的脫貧比例明顯比較高,p值偏高與實驗組樣本數過少(n=64)有關。

實驗組和對照組脫貧率+error bar比較

選擇偏差

由於有無參加方案是家戶的自我選擇,很有可能參加方案的這些家戶在家庭特徵和積極脫貧動機上和未參加的家戶相比就很不一樣。如果直接比較兩組在收入和脫貧率之間的差異,勢必會有selection bias,也就是選擇偏差的問題。為了確定我們比較的是兩組家戶是盡量相近的,我們嘗試透過propensity score matching的方式來配對,但由於實驗組樣本量太少而家庭特徵變數較多導致效果並不理想。只能一一比較兩組在方案開始前各個家庭特徵的分佈,發現兩組並無太大差異。而且,在方案開始前,兩組的平均收入(和貧窮程度)也在同一個水平上。這些檢查在一定程度上緩解了可能的confounding variables對結果影響的擔憂。

二、家庭特徵與脫貧的關係?

在建立專案推薦模型之前,我們先一一探索了各個家庭特徵與脫貧率的關係,發現大部分的家庭特徵對脫貧的比例都有一定的相關性。以“住宅情形”來說,住在安置機構和配住的家戶明顯脫貧比率就較低,這跟安置機構和配住的住宅中本身就有較多低收入戶有關。分析家庭人口組成,發現家戶中老人和學齡前人口數和脫貧比率成反比,工作人口數和在學人口數則是和脫貧比率成正比。了解家庭特徵對脫貧率的影響也可以幫助社會局設計更有針對性和有效率的脫貧方案。

不同住宅情形的脫貧率比較
家中有無身心障礙人口和不同居住區的脫貧率比較
有無學齡前人口和老人人口的脫貧率比較
家中不同在學人口數和工作人口數的脫貧率比較

用R做資料視覺化的小撇步

  1. 如何用 ggplot2 畫出含有error bar的圖:
library(readr)
library(dplyr)
library(ggplot2)
poverty <- read_csv("~/Downloads/家庭特徵總表_已合併.csv")
group<-poverty$組別
values<-poverty$脫貧
dat <- data_frame(group, values) %>%
count(group, values) %>%
group_by(group) %>%
mutate(percent = n / sum(n),
error = sqrt((percent * (1-percent))/sum(n))) %>%
mutate(values = factor(values, levels = c("Y", "N"),labels=c("脫貧","未脫貧")))

ggplot(dat, aes(values, percent, colour = group)) + 
geom_point(aes(size=0.6),show.legend = F)+
geom_errorbar(aes(ymin = percent - 1.96*error, ymax = percent + 1.96*error))+
geom_text(aes(label=paste(round(100*percent, 2), "%", sep="")), position = position_dodge(width = 2.7))+
scale_colour_manual(values=c("darkturquoise", "firebrick1"))+
theme(text = element_text(family = "MicrosoftYaHeiMono"))

2. 用Mac如何解決 ggplot2 中出現中文亂碼?

沒有指定字體時中文無法顯示

由於在OS系統下,R默認的Graphic device是Quartz,若圖形中有中文字卻沒有指定字體時,文字無法正常顯示,會出現如左圖所示的小白框。

一般情況下,透過以下兩種方式指定字體就可以修正這個問題:

在打開graphic device時指定quartz(family='MicrosoftYaHeiMono) 或是設定圖形參數 par(family='MicrosoftYaHeiMono)

但這兩種方法對於ggplot2 都無效,這個時候就需要在ggplot2 中另外設定參數才行:

 theme(text = element_text(family = “MicrosoftYaHeiMono”))

參考:http://equation85.github.io/blog/graph-font-of-r-in-mac-os-x/