188 Followers
·
Follow

Image for post
Image for post

資料科學領域、非 CS 找工作,本來就在困難模式,今年畢業恰逢疫情襲來,瞬間變成地獄模式,簡單記錄一下一些統計資料(上集),跟可能會有幫助的小技巧(下集)。

我的求職統計數字

求職期間:2019 年 8 月開始修改履歷,9 月 11 日投出第一份申請,2020 年 9 月 4 日拿到第一份口頭 offer。

總申請職位數:不含 Linkedin、Indeed 上直接投遞,在公司官網上申請的數量是 526 件,其中 24 件是內推。估計 Linkedin、Indeed 直接投遞件數應該在 300 左右。

申請職稱及領域:Data Scientist (Analytics/Insight Track, Non-ML), Data Analyst, Business Analyst

聯繫家數:26 家。

聯繫方式 .. | 總數 | 進入下一關 | 拒絕
來信問問題 |.. 5..|……..2…..…|.. 3
線上測驗 …| ..9..|……..5 …….| ..2.. (2 未知)
人資 screen |.11..|……..7……..|..4
約技術面試|..1…|……..1……..|..0

在進入下一關的 15 家中:

結束方式 ………………………… | 數量
Technical Interview 後被拒………|..2
Hiring Manager interview 後被拒|...3
Onsite 後被拒……………………..|..5
人事凍結…………………………..|..1
Offer……………………………….|..1
拿到 Offer 後主動拒絕……………|..3

在進入下一關的 15 家中,其中可能比較是大家聽過的或被認為有潛力的公司有 Tesla, Visa, SurveyMonkey, Amazon, Convoy & Udemy。

收到拒絕信數量:204 封。(分母:526 封 Linkedin/Indeed 直接投遞的申請)表示有一半以上的公司發無聲卡(哭)

我收到的線上測驗、回家作業類型統整

資料科學領域守備範圍很廣,每家公司的需求和考試重點不一樣。因為我對 ML 興趣跟經驗較缺乏,只投非 ML 的分析職缺,所以線上測驗最常考的是 SQL,接下來是機率和統計的基礎知識,以及一點點簡單的 Coding。

回家作業有時候是給定一個問題,用資料回答,大多會以「產品經理想做 XX 決定,想知道關於 OO 的資訊,你會怎麼建議?」的形式進行。有些則單純是給一組資料,找出需要清理的部分、異常資料並加以處理,最後報告這份資料能帶給我們什麼重要/有趣的資訊。

我後來摸索出一份自己的報告形式:

  1. 簡單總結資料概況
  2. 介紹需要清理的部分和異常資訊有哪些,我會怎麼處理,這些處理可能怎樣影響資料分析結果
  3. 幾張有趣的圖表介紹資料的亮點/回答作業詢問的問題
  4. 結論:哪部分的分析比較不牢靠、需要哪些資料可以補強、如果想知道更多關於 OO 的資訊,可以怎麼做

雖然技術都是早就會的,不過也真的是到很後期,才做出心得,把報告模板化。現在想起比較早交出的資料作業,都想找個地洞鑽進去⋯⋯。大家或許可以多找一些題目自行練習,才不會像我一樣因為經驗不足,錯過心儀的公司!


平權前夕.彩虹起義粉絲頁昨天釋出婚姻平權及性別教育兩案公投的連署人數分區統計表,這時候當然是立刻下載資料研究一番囉!

粉絲頁貼文的圖表,揭露了連署數量最多的幾個區域,聰明的大家當然也好奇,假如對照當地人口,到底是哪些地區的連署比例最高呢?

平權公投連署比例排名

先來看一下平權公投連署比例,大致上長怎樣:

Image for post
Image for post
圖1 鄉鎮市區平權公投連署比例分布圖

大概是落在 0.x%-6% 的區間,超過 6% 的鄉鎮市區非常少。

由於中選會還未公佈各區選舉人數,加上要和婚姻狀態、教育程度等變數一起觀察,所以這裡我用的概估投票人口數字,是來自內政部資料開放平臺的「15歲以上現住人口按性別、年齡、婚姻狀況及教育程度分」資料集加總而成。

大部分人口統計資料的年齡分組都是 5 歲為一組,但公投年齡已經下修到 18 歲,因此面臨了一個尷尬的狀況:可以由一歲一組的統計資料概算投票人口,但沒有婚姻及教育資料,反過來使用 5 歲一組的人口統計,不是拿掉 15–19 歲組,少算一些投票人口,就是把 15–19 歲直接併入,高估投票人口。

我選擇了後者。所以連署比例會比實際(中選會公布選舉人數時可算出的)數字還低一點:

表1. 鄉鎮市區連署比例排名

大家或許會覺得都市化程度高的地方,支持婚姻平權的比例也會比較高。不過意外地,前三名都是好山好水好吃好玩的景點,想必這時候深坑連署王屏東連署王已經在偷笑了吧,實在是很秋~~~

大學畢業了嗎?來連署吧!

看完溫良恭儉讓的關起門來拍拍手好棒棒排行榜,接下來當然要來討戰一下。畢竟,做資料不討戰,誰要看啊?

就讓我們上一張各區大學畢業比例與連署比例的圖:

Image for post
Image for post
圖2. 鄉鎮市區大學畢業比例及平權公投連署比例

回歸線表示,從鄉鎮市區層級來看,連署比例和大學畢業比例是正相關。

圖上每一個點都是一個鄉鎮市區,順帶一提,有八個區域因為種種原因沒連到人口資料,所以沒出現在圖上,不過對整體趨勢影響有限,就容我先不清了⋯⋯

另外,圖的左上角全空,對比右下角有零星資料點,也就是說隨著大學畢業比例往上,連署比例大致是往上,或至少不會減少太多。大學畢業比例高,連署比例一定相對高,但大學畢業比例低,連署比例則是高低都有喔。

結婚煩死了,怎麼可以只有異性戀痛苦

接著來看看「此時此刻身在婚姻中的人」比例高不高,會不會跟連署比例有關係吧!這邊只計算統計中標記為「有偶」的人口,「喪偶」、「離婚」都不算喔。(說不定離婚很有關?)

Image for post
Image for post
圖3. 鄉鎮市區已婚比例及平權公投連署比例

看看那精美的一團資料,我在此宣佈,各區身在婚姻中的比例跟連署比例毫無相關。(拍案)

不過因為各區有偶的比例,其實相差不太大,全部落在 40%-60% 的範圍,其實還真的很難看出什麼明顯的結果。

只好繼續戰教育程度

沒有新的有趣發現,只好回過頭來繼續荼毒大學畢業比例這個變數。

我們實際上關心的是:「教育程度較高的『個人』,是否會比較傾向於連署支持婚姻平權公投。」但由於資料的限制,我們只知道「教育程度較高的『區域』」,也就是一大群人,的狀況。雖然你們全家大部分都支持芋頭,所以你也吃芋頭,聽起來很合理,但事實上很可能你跟你姐恨死芋頭了啊,誰知道呢?

總之,不能用群體推論個人,全家大多吃芋頭不必然你就吃芋頭。

但是資料是有限的,經費是有限的,研究助理的肝也是有限的,沒辦法托夢發問卷給所有人,只好想盡辦法用現有的資料,努力縮小範圍,穩固我們的推測。

一個比較簡單的方法,是用區間來觀察。

區間低標:把所有連署婚姻平權的人都先當成非大學畢業的人,如果有剩,再算成大學畢業的人
區間高標:把所有連署婚姻平權的人都先算成大學畢業的人,如果有剩,再算成非大學畢業的人

然而,因為連署人數相對投票人口數實在太少了,對比動輒 40%、50%、60% 的大學畢業比例,這區間根本啥都估不出來。我們只好往複雜一點的人生邁進。

(以下開始有意圖嚇唬人的數學符號出沒)

政治學家 Gary King 曾經寫過一本 Ecological Inference 的,並釋出相關的 R Package,講中文呢就是:

Ecological Inference:上窮碧落下黃泉,死要用群體推個人的各種資料刑求方法
R Package:可以直接安裝跑資料

那他的方法怎麼做呢,就是給定我們手上有資料的結果,去模擬「假設實際資料的長相從 A-Z,各種狀況下,被我們抽樣/分組加總/各種扭曲之後,每種長相最終演變成此刻手上資料結果的機率各是多少」,然後取機率最大的那種長相,作為我們的估計值。(如果你有統計課本,可以找 Maximum Likelihood 這個詞。)

聽不懂的話⋯⋯直接來看圖吧!

Image for post
Image for post
圖4. betaB 是我們估計出的大學畢業比例對連署比例的 beta 係數

先說,Gary King 他老人家釋出的 package 不讓改圖,大家忍忍。

左邊的圖是將資料正規化到同個 scale 之後算出的係數直方圖,這個 betaB 數字越大,表示我們越可以透過大學畢業比例去猜出連署比例的高低。因此,我們還是可以肯定大學學歷的普及,對於婚姻平權的支持很可能會越強。

(啊結果數學符號都沒出現)(那,想看數學符號的, Ecological Inference 的各種方法可以參考Simone Zhang 這個 pdf

畫圖跟跑資料的 R Code 放在 Github,懇請大家不吝拍手星星按讚轉發。

小鎮的一天又平安地過去了,感謝 ph低經濟學家與記者朋友們的閒聊支持,資料家庭手工小精靈一鞠躬我們下次見囉~~~~


Let’s guess: what is the minimum wealth in NTD/USD for one to be in the evil top 10% of rich people?

Image for post
Image for post

Perhaps the title was a hint and you tried to lower your guess number. Nevertheless, the answer may still be beyond your expectation. It is 2.24 million NTD (76,754 USD).

Image for post
Image for post
Figure 1

Sounds amazing, right? 2.24 million NTD (76,754 USD) can buy a small studio in many cities in Taiwan or a toilet in Daan District, Taipei. …

About

Claire Tsao

Data Lover | Github: missmoss

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store