實踐吧!資料科學面試該如何短期衝刺

MeiCheng Shih
UXeastmeetswest
Published in
13 min readMay 8, 2020

在美找資料科學工作系列 (中)

MeiCheng Shih / 圖 Shandy Tsai

有興趣做進一步討論的朋友歡迎用 LinkedIn 跟我聯絡!

https://www.linkedin.com/in/meicheng-shih/

短中長期準備方式不同

在 “在美找資料科學工作? 從定義你想要的開始!” 中,筆者淺談了這系列的基礎,先是概述自己對美國資料科學界的想法,再根據工作特性把資料科學分為四大領域,最後分享選擇領域的思路。

再來就是實踐了!接下來的兩篇文章中,筆者會分享我自己在短期 (3個月內),中程 (3個月以上到一年),長期 (一年以上) 時間下增強自己面試和工作實力的計畫。本篇將集中於短期準備,下一篇會著重於中長期。

了解問題的所在

曾身為面試官和面試者

在進入短期準備方法以前,先一起花點時間,來看看新鮮人找工作時可能會發生的問題。

筆者待過一個公司叫做Wayfair,是美國2019年傢俱電商的龍頭。Wayfair的資料科學和人資部門一起建立了一個標準化的資料科學家面試流程,這流程和許多美國大科技公司的流程相似。面試的題目是由Wayfair的經理和資深資料科學家們一起決定,是依照部門的需求去量身打造的。在有幸參與了部分的過程後,筆者得到了身為面試官的經驗。再來,也因為工作三年找了三次工作,並在每次找工作的期間都有廣泛的嘗試,所以筆者也累積了一些身為面試者的經驗。

同時擁有這兩方面的經驗,筆者覺得自己在講述新鮮人可能面對的問題時,能夠同時從面試官和面試者的角度出發。感覺大概有以下四個問題:

  • 每個人看起來都一樣
  • 偏重硬實力,忽略軟實力
  • 分析和詮釋案例的能力不足
  • 溝通模式錯誤

本文雖然是針對新鮮人而寫,然相信對一些工作經驗尚淺的菜鳥,或打算轉入資料科學領域的中老鳥也適用。

此外,筆者沒有打算談論和資料科學技術面試問題 (technical interview question) 還有編碼面試 (coding interview) 相關的事情。技術問題是準備面試的基礎,網路上已經有很多相關資訊,而又有些面試者不需要特別準備編碼面試,所以這篇文章將不討論這兩件事情。

每個人看起來都一樣

新鮮人在履歷內容或面試時的表現,很容易給人一種千篇一律的感覺。

在履歷上,所有人列出的工具都相似,修過的課也相似,然後做過的專案類型也相似。對面試官來說,碰到這樣的狀態就只能比學歷,但在學歷相似的人之間,鑑別度又消失了。

在面試時,也很容易會發生所有人的反應都相似的狀況。這在有標準答案的技術問題面試 (technical question interview) 中並無影響,但最近不少的公司也有案例面試 (case interview)。在案例面試中,重複地聽到類似答案的面試官們,情緒上通常都是焦躁甚至憤怒的。

圖1. 新鮮人在履歷內容或面試時的表現,容易給人一種千篇一律的感覺

偏重硬實力,忽略軟實力

在筆者心中,資料科學的“硬實力”是指對數學,統計,和機器學習理論的理解與使用經驗,有時候加上對於編碼 (coding),算法 (algorithm),和資料庫運作原理的熟悉度。

硬實力是需要長期累積的,強的人在面試上會佔優勢,不過也不是無往不利。事實上,大部分工作比起硬實力,其實更著重軟實力。而軟實力大概是以下三件事:

  • 能用數字定義並回答商業問題
  • 對分析過程進行組織化說明
  • 合作與溝通

一個硬實力很強的人也可能因為軟實力不足而失敗。而現今大部份學校或企業的系統性訓練,主要還是硬實力導向,導致新鮮人在軟實力的發展上較不完全。

行為面試 (behavior interview) 也十分重要。它通常被擺在面試的最後一階段。此時,競爭者們彼此間的硬軟實力通常都差不多,因此行為面試的結果就時常被當成選擇的最終依據。然後,行為面試通常是由上上級經理 (skip-level manager) 擔任面試官,一般來說會是部門的副總經理 (vice president) 或者主任 (director),有時候甚至是技術執行長 (CTO)。在他們面前取得好的印象,對面試是有很大益處的。

圖2. 事實上,大部分工作比起硬實力,其實更著重軟實力

分析和詮釋案例的能力不足

案例分析面試測試面試者對於真實世界商業問題的處理能力,以下列兩種形式為主。

  • 互動型面試
  • 案例面試功課 (take home case interview)

在互動型面試中,面試官首先會給面試者一個情境下的商業問題,然後藉由面試者和面試官的互動,逐步建構出一個合理的分析過程。這個方法同時可以用來衡量面試者的溝通與合作能力。

至於案例面試功課,面試方會給面試者一組數據,然後面試者需要在規定期限以前回繳分析結果。案例面試功課的分析目標有時是定義好的商業問題,有時則讓面試者自由發揮。在結果繳交以後,有時會有附加的簡報面試,好討論分析的結果。

根據過去經驗,新鮮人在面對案例面試時,時常會在以下兩個步驟中犯下答案不夠具體的錯誤:

  • 用數學定義商業問題
  • 對分析過程或輸出應用進行結構性說明

此外,新鮮人還容易陷入一個誤區:

  • 在被詢問以前就沈迷於解釋模式的細節

舉一個例子,當詢問新鮮人如何用歷史資料決定接觸每個購買商 (buyer) 的行銷管道 (marketing channel) 時,很容易得到類似以下的答案:“在公司擁有的購買商歷史資料中,先是取出和購買行為相關的變數 (variable) ,再用這些變數當成分類模式 (classification model ) 的輸入 (input),最後用得到的預測值決定每個購買商的行銷管道。”

這是筆者很久以前在一次面試中的回答。那時的我既沒有用數字清楚定義商業問題,沒有說明每一類相關變數的內容,也沒有說明結果要怎樣讓利益關係者 (stakeholder) 使用。

此外,當時的我很常花很多時間解釋模式細節。在專案目標不明確,且整個分析和應用都十分模糊的狀態下,集中解釋數學模式就沒有意義。除非被問到細節,不然不要自己開啟模式細節的討論

圖3. 新鮮人在案例面試時,時常犯下答案不夠具體沈迷於解釋模式的細節的錯誤

溝通模式錯誤

很多新鮮人喜歡不間斷地說話,或許是希望善用有限時間吧!但這其實是一個溝通概念的誤區,持續的說話可能會導致三個狀況:

  • 阻礙面試官掌控面試流程
  • 把焦點引導向自己不擅長的地方
  • 使面試官精神渙散

時候會發生面試者沒回答到面試官問題的狀況,這是正常的事情。此時面試官通常會嘗試導正方向,但若面試者滔滔不絕,面試官就會無計可施。此外,說太多可能會說到自己不擅長的地方,暴露自己的弱點。最後,長期間持續發言會導致聽者的精神渙散,情緒也會變差。

圖4. 面試時不間斷地說話,可能會導致阻礙流程、把焦點引導向不擅長的領域、使面試官精神渙散

短期準備四要點

以下四個要點,第一個要點對第一三個問題,第二個要點對應全部問題,第三個要點對應第ㄧ三個問題,第四點對應第四個問題:

  • 選擇一到兩個特定領域為特長領域
  • 根據特長領域包裝專案代表作
  • 閱讀並思考現存的專案或案例範例
  • 訓練互動式的面試模式

可以看到許多要點都和第三個問題相關。我想是因為案例分析面試在近年來扮演著越來越重要的角色。然後因第二要點可以改善所有的問題,建議花最多時間去做。

最後記得,短期準備雖然可以發展深度,但要以發展廣度為主。

選擇一到兩個特定領域為特長領域

選擇且發展特長領域可以在履歷海中突顯自己,避免自己和其他面試者看起來都ㄧ樣的窘境。特長領域可以立在硬實力面上,或在軟硬實力的交界上。

硬實力面上的特長可以從工作職務需求 (job requirements)中汲取,選擇職務需求中一個常見的領域或工具,並深入了解。例如我自己正努力廣化且深化對於時間序列分析和因果分析方法的理解。

軟硬實力交界的話,則是可以搜尋自己有興趣的產業,看看該產業最常用資料科學解決怎樣的商業問題 (Medium會是你的好幫手),同時也研究應對每個問題的分析方法和模式。這是較為推薦的切入方式,因為可以同時累積做案例面試的能力。

不管是針對那個方面,建議不要花長時間去學習特長領域本身,或者相關領域的完整理論。這很重要,但卻是中長期下可以慢慢去做的事。短期的重點是去了解每個特長領域的概要,相關分析法和模式的假設,然後根據假設去思考這些方法適用與不適用的情境。

最後不要忘記在履歷裡或自我介紹時強調特長領域!筆者的作法是在履歷最上頭加一個摘要 (Summary) ,並在其中強調。在口頭的自我介紹中裡,也會在開頭時就提到特長領域。

圖5. 特長可以從工作職務需求中汲取,選擇職務需求中一個常見的領域或工具,並深入了解

根據特長領域包裝專案代表作

最好有一個代表作來展現你在特長領域的專業。若是有現有相關的專案就使用,沒有的話必須要產生一個。而若要產生一個新的專案,建議不讓分析流程太複雜,因為重點在於包裝,也就是闡述專案的方式。複雜流程增加說明難度,且可能要花較長時間產生。

關於包裝方法,筆者歸納出了一個流程如下:

  1. 解說商業問題和專案目標
  2. 概述輸入變數的類型
  3. 第一個模式
  4. 第一個模式無法處理的問題
  5. 解決第一個模式問題的辦法:(a) 使用另外一個模式 (b) 加上第二個模式後修正成的模式流程 (model pipeline)
  6. 輸出結果
  7. 輸出結果和商業問題的關聯

沒有第四五點的轉折也沒關係,重點是在闡述模式和商業目標的關係。

思考代表作包裝方式的同時,也會重新思考以下事項,這對短期內提升面試實力很有幫助:

  • 自己對特長領域的理解
  • 高效的表達自己能力和經驗的方式
圖6. 建議不要讓分析流程太複雜,因為重點在於包裝,也就是闡述專案的方式

閱讀並思考現存的專案或案例範例

好好準備案例面試的第一步就是閱讀現存資料。建議先在網路上搜尋其他人的心得,從整理案例面試題目和建議解答開始下手,然後可以閱讀各大科技公司的資料科學專欄。從這兩個方式都可以了解現今企業們面對的問題是什麼,還有現存解決問題的邏輯和方法是什麼。我另外一篇文章 “電子商務大哉問,怎麼對零售產品訂價?” 中描述了電子平台零售業可能面臨的訂價問題,有興趣的可以參考。

關於答題的流程,筆者建議任何案例面試應該都要由定義商業問題開始,然後以下依次進行:

  1. 思考商業問題對公司的意義
  2. 訂定對利害關係人申報的衡量指標 (evaluation metric)
  3. 決定對分析結果或模式輸出的衡量指標 (有時可和上個步驟合併)
  4. 決定可用的輸入變數 (input variables) 類型,並描述每筆資料的樣貌
  5. 如何根據衡量指標和輸入特性選擇模式
  6. 思考模式訓練的過程中需要注意的事情
  7. 闡釋模式的結果如何被應用來處理商業問題

而這七點也是在閱讀現存資料時可以同時思考的,可以想想資料裡面內容分別可以對應到那個點。

案例分析回答的長短可依照面試狀況而改變,需要提到的步驟也是,但永遠不要忘記在開頭時用數學定義商業問題,在結尾時說明輸出如何處理商業問題,且記得在進行模式選擇時,永遠選擇自己最熟悉且簡單的模式。

網路上有時候可以找到大公司案例面試的 “標準答案”,但這些內容參考就好,絕對不要直接使用。它們除了千篇一律無法給予面試官記憶點,還可能被較有經驗的面試官識破,導致直接出局。

圖7. 了解現今企業們面對的問題是什麼,還有現存解決問題的邏輯和方法是什麼

線性描述與三層法

在第二和第三要點中分享了兩個答題步驟,它們都是線性的,我在這節裡想對這件事多加著墨。

線性敘事是最容易讓人理解的,且在搭配三層法會更有效果。什麼是三層法呢?其實是我自創的說法,也就是把整個專案的內容根據細節程度分成三層去敘述。

  • 第一層是摘要等級,也就是概述專案目標,主要步驟,和結果
  • 第二層則是對於第一層的每一個事項用三句話以內做解釋,分別描述 “為什麼”,“怎麼做”,“結果是什麼”
  • 第三層則是將每句話再用三到五句話來解釋細節。通常在面試時只會使用到上兩層,所以第三層不一定要準備。
圖8. 線性敘事是最容易讓人容易理解的,且在搭配三層法會更有效果

訓練互動式的面試方法

有以下幾個可以做的事情:

  • 讓面試官對內容有選擇
  • 和面試官確認問題意涵或討論方向
  • 案例面試時,加強和面試官的互動

第一點就是在介紹或說明的過程中,讓面試官選擇有興趣的方向。舉例,假設你某專案裡有三個模組 (module),那比起一一解說細節,不如在概述每個模組功能以後,給面試官一個選擇,看看她/他想集中討論其中某個模組呢,或想直接進到下個議題。這個方法結合上節提到的三層法將會有很好的效果。

再來,當聽到一個問題以後,筆者會選擇性的對該問題意涵做再次確認,尤其是在問題很長,或者自己集中力開始降低的時候。再把問題用自己的話描述一次可以改變面試的節奏,並減低回答方向錯誤的可能性

另外在進行案例分析時,若想到某個想法不在當下討論範圍中,可以看時機對面試官提出,展現自己同時具備思考問題與溝通合作的能力

圖9. 在介紹或說明的過程中,讓面試官選擇有興趣的方向

結語

本篇分享了短期準備面試的方法。總之,短期的重點就是以增強自己的特性為主,並用有效 (effective) 且高效 (efficiency) 的方式展現。這是一個將自己視為品牌,上精美且適合的包裝去銷售的過程。

筆者以前曾有一個想法:面試結果有好一部分是由面試官的感覺決定,而非看技術,且這部分是面試者無法完全控制的。這部分是事實,現在的筆者相信,若照這篇文章中呈現的方向去準備,是可以某程度的去掌控這個 “無法完全控制” 。儘管如此,在面試時,永遠還是會有沒有預期到的問題發生。面對這種未知的狀況,最好的辦法就是去習慣它。所以再重申海投且多進行面試的重要性。海投中可能迎來的不斷失敗,其實是鍛鍊自己面對求職困境的好機會。

短期衝刺可以幫人到達一個高度,但是只是懂得怎麼包裝自己是不夠的。職涯是一個不斷充實自己並尋找更適合機會的過程,因此用最有效率的方式在長期間增長自己的實力,墊高自己的視野也是很重要。下篇文章將分享中長期下可以用來準備自己的方法。

圖10. 短期重點就是增強自己的特性為主,並用有效的方式展現,讓面試官感受到你的獨特性

--

--