[台灣資料科學社群版聚- 2020/12/18活動筆記] 跟上10次方倍數成長的世界
主題一:解讀數位轉型 — 一位內部觀察家的實務分享
講者: 姜藍茵 Rhein, 商業分析師@國泰金控數位數據暨科技發展中心
過去曾有在銀行消費者及法人金融工作經歷,成為數據團隊商業分析師後,思考自數據觀點提供既有業務創新解決方案,在推展過程中也對企業數位轉型有深刻體驗,試圖結合傳播和企管背景識別關鍵成功因素。(摘自活動頁)
這幾年,企業紛紛喊出 “數位轉型”,它就像一句很有願景、激勵士氣的口號,但是要怎麼做?講者分享國泰數數發在數位轉型的實務經驗,從策略、心法、行動方針的摘要重點如下:
策略:
改變文化,從對話開始:企業組織基於專業分工,業務單位和數據單位 “各說各話(本位主義)”是很正常的,要思考如何創造對話機會?從改變工作習慣開始,逐步擴散並打造數據思維的文化。
數據單位要思考 “數據如何加值成為服務”(data as a service); 業務單位要思考 “能如何透過數據拓展業務” (business growth)。
心法:
在數位轉型的過程中,就像摸石頭過河。先從市場環境與產業狀況做簡單的理解,然後謹慎判斷,接著著手朝目標方向,不斷的嘗試與調整。
通常要做的項目很多,最不想聽到老闆說:全部都要做!因此要思考轉型項目中,哪些是 短期效益,哪些是 長期成長 的投資。
例如數據單位想要購買Hadoop, 老闆可能會問:Hadoop的效益是什麼?這也意味著要做大數據,很多基礎設備工具,需要高層的預算支持,這不是短期內能幫助業績成長的項目,所以要說服老闆這是 “長期成長”所需要的投資。
行動:
- 建立大數據生態圈 : 從金字塔底層的基礎建設(數據資料架構)、中層的先進技術(數據分析模組),到頂端的場景實踐(人機協作)。在這個生態圈裡,數據單位提供數據服務,達成業務目標; 業務單位使用數據服務,思考更多的應用。
其中的場景實踐(人機協作),其中的一個應用是智能大數據應用平台(數位行銷個人化),整合國泰標籤系統及內、外部數據,打造一站式行銷廣告平台。
Step 1 : 從巨量資料中,彙整客戶在行內線上、線下資料,並導入行外資訊,打造客戶全景數據,描繪出客戶的輪廓。
Step 2: 推出視覺化平台,提供探索客群樣貌,幫助行銷企劃人員迅速調整策略,達到精準的再行銷。
Step 3: 透過系統化排程,自動投放廣告至內部、外部行銷通路,提高投放頻次、迅速測試市場反應。
2. 發展數據的解決方案:數據團隊像是內部的顧問角色,從三個方向切入。
(1) Data-In : 導入更多元的資料。包括 異業合作取得數據(例如國泰世華蝦皮購物聯名卡)、政府公開資料,與內部價值資訊。
(2) Data-Storage : 完善的資料儲存方案。包括新舊系統串接、資料數位化、分析型資料庫。
(3) Data-Out : 客戶視圖、標籤系統、產品推薦模型。
3. 打造數據人才孵化器 : 種下數據驅動DNA
(1) 導入設計思考與敏捷式開發工作方法:重新思考數據轉型可能性,加速創新構想落地。
(2) 跳脫既有業務框架,集結跨領域專才:透過輪調機制,創造順暢的跨部門溝通場域。
(3)建立完善的數據人才管理機制:打造強而有約束力的矩陣式組織。
國泰數據團隊秉持創業家we create的精神,擁有挑戰傳統及文化創新的企圖心:
create synergy:打造技術、業務、軟性知識交流新模式,提昇人才價值,創造數據團隊協力。
create impact:採用跨部門輪調機制,促進人才發展,創造數據更深、更廣的影響力。
create change:透過內、外部技術交流,厚植人才數據技能,蓄積創造改變的能量。
成果:
把中心數據團隊的業務場景分析經驗與模式,移植到集團內的事業單位(人壽、產險、電商、海外事業部…),創造跨團隊合作、推展數據驅動的策略文化。
主題二:資訊科技 — 一個10的次方倍的世界
講者介紹: Ian Tsai(PTT@Zanyking), Software Engineer@Smart News US
Ian Tsai 之前在台灣的新創公司做軟體開發10年,除了做開發以外也曾做過 Hiring manager、Software consultant,2015工作的新創公司賣給了LinkedIn之後,在 LinkedIn 擔任 Senior Software Engineer,現在在SmartNews US 作 News Platform 的後端開發,平常喜歡觀察台灣美國兩地的新創公司,希望有天能貢獻自己的經驗幫助台灣的團隊在世界的市場獲得一席之地。(摘自活動頁)
分享過去20年資訊科技與台灣IT產業的變化,以及軟體工程師未來在台灣立足的職涯發展建議。重點摘要如下:
台灣產業有什麼樣的歷史?
硬體製造是台灣之光,而資訊系統產業相較之下就像是參天巨木旁的矮樹,四個重要事件與發展:
2000年網路泡沫化的衝擊 (網際網路泡沫)
2003–2009年中國大陸的崛起,全球硬體產業重心在中國與美國。
2007–2009年,年收千萬股票分紅的誘因,造成台灣IT人才外流,沒人想留在台灣做軟體。導致現在企業喊著要做數位轉型,但未有足夠且優秀的人才。
2001–2011 系統整合(SI)產業興起。
資訊科技有什麼樣的突破?
各式各樣的量變然後質變,IT變化之快速就像是10的次方在裂變(The world of order of magnitude)。三個重要的技術發展如下:
- 瀏覽器技術與手機
~2007年:IE6 + Flash, Firefox 1.5
2007~ 2008年:iPhone release, default Safari, T-Mobile G1(HTC Dream) release, default Chrome, and 2nd Browser war started.
最關鍵的還是Smart phone technology的影響,才六年的時間,瀏覽器技術變化非常大。2006年的IE6,和2012年的Chrome相比,就像是10的3次方在成長。
2. telecom network:Smart phone 觸發了電信網路的發展。
~2000年: 2G (250K bps)
2005~2009年:3G (3M bps)
2012~2015年:4G (100M bps)
3. Great scale computation:
2000~2007年:HDD, CPU, GPU, RAM以10的2~3次方倍數成長
2006~現在:從2006年的Hadoop, HDFS, MapReduce (大數據處理框架/存儲/處理),2009年NoSQL DB興起(Google, Amazon),2010年AI(Machine Learning),2012年Neural network(ANN, DNN, RNN…),2016年Google Tensor Processing Unit (TPU) 23–90 Tera FLOPS,再到2019年Tesla in-house SOC(12 CPU core + GPU+ANN)。
我們所處的世界,無法預期也不能選擇,只能面對。至少在有生之年都不會穩定,不管什麼產業,資訊產業的劇變都會衝擊其他產業,各領域與技術將會高度垂直整合,也要注意超級巨獸的出現。所以,對世界沒有好奇心是很危險的!
我們怎麼樣看待自己的職業生涯比較好?
2000年以後,台灣沒有世界級的資訊系統公司,更別說要生出做數位轉型需要的人才。怎麼樣留在台灣發展IT職涯?盡量加入:
- 特定市場下的龍頭企業
- 特許行業,例如telecom
- 商業流程會受政府法規(勞基法、稅務)影響而影響巨大的企業
如果更有企圖心,盡量加入能做全世界生意的企業,而英文一定要練。例如:
1.外商公司:用外國人的眼光,看怎麼做本地的生意。
2.加入某個境外開發中心(國外來台灣的新創):用外國人的資源與組織技術,經營外國的市場。
3.做海外市場的本土公司:從本土出發,做國外的生意。
你的職稱是資料工程師?資料科學家?程式設計師?
如果你是企業方,要思考數位轉型的人才,是 “因事設人”?還是 “因痛(點)設人“?UI/UX在以前的年代叫做美工,如果連user experience都沒聽過,會很危險。在談OKR、Scrum等管理心法之前,思考幾個問題:
- 對我們公司來說,這個世界的(數位資訊)知識圖像是什麼?
- 有哪些專業知識領域,是公司必須要有人才能領導的?
- 公司內有沒有人才?要怎麼找到這些人才?
- 公司的組織結構有辦法任用他們嗎?
- 這些專業領域知識工作者,正在成功帶領我們在這塊適應未來嗎?
- 如果以上五點哪個缺了,為什麼?
主題三:假帳號的社會網絡分析(Social Network Analysis, SNA)
講者: 曾仲毅 Kevin, 工程師@資策會資安所
在資策會研究假新聞,藉由過去於行銷做數據分析的經歷,以資料科學視角,分析社群平台上不實訊息如何形成與傳播,也試著以過去在行銷部門的觀察,理解這個議題的商業模式如何運轉。(摘自活動頁)
Why SNA?
假帳號如何定義?可以從特性來看:有的大頭照圖像是假的、好友數很少,發文時間非常密集快速、發文內容很奇怪,或是在特定時間,例如選舉期間會有特定立場發文支持某候選人。
到網路搜尋“買假帳號”,會發現它已經是一門生意,而且是一個很成熟的產業鍊。甚至會有管理假帳號的中心,在控制各個不同的假帳號們。
有國際組織發展了一套研究假訊息產生的技術和架構:AMITT(Adversarial Misinformation and Influence Tactics and Techniques) 和 TTP Framework (Disinformation Tactics, Techniques and Process) 。(Reference)
在運用資料科學模型分析假帳號的時候,會遇到一些限制或困難:
- 假新聞資料是非監督式(unsupervised)的資料,是沒有正確答案的標籤。
2. 講者一開始專注在提升模型的精準度,但發現少數不重要的使用者行為會影響模型精準度,且假帳號動態的行為會讓模型很快失效,所以要透過假帳號的特性做歸因(attributiion)處理,這必須要有domain知識。
例如假帳號的特徵通常是好友數很少(根據Facenook統計,平均每個人會有130個朋友,而假帳號的好友數少於50,且發文時間很快、素材很怪,不同的假帳號之間會互相加好友,但是彼此之間可能沒有共同朋友……..)
3. 要取得所有樣本裡的stable features不太容易,如何取得stable features? 要考量成本和impact。
所以要使用Social Network Analysis,來分析網路中的人際關係。可以應用在詐欺檢測(fraud detection)、輿情分析(opinion analysis)。
Analysis:
如果要分析Facebook, 不太可能把整個臉書的內容載下來,因此要從隨機抽樣(snowball sampling)的小樣本(ego network)分析,先觀察小群體。運用的視覺化工具像是Gephi來模擬一個人的人際關係。分析流程:EDA(資料探索分析)、data preprocessing & scale by coding, and evaluation.
Measurement:
PageRank
Future works:
除了好友圈的連結程度,也可替換成其他關係,例如分享、按讚、留言。
註:以上文字摘錄於活動簡報與個人聽講的筆記,如有需修正的部分,歡迎留言指教喔。
活動Q&A
1.請問三位講者的一天工作內容?
Rhein:PM管理職,開會和溝通 和提案,寫code比較少。
Ian:remote backend engineer, depends on 專案進度,解決突發事件,做今天的工作目標2–3件事,然後運動健身。
Kevin:工作在研究單位,接專案做研究。
2. 三位講者在2021年有什麼規劃、最想要學習什麼技能?
Kevin: 報名商業思維課程,了解應用場景,在個人專業領域最重要的問題是什麼?技術是底層的東西,如果不能從領域出現,會有窮忙的感覺。
Ian: 把開發流程弄得順一點,backend目前技術沒有太大的變化,就是去摸索市場變化。如何跟產業內的人合作,而不是自己一個人把東西做出來,在矽谷的分工是很明確的,要學習如何leverage data engineer 去跟他們合作。
Rhein:深耕數據轉型,加強專業領域和數據轉型的機會,多瞭解業界在做什麼,私領域會去登山潛水、多閱讀,可以刺激思考和學習跟不同領域的人溝通。
我的心得
聽完整場下來,發現自己像是井底之蛙,以為自己學過大數據、知道很多技術在幹嘛,就算是懂很多了。但其實對整個大環境和市場變化,沒有跟進,只是在窮忙著coding練技術。最讓我當頭棒喝的是主持人數位時代的James, 他在中間串場時說的一番話非常重要:
在今晚20:30 (2020.12.18) 活動進行中的時後,新聞發佈了一則重大事件:富邦金控(市值4000多億)要併購日盛金(市值400多億),也意味著市場一直在劇變,大者恆大,如果沒辦法做到龍頭,很多變革是無法推進,更別說那些還在問採購Hadoop的效益的老闆們。不同視野格局,看得面向大不同。如何跟世界接軌?答案是:看新聞!
台灣有全世界最密集的新聞台、SNG車、新聞自由度全世界前幾名,台灣的大學校所“數量”也是全世界排名前面(遠超出人口密度所需)。而今年因為COVID-19,最近台灣在國際的知名度很高,很多外站記者駐點台灣,經濟學人雜誌今年以來的每一期幾乎都可以看到Taiwan的報導。
James說,不要覺得台灣社會、新聞這麼亂是一件壞事,因為我們的新聞自由並沒有落後全球,當然假新聞也沒有落後(笑)……
我滿困擾現在到底要看哪一家的新聞?新聞台的mobile app也越來越多,難道全部都要看?還是看LINE TODAY就好?
演講結束後我走去問James這個問題,他秀出他的手機app,有多到數不清的新聞APP和滿滿的紅點推播通知……對!他全部都看!(果然是媒體人)