數據領航員🚀|在資料科學的路上,跟著我們一起探索大數據的秘密吧!

張培莉 Peili
數據領航員
Published in
12 min readMay 17, 2022

--

如果把龐大的數據比擬為星星✨那我們應該就是乘坐著火箭去探索數據宇宙的那群人吧!🚀

嗨大家好!

「數據領航員」背後團隊是由東吳大學資料科學系的學生組成,如果你對資料科學領域有興趣,卻無法在網路上這麼多資源中找到一套適合自己的學習方式,那你來對地方了!

因為在這裡,我們每一個人皆會成為你在資料分析這條學習航線的領航員,在此針對每一個主題分享我們學習時的心得,將網路上龐大、雜亂的知識,經過消化後整理成一套有系統,且由淺入深的文章紀錄。

此篇將會說明我們的理念以及領航員們的介紹,請繼續看下去吧!

目錄
🪐 教育部STEM計畫說明
🪐 Why 數據領航員?
🪐 領航員簡介

🪐 教育部STEM計畫說明

在進入數據領航員的介紹之前,我們先來瞭解一下…

STEM教育到底是什麼?

STEM是科學(Science),技術(Technology),工程(Engineering)和數學(Mathematics)的字首組合而成,而隨著現今資訊發展迅速、數據量大爆炸的時代,只有單一領域能力已經不足以面對未來即將迎來的挑戰,而「STEM教育」的目的就是培養學生與STEM學科相關的知識和技能,提升他們運用綜合學科知識去解決問題的能力並激發潛能。

STEM領域及女性研發人才培育計畫

教育部補助大專院校STEM領域及女性研發人才培育計畫目標為建構一個「以智慧物聯技術與實務應用為基礎的教育環境和實作場域」,並規劃出符合此STEM教育領域的創新特色課程,以畢業前進入企業實習的方式,讓學生了解相關產業界所面對的問題,再輔以業界實作場域的教育訓練活動,共同帶領學生發展出動手做、判斷與解決問題的相關技能;本計畫也規劃讓學生以專題實作的組隊方式,跟業界協力領導學生對外參與智慧物聯技術的應用競賽,不僅可以累積學生實務開發的能力,更能激發其潛能來幫助企業解決所面臨的難題。

而在資料科學的領域中,WiDS(Women in Data Science)每年皆會於美國史丹佛大學舉辦研討大會,並邀請行業內頂尖的女性擔任演講嘉賓,WiDS在台灣也連續四年舉辦了WiDS Taipei Conference,想要瞭解更多的話可以觀看去年的活動紀錄!

接下來為大家說明一下,為什麼我們是「數據領航員🧑🏻‍🚀」

🪐 Why 數據領航員?

在現在的科技蓬勃的時代,每一分一秒都會產生龐大的資料量,而資料科學要做的事情就是將這些所謂的「大數據」透過各種分析方法提取出有用的價值。如果把這些龐大的數據比擬為星星✨,那我們應該就是乘坐著火箭去探索數據宇宙的那群人吧!🚀

數據領航員團隊理念

在資料科學領域的學習上並不輕鬆,但卻能不斷地得到樂趣,我們希望能將學習上獲得的經驗寫成文章記錄,並提供對資料科學有興趣,但卻不知如何開始的初學者一個學習管道,不僅陪伴著你們學習,同時也作為你們在火箭探索中的「領航員🧑🏻‍🚀」,帶領著你們一路學習。

主題介紹

在這裡我們會將資料分析的主題分為四大塊,分別是

  1. 綜觀數據
    將會用基礎分析流程的概念和數據類型切入主題,並系統化的整理資料分析最常用的基本工具,從資料前處理、資料降維到視覺化圖表,一步一步的教你如何把龐大的數據進行整理,進而變成乾淨且漂亮的圖表呈現出來。
  2. 機器學習(Machine Learning)
    當手中的數據整理完後,除了基本的資料面分析,知道如何運用乾淨的數據也是很重要的,針對不同的目標任務,我們能透過機器學習的不同模型進行訓練以達到想要的成果,此主題會用簡單的方式講解機器學習的原理,並介紹幾個常見的模型。
  3. 深度學習(Deep Learning)
    對機器學習的運作方式及原理有了認識後,我們就可以進入深度學習的世界探討人工智慧這一回事,到底是怎麼讓「電腦」除了能透過以學習的經驗做出判斷外,還能夠使用獲得的知識如人類一般地反應、行動和操作。
  4. 文字探勘(Text Mining)
    既然我們已經能做到讓電腦能模仿人類的思考模式,但當原始資料中含有文字型態的語句時,常是用人類語言的結構組成,而語句常會因不同的用字、組合順序等擁有不同的意思,因此必須透過文字探勘來識別、擷取,到整合與應用文字資料所隱含的意義。

接下來我們會先針對「綜觀數據、深度學習」兩個主題逐步推出文章,趕緊 Follow 數據領航員,不錯過任何學習的機會!若喜歡我們的文章,也歡迎於下面的like拍手給予領航員鼓勵!

說了這麼多,應該等不及要來認識我們最重要的「領航員🧑🏻‍🚀」了吧!

領航員簡介

指導教授

名字:胡筱薇 Camille
Medium帳號:


教授簡介:https://bigdata.scu.edu.tw/our_team/full-time-professor-huhsiaowei/#1471191075767-71032b6f-42fe8e09-64c2b57d-a950

數據領航員Writer

名字:吳啓榮
Medium帳號:

自我介紹:熟悉前後端與機器學習技術,喜歡學習所有對生活有幫助的科技知識,追求用科技感動人心的時刻。

作品集:

  1. * 自動 PTT 商品追蹤:使用爬蟲技術搭配 IFTTT 的 web hook、LINE message,追蹤 PTT 買賣版的商品更新。
    https://github.com/littlemilkwu/auto_merchandise_track
  2. * 浸信會嶺頭山莊網站:前後端會員系統建置,並串接藍新金流服務,提供多樣化的奉獻功能。
    https://lingtou.org.tw/
  3. * 自傳產生器:將 ckiplab 的 GPT2 模型以大量自傳數據來進行 fine tuning,提供使用者輸入部分前綴文字即可生成一篇自傳文章。
    https://huggingface.co/Littlemilk/autobiography-generator
  4. * 大大通智能模型產學合作計畫:參與大聯大控股集團產學合作,運用旗下大大通平台之數據進行個人化推薦系統開發。

名字:Yasmine
Medium帳號:

自我介紹:大家好~我是Yasmine,資料科學系大三的學生~平時喜歡種種花跟聽音樂,數據分析領域的專長是做資料前處理跟機器學習,目前都還在學習的階段,會不斷進步的!

作品集:

  1. *預測詐騙網址:是Kaggle上的公開資料,利用特徵工程的方式提取出有效屬性並做出預測,成功將預測準確率從70提升至95%。
  2. * 大大通智能模型產學合作計畫:參與大聯大控股集團產學合作,運用旗下大大通平台之數據進行個人化推薦系統開發。
  3. *分析人的五大性格指數:利用人的自我介紹影片,通過影片畫面、聲音及人的五官特徵擷取,做出預測。

數據領航員Editor

名字:張培莉
Medium帳號:

自我介紹:嗨大家好~我目前在團隊中負責協助工作坊的行政事務,並管理數據領航員的Publication,認為自己是個思想靈活的人,對於資料科學這個領域還在不斷的探索、學習!

作品集:

  1. *人文大數據競賽:整合法律科技領域,透過網路霸凌糾察員LineBot提供協助給受到網路霸凌的使用者,負責Line的聊天機器人流程設計以及建置。

數據科學啟航工作坊團隊

除了在Medium上用文章記錄我們的學習心得外,我們也舉辦了「數據科學啟航」工作坊,目的是為了帶領不是本科生,卻又對資料學領域有興趣的學生,透過四次的課程分別介紹資料分析的基本流程和工具:

🚀 第一站「大數據介紹」,就幫你建立資料科學的基礎認知。
🚀 第二站「資料處理」,手把手教學Python做數據分析時不可或需的工具-Pandas。
🚀 第三站「資料探勘」,傳授如何解讀資料、用資料說故事,並且讓大家著手分析過去爆紅一時的「厚奶茶事件」資料。
🚀 最後一站「Kaggle 挑戰 — Store Sales — Time Series Forecasting」,完成屬於自己的 Kaggle 挑戰,展現在本次航行中學習到的知識。

名字:陳永珅
Medium帳號:

自我介紹:在資料科學的領域持續學習,對各種技術有非常多的好奇心也熱愛教學分享。

作品集:

  1. *大大通智能模型產學合作計畫:參與大聯大控股集團產學合作,運用旗下大大通平台之數據進行個人化推薦。

名字:王常在
Medium帳號:

自我介紹:大家好,我是王常在,興趣是打電動、看電影、看動畫、聽音樂,目前就讀東吳大學資料科學系四年級,仍然努力在資料科學領域的大海中航行,目前是 DLab 的成員!

作品集:

  1. *鄉林集團-舌尖數據:針對客戶的回饋進行研究,運用 Google 語音轉文字服務以及 Line chatbot
  2. *好樹好果電商網站建置:網頁採用 Wordpress 建置,規劃時程並學習使用 Wordpress 軟體、測試功能。

名字:葉芯妤
Medium帳號:

自我介紹:大家好~我是葉芯妤,資料科學系大三的學生,專長是使用pandas做數據分析和機器學習,平時也喜歡學習有趣的科技知識,偶爾放假會到山上去露營,接觸大自然,也喜歡到處旅行體驗不同文化

作品集:

  1. *玉山個人投資風險管家:透過機器學習製作預警系統保護新手投資人,避免投資人跟著市場風向,導致過度投資。
  2. *涵碧樓新訊活動分析:使用PowerBI做數據分析。
  3. *大大通智能模型產學合作計畫:參與大聯大控股集團產學合作,運用旗下大大通平台之數據進行個人化系統開發。

名字:Benny
Medium帳號:

自我介紹:我是天駿,是一個喜歡學習新東西、運動的青年

作品集:

  1. *智在家鄉-致力於解決家鄉問題的競賽
  2. *全球移民系統-用資料庫整合各國的移民資訊最後呈現在儀表板

名字:吳嘉恩
Medium帳號:

自我介紹:Hi!我是嘉恩,喜歡嘗試新事物和美食,對資料科學興趣,歡迎討論!

作品集:

  1. *智在家鄉-透過科技技術來解決家鄉問題的競賽

名字:周夆燁
Medium帳號:

自我介紹:我目前就讀於東吳大學資料科學系,平常喜歡打球、聽音樂和吃拉麵,在團隊辦的workshop擔任助教及事前作業的協助。

數據領航員宣傳團隊

名字:朱筱琪
Medium帳號:

自我介紹:剛剛踏入資料科學領域的新鮮人,對一切事物都在學習、探索 ,平常最喜歡的是戶外活動和美食探索 ,目前是數據領航員宣傳團隊中的小小螺絲🔩之一。

名字:林紘宇
Medium帳號:

自我介紹:大家好~我是林紘宇,資料科學系大一的學生,目前還在努力的學習專業能力中,請多多指教!

名字:徐澍萭
Medium帳號:

自我介紹:目前還在搭穩自己的基礎,學習資料科學領域的基礎。喜歡追劇,享受無人打擾的時光,會使用一點點python ,仍還在持續學習實務應用。

名字:黃柏愷
Medium帳號:

自我介紹:我是最近發現寫程式很有趣的前摩托車賽車選手及桌球選手,目前仍在持續學習如何更好及更有效的運用所學及經歷。

名字:許郡驛
Medium帳號:

自我介紹:剛踏入數據世界的新鮮人,還沒什麼有趣的夢想,期望是能在這個新世界發展出屬於自己的一條路。

名字:何怡璇
Medium帳號:

自我介紹:資科一A的學生,平時喜歡看美妝影片跟綜藝節目~ 目前還在學習階段、在多方面探索當中!

Data Science Meetup 台灣資料科學社群的使命是「為資料科學人士與企業創建經濟機會」。我們相信大數據蘊藏著巨量的信息和價值,如何處理好大數據並發掘其潛藏的商業價值,就要靠資料科學有效的應用。21世紀是資料科學決勝時代,我們社群將為大家提供與資料科學相關的最新技術和資訊實戰攻略,並透過全球業界人士和學者幫助相關職業規劃與挑戰,社群活動包含

  • 台北實體版聚
  • 線上版聚
  • Mentorship Program

歡迎加入我們社團瞭解更多資訊:
https://www.facebook.com/groups/datasciencemeetup/

--

--

張培莉 Peili
數據領航員

東吳大學資料科學系|Machine Learning & Deep Learning|數據領航員🖊Editor|持續在學習資料科學的各種技術和應用,用自己的步調前進著~|📩️GitHub : peilichang & 📭 LinkedIn : peilichang