文字探勘|目錄文📌

Harper Chu
數據領航員
Published in
May 17, 2022

網路評價的盛行,現代人到一處景點就會上網評價,或是在網路上購物後對產品做評價,這些資訊在過去對企業家都只是單一篇文字而已,沒辦法透過「眾多數據串連」找到最重要的資訊,但現在已經被證實:經過文字探勘後的資料其產出的價值遠遠比單純存入資料庫的資料還要高出許多,所以在客戶評價、施政評價、社群偏好等等眾多資料當中,若想要創造出更高的價值,那就一定需要「文字探勘」的技術,透過資料過濾、文本分類、情緒分析等等議題把看似一群無結構化的資料轉換成高價值的數據來分析。

目錄

  • 文字前處理、斷詞
  • TFIDF、SVD
  • RNN / LSTM
  • Word Embedding — Word2Vec
  • Word Embedding — Doc2Vec, FastText
  • charRNN
  • seq2seq — with RNN / LSTM — attention
  • seq2seq — with auto-encoder
  • seq2seq — with transformer — self attention
  • BERT ( encoder ) — 1
  • BERT ( encoder ) — 2
  • GPT-2 ( decoder ) -1
  • GPT-2 ( decoder ) -2

教育部補助大專院校STEM領域及女性研發人才培育計畫目標為建構一個「以智慧物聯技術與實務應用為基礎的教育環境和實作場域」,並規劃出符合此STEM教育領域的創新特色課程,以畢業前進入企業實習的方式,讓學生了解相關產業界所面對的問題,再輔以業界實作場域的教育訓練活動,共同帶領學生發展出動手做、判斷與解決問題的相關技能;本計畫也規劃讓學生以專題實作的組隊方式,跟業界協力領導學生對外參與智慧物聯技術的應用競賽,不僅可以累積學生實務開發的能力,更能激發其潛能來幫助企業解決所面臨的難題。

Data Science Meetup 台灣資料科學社群的使命是「為資料科學人士與企業創建經濟機會」。我們相信大數據蘊藏著巨量的信息和價值,如何處理好大數據並發掘其潛藏的商業價值,就要靠資料科學有效的應用。21世紀是資料科學決勝時代,我們社群將為大家提供與資料科學相關的最新技術和資訊實戰攻略,並透過全球業界人士和學者幫助相關職業規劃與挑戰,社群活動包含

  • 台北實體版聚
  • 線上版聚
  • Mentorship Program

歡迎加入我們社團瞭解更多資訊: https://www.facebook.com/groups/datasciencemeetup/

--

--