數據科學與機器學習

讓電腦從數據中學習以改變您的業務

English Version

我們正處於人類歷史發展的那一階段?
現今我們可以隨時隨地通過移動設備進行網絡連接。 這為人們共享信息,交流思想,甚至以協作方式通過社交媒體管理項目,提供了基礎。 幾乎所有形式的數據都可以轉換為數字格式,將它們儲存在雲儲存中並通過高速網絡進行交換變得可行。 我們目前正處於數字化大時代。

數字化時代的特徵
在過去的數十年時間,電腦的處理能力已經被大大提高,從手提式電腦到雲端電腦, 以致量子電腦。 一台電腦可以有形的,亦可以是虛擬的。 虛擬電腦是基於雲端技術,並且比以往任何時候的功能都強大。 除了處理能力之外,用於電腦的雲儲存正走向無限,成本亦為大眾所負擔得起。 使用光纖傳輸介質,用於數據傳輸的帶寬可以以很高的速度傳輸大量數據。 在數字化時代,人們可以隨時隨地進行大量並高速的電腦運算。

大數據來自哪裡?
每天都有大量數據產生。 數據來源來自企業,政府,學校和個人。 它們統稱為“大數據”。 大數據的來源來自:

  • 來自政府的公開數據
  • 來自社交媒體網站的對話
  • 電郵
  • 即時消息
  • 客戶資料
  • 共享公司數據
  • 感測器
  • 攝影機
  • 可穿戴設備
  • 全球定位系統
大數據來源

什麼是數據科學?
數據科學是通過可視化,數據挖掘,模式識別和機器學習來理解大數據的學科。 通過理解大數據,您可以洞悉特定情況。 洞察力對於做出正確的決定甚至預測至關重要。 例如,通過分析客戶的購買行為,您可以更好地控制庫存或提供客戶所需的服務。 實際上,數據科學不是建基於非常先進的技術。 相反,它是建基於統計學和數學。 換句話說,用統計學和數學理論處理大量數據是數據科學的核心。 以下是典型的數據科學處理過程。

Data Science Process, credit: Wikipedia

什麼是機器學習?
機器學習是數據科學的主要主題。 機器學習有兩種,即監督學習和無監督學習。 機器學習的主要功能是分類(例如:決定是否向客戶授予貸款),回歸(例如:銷售預測)和聚類(例如:將客戶分組)。 主要應用之一是預測分析。

機器學習 — 全局

傳統編程與機器學習
要了解機器學習的工作原理,最重要的是找出它與傳統編程的區別。 多年來,使用傳統編程,我們將數據輸入程序,然後獲得程序生成的結果。 但是,通過機器學習,我們不會首先開發程序。 相反,我們收集一些歷史數據及其相應的結果(例如,什麼樣的客戶購買什麼樣的產品)。 然後可以通過使用特定的機器學習功能(例如聚類)來生成模型。 通過使用生成的模型,可以預測未來的購買行為。 基於這種預測分析,可以高度準確地做出決策。

傳統編程與機器學習

例子 — 物業價格預測
這是用於預測分析的用例。 房地產價格取決於許多因素。 這些因素可以是位置,年齡,交通等。通過收集那些因素和相應的房地產價格,可以生成用於預測房地產價格的模型。 這意味著任何人都可以根據當前因素來預測財產的價格,以饋入由機器學習生成的模型。

模型生成過程

另一個例子 — 發放貸款
這是機器學習的另一個例子。 要建立模型來預測是否向客戶授予貸款,您需要從銀行的數據庫中提取一些有關其貸款歷史的歷史數據。 您將提取什麼數據? 您可以考慮從每個申請人那裡收集以下數據(屬性)。 可以通過應用正確的機器學習算法來生成模型。 一旦模型可以使用,您就可以根據申請人提交的同一組數據(屬性)輕鬆決定是否授予貸款。 您可能會問這種預測是否正確。 其準確性取決於所選擇的算法和所收集數據的質量。 至少人類的判斷可以得到預測的補充。

貸款模型
預測

預測分析
預測分析涉及兩個主要部分。 第一部分是將一些訓練數據提供給用於生成模型的機器算法。 第二部分是將新數據提供給模型以生成結果。 下圖顯示了整個過程。

預測分析流程

機器學習 — 應用
機器學習在商業世界中變得越來越流行。 它改變了企業的營運和管理方式。 以下是一些主要應用:

  • 價格預測:根據歷史銷售記錄預測最佳價格
  • 風險評估:預測與諸如發放貸款等決策相關的風險
  • 傾向建模:根據歷史行為預測未來的客戶行為
  • 醫療診斷:通過利用大量歷史案例來更好地進行醫療診斷
  • 文件分類:自動將文件分類為不同類別
  • 推薦系統:依靠顧客喜歡的物品的屬性,發現顧客還喜歡什麼
  • 銷售預測:根據已採取的措施估算未來的銷售量
機器學習應用

在組織中應用機器學習的步驟

  1. 有哪些業務問題?
    a. 如何獲得新客戶?
    b. 如何銷售更多產品/服務?
    c. 如何提高流程效率?
    d. 客戶細分
  2. 尋找相應的數據源
    a. 內部數據(如果沒有,請制定計劃以不斷收集它)
    b. 外部資料
  3. 機器學習可以通過哪些方式幫助解決業務問題?
    a. 選擇正確的機器學習模型
    b. 評價
    c. 部署方式

I hope you’re enjoying my articles on Medium. If you find them helpful, informative, or just plain entertaining, please consider supporting me through Buy Me a Coffee.

--

--