Data Science 世界裡的機率問題 —單項隨機變數、多項隨機變數、獨立性與排他性

lee
BeReal
Published in
7 min readSep 20, 2021

--

還記得高中學過的機率和排列組合嗎?「沒學好的都是要還的」,是我最近最深的體悟(XD)。

Probability of One Random Variable (單項變數機率)

Probability = (number of desired outcomes) / (total number of possible outcomes) <這應該很簡單大家一看就懂我就不講了>

確定一定會發生的事件,該事件的機率為 1

例如我丟一顆有 6 個面,每一面分別有 1到 6 不重複數字的骰子,會出現 1- 6 其中一個整數的機率為 1。

Probability of Multiple Random Variables(多項變數機率)

在機器學習實務案例中,時常要處理多項隨機變數的事件。例如在 Excel 上我看見每一 row 都代表了一個觀測值或事件值,每一欄則代表了隨機變數,這些隨機變數之間的關係有兩種可能可以解釋它:

source. sigma tricks
  1. 離散值 (Discrete) : 在座標上沒有連續性,可以說他是一組有限定數量的數值組合。這類數值的特性是 countable ( 可數的),例如:6 天。
  2. 線性值 (Continuous) : 這些數值如果畫在座標上,可以連成一條線,是連續且有相關性的數值。這類數值的特性是 measurable ( 可測量的 ),例如:6.5km。

這讓我們必須在決定要解決哪一個問題之前,需要先了解這些隨機變數之間會發生的機率。我們先用 2 個隨機變數 (X,Y) 來推算多項變數事件發生的機率問題,在假設這兩個隨機變數之間在某種程度上是有相依性,不相互獨立的前提下,帶出了在機器學習領域裡,最重要的 3 種機率問題邏輯預測概念:

1. Joint Probability ( 聯合機率 ): the probability of two (or more) events occurring simultaneously.
兩個事件(或兩個以上事件)同時發生的機率,又叫做 product rule 或是 chain rule of probability

Probability of events A and B

2. Marginal Probability ( 邊際機率 ): the probability of an event irrespective of the outcome of another variable.
當今天有多個事件中有兩個(或多個)事件類別時,在不考慮另一個事件類別變數所帶來的結果為前提,某個事件會發生的機率,統計學裡又叫做 sum rule。

Probability of event X=A given variable Y.

邊際機率與條件機率很大的不同在於邊際機率在有多項變數的狀況下,考慮到了所有事件的聯合機率,而不是從看單一事件發生的可能性的角度去理解事件發生的機率。

小計部分為以聯合機率所計算出來的邊際機率

3. Conditional Probability ( 條件機率 ): the probability of one event occurring in the presence of a second event.
在確定 A 事件的發生為真的前提下,B 事件發生的機率

Probability of event A given event B.

機器學習通常會用以上 3 種類型的推算方式來為分類問題 (classification)或相關性強度與方向問題 (regression)做一個預測模型。例如:

  • 在多項變數交互作用情境下,出現數列中特定數值的機率,可以計算聯合機率來找到
  • 在多項變數交互作用情境下,出現多項事件中其中一項事件的機率,可以計算邊際機率來找到。
  • 預測模型本身就是預估一個已知事件下另一個事件發生的條件機率

回歸分析:用來了解兩個或多個變數間是否相關、相關方向與強度,並建立數學模型以便觀察特定變數來預測我們感興趣的變數。例如:舊客平均年度回購次數是否與購買流程中的點擊次數相關、相關程度多強、正相關還是負相關等等。

Probability of Independence and Exclusivity (獨立與排他機率)

獨立機率 Independance

在許多機器學習的演算法中,我們常假設某樣本空間內的樣本彼此都是獨立於其他樣本的存在,並且出自同一個機率分佈曲線(Probability distribution)。

我們在計算機率的時候,樣本之間是否有相依性就會影響計算結果。假設變數A和變數B之間沒有相依性,我們就會稱之為相互獨立,這時候 A 與 B 兩個獨立事件發生的聯合機率為:

P ( A , B ) = P (A) * P (B)

而 A 與 B 兩個獨立事件分別的邊際機率就只會是該事件本身的機率,即:

Either P ( A ) or P (B )

而 A 與 B 兩個獨立事件之間的條件機率,因為彼此獨立不相互牽連,所以也只會是該事件本身的機率,即:

Either P ( A | B ) = P ( A ) or P ( B| A) = P ( B)

互斥 ( mutually exclusive )

如果 A , B 兩事件為互斥事件,具排他效應的話,那 A 與 B 的聯合機率為 0。若兩者並非互斥事件,那計算 A 或 B 事件發生的機率:

P ( A U B ) = P ( A ) + P( B ) — P( A, B )

補充. 基本統計概念

判斷資料「集中趨勢」的統計概念:中位數、平均數、眾數
判斷資料「分散趨勢」的統計概念:四分位差、變異係數、變異數、標準差、偏態、全距

這些都是用來判斷你手邊擁有的數據,在組成上的資料分散程度,而資料分散程度會影響研究出相關性與因果性的難度與使用這份數據來做相關性與英果性預測推算的可靠度,這在 data cleaning 的階段非常重要。

四分位差的作用與意義

四分位差可以告訴我們數列中的中位數是否具代表性,反映了中間50%數據的離散程度,其數值越小,説明中間的數據越集中;其數值越大,説明中間的數據越分散。四分位差的優點表現為不受兩端各 25% 數值的影響,缺點為不能反映所有標誌值的差異程度。

變異數 vs 標準差 — 作用與意義的差別

兩個數都是用來解釋 /描述我們預測一個事件的「誤差程度」。

變異數是所有資料與平均值的平均距離,可以把這裡的「距離」理解為「誤差」。例如:甲今天要預測 10 個人的行為,乙今天要預測4個人的行為,我們會知道乙做出的預測,理論上會比甲來的小。

在計算的過程中,為了避免正負相抵,因此我們將距離平方,得出來的變異數就可以解釋數據的發散程度。但此時原先的數值單位也會因為平方變成不可解釋,因此當我們需要解釋單位時,會將變異數開根號,得出標準差,其單位就可以用來解釋。

單位相同 的時候就可以直接以「標準差」和「變異數」來比較數據的分散程度、單位不同 的時候則用「變異係數」來做比較。

偏態

若資料分配較多集中在低數那方,稱為正偏態分配(或稱右偏態分配); 若分配較多集中在高數值方面,稱為負偏態分配(或稱左偏態分配)。

Ref. Machinelearningmastry.com資料視覺化學習資源資料視覺化學習資源2行銷資料科學simplesource

--

--

lee
BeReal
Editor for

On a mission to democratize the mentorship experiences