相關性Correlation (Pearson, Kendall, Spearman)

Jockey Ng
4 min readJun 2, 2018

--

相關性是一種雙變量分析,用於衡量兩個變量之間的關聯強度和關係的方向。就關係強度而言,相關係數的值在+1和-1之間變化。 ±1的值表示兩個變量之間完美的關聯程度。當相關係數值趨於0時,兩個變量之間的關係將變弱。關係的方向由係數的符號表示; a +符號表示正相關, — 符號表示負面關係。通常,在統計中,我們測量四種類型的相關性:皮爾森相關性,肯德爾秩相關性,斯皮爾曼相關性和點雙相關性。以下軟件可讓您輕鬆進行關聯。

Pearson r相關性:Pearson r相關性是衡量線性相關變量之間關係程度的最廣泛使用的相關性統計量。例如,在股市中,如果我們想測量兩隻股票之間的相互關係,則用皮爾遜相關性來衡量兩者之間的關係程度。點 — 雙列相關用Pearson相關公式進行,除了其中一個變量是二分的。以下公式用於計算Pearson r相關性:

r =皮爾遜相關係數
N =觀察次數
Σxy=配對分數乘積之和
Σx= x分數之和
Σy= y分數之和
Σx2=平方x分數的總和
Σy2= y平方和的總和

皮爾遜相關可以研究的研究問題類型:

  • 用年數衡量的年齡與用英寸衡量的身高之間是否存在統計學上顯著的關係?
  • 以華氏度為單位測量的溫度與以收入衡量的冰激凌銷售有關係嗎?
  • 工作滿意度(由JSS衡量)與收入之間是否存在關係,用美元衡量?

假設

對於Pearson r相關,兩個變量應該是正態分佈的(正態分佈變量具有鐘形曲線)。其他假設包括線性和同方差。線性假設兩個變量中的每一個之間存在直線關係,而同方差假設數據均勻分佈在回歸線上。

行為和解釋皮爾遜相關
關鍵術語

效應大小Effect size:科恩的標準可用於評估相關係數,以確定關係的強度或效應大小。 .10和.29之間的相關係數代表一個小的關聯,.30和.49之間的係數代表中等關聯,而.50和以上的係數代表一個大的關聯或關係。

連續數據:間隔或比例級別的數據。這種類型的數據具有相鄰單元之間的幅度和相等間隔的特性。相鄰單元之間的相等間隔意味著在秤上相鄰單元之間測量的變量數量相等。一個例子就是年齡。年齡從21歲增加到22歲將與從60歲增加到61歲相同。

肯德爾等級相關性Kendall rank correlation:肯德爾等級相關是測量兩個變量之間相關性強度的非參數檢驗。如果我們考慮兩個樣本,a和b,其中每個樣本大小為n,我們知道具有b的配對總數為n(n-1)/ 2。以下公式用於計算Kendall等級相關的值:

Nc =和諧數
Nd =不一致的數量

行為和解釋肯德爾相關

關鍵術語

一致Concordant:以相同的方式排序。

不和諧Discordant:有序地有所不同。

Spearman等級相關性:Spearman等級相關性是用於測量兩個變量之間關聯程度的非參數測試。 Spearman等級相關檢驗不包含關於數據分佈的任何假設,並且當變量至少在序數範圍內進行測量時是適當的相關分析。

以下公式用於計算Spearman等級相關性:

spearman等級相關

ρ=斯皮爾曼等級相關
di =相應變量行列之間的差異
n =觀察次數

斯皮爾曼相關可以研究的研究問題類型:

  • 參與者的教育水平(高中,學士或研究生學位)與他們的起薪有統計學上的顯著關係嗎?
  • 馬的終點位置與馬的年齡有統計學上的顯著關係嗎?

假設

斯皮爾曼相關的假設是數據必須至少有序且一個變量的分數必須與另一個變量單調相關。

行為和解釋Spearman相關

關鍵術語

效應大小:科恩的標準可用於評估相關係數,以確定關係的強度或效應大小。 .10和.29之間的相關係數代表一個小的關聯,.30和.49之間的係數代表中等關聯,而.50和以上的係數代表一個大的關聯或關係。

序數據:在序數標度中,變量的水平被排序,使得一個水平可以被認為高於/低於另一個水平。但是,級別差異的大小並不一定是已知的。一個例子就是教育排名等級。研究生學歷高於學士學位,學士學位高於高中文憑。然而,我們無法量化研究生學位與學士學位相比有多高。我們也不能說在研究生學位和學士學位之間的教育差異與學士學位和高中文憑之間的差異相同。

--

--