在信用風險中,PSI(Population Stability index)代表變數在不同期間的穩定程度,用來衡量整體評分卡於開發樣本時點與現行評等時點客戶分配的差異程度。

當初看到PSI公式覺得不太直覺,但是又覺得好像在什麼地方看過,找了資料後才發現,其實PSI是來自Information theory的 KL 散度(KL Divergence)。

以下先介紹KL 散度、交叉熵、相對熵、信息熵

小明跟爸爸玩猜球遊戲,我拿一個球,你猜球的顏色,你每猜一次,不管對錯,你就一個星期不能玩王者榮耀,當然,猜對,遊戲停止,否則繼續猜。當然,當答案只剩下兩種選擇時,此次猜測結束後,無論猜對猜錯都能100%確定答案,無需再猜一次,此時遊戲停止。

爸爸給小明出了題目1:爸爸拿來一個箱子,跟小明說:裡面有橙、紫、藍及青四種顏色的小球任意個,各顏色小球的占比不清楚,現在我從中拿出一個小球,你猜我手中的小球是什麼顏色?

為了使被罰時間最短,小明發揮出最強王者的智商,瞬間就想到了以最小的代價猜出答案,簡稱策略1,小明的想法是這樣的。

在這種情況下,小明什麼資訊都不知道,只能認為四種顏色的小球出現的概率是一樣的。所以,根據策略1,1/4概率是橙色球,小明需要猜兩次,1/4是紫色球,小明需要猜兩次,其餘的小球類似,所以小明預期的猜球次數為:

H = 1/4 * 2 + 1/4 * 2 + 1/4 * 2 + 1/4 * 2 = 2

題目2:爸爸還是拿來一個箱子,跟小明說:箱子裡面有小球任意個,但其中1/2是橙色球,1/4是紫色球,1/8是藍色球及1/8是青色球。我從中拿出一個球,你猜我手中的球是什麼顏色的?

小明畢竟是最強王者,仍然很快得想到了答案,簡稱策略2,他的答案是這樣的。

在這種情況下,小明知道了每種顏色小球的比例,比如橙色占比二分之一,如果我猜橙色,很有可能第一次就猜中了。所以,根據策略2,1/2的概率是橙色球,小明需要猜一次,1/4的概率是紫色球,小明需要猜兩次,1/8的概率是藍色球,小明需要猜三次,1/8的概率是青色球,小明需要猜三次,所以小明預期的猜題次數為:

H = 1/2 * 1 + 1/4 * 2 + 1/8 * 3 + 1/8 * 3= 1.75

題目3:其實,爸爸只想讓小明意識到自己的錯誤,並不是真的想罰他,所以拿來一個箱子,跟小明說:裡面的球都是橙色,現在我從中拿出一個,你猜我手中的球是什麼顏色?

最強王者怎麼可能不知道,肯定是橙色,小明需要猜0次。

上面三個題目表現出這樣一種現象:針對特定概率為p的小球,需要猜球的次數 =

,例如題目2中,1/4是紫色球,

= 2 次,1/8是藍色球,

= 3次。那麼,針對整個整體,預期的猜題次數為:

,這就是信息熵(The Shannon entropy)(本文取log的部分,會用log底2是由於球的機率都是2的次方),上面三個題目的預期猜球次數都是由這個公式計算而來,第一題的信息熵為2,第二題的資訊熵為1.75,最三題的信息熵為 0 。

(我的心得是,信息熵就是猜對次數的期望值加總)

那麼信息熵代表著什麼含義呢?

信息熵代表的是隨機變數或整個系統的不確定性,熵越大,隨機變數或系統的不確定性就越大。

上面題目1的熵 > 題目2的熵 > 題目3的熵。在題目1中,小明對整個系統一無所知,只能假設所有的情況出現的概率都是均等的,此時的熵是最大的。題目2中,小明知道了橙色小球出現的概率是1/2及其他小球各自出現的概率,說明小明對這個系統有一定的瞭解,所以系統的不確定性自然會降低,所以熵小於2。題目3中,小明已經知道箱子中肯定是橙色球,爸爸手中的球肯定是橙色的,因而整個系統的不確定性為0,也就是熵為0。

所以,在什麼都不知道的情況下,熵會最大,針對上面的題目1~~題目3,這個最大值是2,除此之外,其餘的任何一種情況,熵都會比2小。

所以,每一個系統都會有一個真實的概率分佈,也叫真實分佈,題目1的真實分佈為(1/4,1/4,1/4,1/4),題目2的真實分佈為(1/2,1/4,1/8,1/8),而根據真實分佈,我們能夠找到一個最優策略,以最小的代價消除系統的不確定性,而這個代價大小就是資訊熵,資訊熵衡量了系統的不確定性,而我們要消除這個不確定性,所要付出的【最小努力】(猜題次數、編碼長度等)的大小就是資訊熵。具體來講,題目1只需要猜兩次就能確定任何一個小球的顏色,題目2只需要猜測1.75次就能確定任何一個小球的顏色。

現在回到題目2,假設小明只是鑽石段位而已,智商沒王者那麼高,他使用了策略1,即

爸爸已經告訴小明這些小球的真實分佈是(1/2,1/4, 1/8,1/8),但小明所選擇的策略卻認為所有的小球出現的概率相同,相當於忽略了爸爸告訴小明關於箱子中各小球的真實分佈,而仍舊認為所有小球出現的概率是一樣的,認為小球的分佈為(1/4,1/4,1/4,1/4),這個分佈就是非真實分佈。此時,小明猜中任何一種顏色的小球都需要猜兩次,即1/2 * 2 + 1/4 * 2 + 1/8 * 2 + 1/8 * 2 = 2。

很明顯,針對題目2,使用策略1是一個壞的選擇,因為需要猜題的次數增加了,從1.75變成了2,小明少玩了1.75的王者榮耀呢。因此,當我們知道根據系統的真實分佈制定最優策略去消除系統的不確定性時,我們所付出的努力是最小的,但並不是每個人都和最強王者一樣聰明,我們也許會使用其他的策略(非真實分佈)去消除系統的不確定性,就好比如我將策略1用於題目2(原來這就是我在白銀的原因),那麼,當我們使用非最優策略消除系統的不確定性,所需要付出的努力的大小我們該如何去衡量呢?

需要引入交叉熵,其用來衡量在給定的真實分佈下,使用非真實分佈所指定的策略消除系統的不確定性所需要付出的努力的大小。

正式的講,交叉熵(cross entropy)的公式為:

(本文取log的部分,會用log底2是由於球的機率都是2的次方)

表示真實分佈,

表示非真實分佈。例如上面所講的將策略1用於題目2,真實分佈

, 非真實分佈

,交叉熵為

,比最優策略的1.75來得大。

(交叉熵:猜對所耗費次數的期望值)

(記得期望值的公式,耗費次數乘以機率,非真實機率影響猜幾次,也就是log(1/q))

因此,交叉熵越低,這個策略就越好,最低的交叉熵也就是使用了真實分佈所計算出來的資訊熵,因為此時交叉熵 = 信息熵。

這也是為什麼在機器學習中的分類演算法中,我們總是最小化交叉熵,因為交叉熵越低,就證明由演算法所產生的策略最接近最優策略。真的影響交叉熵的是非真實分佈,q越大,非真實分配越稀疏,越難猜中。

最後,我們如何去衡量不同策略之間的差異呢?這就需要用到相對熵(Relative entropy),其用來衡量兩個取值為正的函數或概率分佈之間的差異,即:

所謂的相對熵就是KL Divergence。現在,假設我們想知道某個策略和最優策略之間的差異,我們就可以用相對熵(relative entropy)來衡量這兩者之間的差異即,相對熵 = 某個策略的交叉熵 — 資訊熵(根據系統真實分佈計算而得的資訊熵,為最優策略),公式如下:

所以將策略1用於题目2,相對熵为2–1.75 = 0.25。

接下來說明PSI,一樣由KL散度開始

由於KL Divergence有不對稱的問題(KL(Q|P)=/=KL(P|Q))為了解決這個問題,發展出對稱的統計量PSI(Population Stability Index),令PSI為兩個相對熵相加

以上即PSI公式。

在銀行信用風險實務中,PSI代表變數在不同期間的穩定程度,用來衡量整體評分卡於開發樣本時點與現行評等時點客戶分配的差異程度。為了比較基準時點與比較時點分配的變化,PSI公式表示如下,

一般而言,當PSI小於等於0.1表示變數的分類樣本百分比無重大變動,穩定度甚佳。

將一組信用卡使用客戶的信用額度使用率,基準時點與樣本時點各分類的樣本數與樣本百分比整理如下表,計算PSI範例如下:

近一個月的額度使用率<=0.3% :

(6.54%-5.05%)*ln(6.54%/5.05%)=0.0039

近一個月的額度使用率<=0.5% :

(6.19%-5%)*ln(6.19%/5%)=0.0025

將所有分類相加,得到PSI為0.0327,變化幅度不大。

一般而言,於監控模型時,

PSI<=0.1時,表示母體於兩時點無明顯變化,須持續進行監控作業。

0.1<PSI<0.25,表示母體於兩時點有部分變化,須密切觀察變化是否擴大。

PSI>=0.25,表示母體於兩時點有顯示變化,需搭配鑑別度進行評等模型的調整。

由於PSI的重點在於衡量分配變動程度,所以需要一個對稱的統計量,才有了PSI。

以上說明了KL 散度、交叉熵、相對熵、信息熵,再延伸到信用風險的PSI,為了學習做了這樣的筆記,希望對閱讀這篇文章的人也有幫助。

資料來源:

1.https://www.zhihu.com/question/41252833,CyberRep,之乎。

2.https://en.wikipedia.org/wiki/Kullback%E2%80%93Leibler_divergence,維基百科。

3.信用評等模型12課,單良等,台灣金融研訓院

A risk analyst who is zealous in Data Science.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store