隨機的歷史 — 數學化

張羽祈兒
11 min readDec 14, 2017

--

摘要:
談機率的數學化,談 Hilbert的第六個問題、Kolomogorov與測度論、隨機過程(stochastic process)與兩三種相關的隨機過程:Wiener process、Markov process(Markov chain)、鞅(Martingale)
接著講GC理論(Glivenko–Cantelli theorem)

數學化

1900年是個重要的一年,數學家Hilbert在數學年會上問了石破天驚的23個問題。這23個問題中,其中第六個問題就跟「隨機」有關:「請給出物理跟機率的公理。」

看吶,你們物理學家用機率來探討隨機探討得這麼高興,而且是用「數學語言」 — 你們好意思不過來拜一下碼頭領個數學界駕照嗎?

結果是數學家跳了出來。(當然)

Hilbert的問題在1933年,被 Kolmogorov 以「測度論」(measure theory)在「機率的定理化」(Axiomatization of probability)解掉了。也就是說,一直到Kolmogorov,機率以及物理學使用的隨機過程,才真正地被納入數學的範疇

那測度論講了什麼?

我覺得這篇這篇知乎的一個解答(高校数学教师)講的很好。

要做的有幾件事:1. 用一種數學語言來當成「機率事件」的公理定義,2. 證明這個東西可以符合「事件」的基本運作(複雜事件是從一堆小事件累積出來的 )。
要將「機率」,亦「事情發生的可能性」,抽象化成數學語言,首先可以嘗試用「集合」這個數學語言來描述。那要怎麼從「可能性的集合」變成「機率」?

數學家說:我可以「映射」。

於是數學家將這個「事件可能性的集合」一對一映射到一個實數軸。還記得機率論裡,隨機現象被包成一個函數,抽象化成一個object「隨機變數」。這個映射就是隨機變數 — 吃了一個事件之後,隨機變數可以吐出一個機率值
到了連續的實數軸上,這些機率值就可以理所當然地拿來做運算了 — 像機率論裡面做的那樣(如貝氏定理) — 來用以表示事件的基本運作。
同時,實數軸上的每個線段,也可以在這集合(樣本空間)裡有了意義。

真實世界裡,有些事件可以測量機率、有些不行。有了這個映射的概念,我就可以知道在什麼條件下事件不可以被測度了 — 看看事件的「基本運作」成立不成立就好。所謂的運算成立,就是要看對事件做完運算之後,這些運算的結果會不會超出可以被測量的範圍(運算封閉,closure)。

從20世紀初,就有一票數學家在建立測度論,譬如Henri LebesgueEmile BorelPaul Lévy之類的。其中,Borel 延伸了集合論的「σ-域」成為 Borel set

1. 全集在里面;2. 里面每个集合的余集在里面;3. 里面任意可列个集合的并集在里面。有了这三条基本定义,就可以推出:空集、可列次交、并、差、上限集、下限集运算之后都能在里面。就满足需要了。 — 這篇知乎

只要符合這些條件,就知道這是不是一個可測度的集合了。
定義裡,一個可測度的集合 X ,還有 X 的子集合們 Σ,可以被稱為「可測空間」(measurable space),寫成(X, Σ) ,講成「空間」似乎是因為這些集合可能會透過什麼結構彼此連結之類的。
而「可測函數」(measurable function)則是個將一個可測空間map到另外一個的函數。
關於可測空間跟可測函數的推衍,在這篇寫得好像滿詳盡的…。

至此,機率的「不證自明的事實」(公理)就被建立了。(初步的)測度論於是給了隨機變數一個公理化(axiomatic)的定義。

只有隨機變數還不夠模擬世界。

一樣是1900年,法國數學家 BachelierWiener process 這個隨機過程(Stochastic process模型來估計股票交易量

等等,隨機過程是什麼?

stochastic or random process is a mathematical object usually defined as a collection of random variables.
Historically, the random variables were associated with or indexed by a set of numbers, usually viewed as points in time

嗯,新的抽象化數學object出現了。(根本DS。)

1930年代初期,Khinchin 給了第一個隨機過程的數學定義:隨機過程是一個在實線上被 index 的隨機變數集合。
簡單地說,就是「一堆用時間(index)串起來的隨機變量」。
但這樣定義不夠,要證明「隨機過程」在數學上存在,必須要證明這個數學object可以被架構(construct)出來。

Kolmogorov extension theorem可以做到這件事
架構的方法是,將一段時間interval T,看成一堆離散的時間點t1, t2, …, tk。然後把時間點對應到一堆隨機變數(證明裡是說 probability measure) — 接著將每個時間點 t 的隨機變數各視為一個有限維分佈,finite-dimensional distributions)。
而,假設這些有限維分佈都滿足consistency conditions,我們就能建構出一個隨機過程、找到這過程對應的機率空間。

顯然,這架構的方式裡自然而然把時間視為「離散」的…那連續時間(continuous-time)的隨機過程怎麼辦?

解法是:讓隨機過程…可被分離(separable)。
基本上,就是把連續的時間(上面的 t,或任何一種 index 點)視為一大堆密集的離散的點。(證明這件事可行的…wiki論述

好吧,那Wiener process又是哪來的?

其實,隨機過程有非常多種。而各種不同的「隨機現象」在歷史上也都不斷被提出討論。譬如Bernoulli弄流體力學弄出了Bernoulli process、譬如討論拋硬幣賭博的鞅。
根據各種隨機過程的不同特質,隨機過程可以被分成好幾個種類:
隨機漫步(random walks)、白努力過程(Bernoulli process)、鞅(martingales)、馬可夫過程(Markov processes)、萊維過程(Lévy processes)、高斯過程(Gaussian processes)、還有隨機場(random fields)等等…一大票。

Wiener process的由來跟布朗運動有關。

1827年被發現的布朗運動顯然就是個隨機過程。
1905年,愛因斯坦出版了一篇論文闡述布朗運動,以氣體動力學的觀點來解釋在流體中看似隨機的粒子運動,並導出擴散方程式(diffusion equation) ,來描述在一塊特定空間區域找到一個粒子的機率。
愛因斯坦(其實還有個 Jean Perrin ),後來啟發了 Norbert Wiener。
1920年代,Norbert Wiener 使用了一種由 Percy Daniell 發展出的測度論方法,以及傅立葉分析(Fourier analysis)來證明像布朗運動這種隨機過程的存在其實是個數學object — 此類型的隨機過程因此得名。

再談兩種隨機過程。

Markov process,於1906年,由 Andrey Markov 提出,並同時提出 Markov chain
定義是:有Markov property(或說 memoryless)的隨機過程。
簡單地說,假設我不需要知道過去的狀態、只需要現在的狀態就可以預測未來 — 也就是未來跟過去是獨立的,就是Markov property。

Markov chain 則是一個Markov process,(通常)可以被定義成:
1. 有可數狀態空間(state space)的Markov progress(只談狀態空間,不考量時間,離散或連續都可以)
2. 有離散的時間的Markov progress(反過來,不管狀態空間可不可數)
兩種定義,簡單說就是從不同角度去使用Markov property。

照這兩個定義來看 Markov chain 都有離散的本質,可以看成 Markov 在探討離散的Markov process(或者說「無記憶的隨機獨立序列」)。

而,連續時間 Markov process 則是由 Kolmogorov 在1931年發表。
Kolmogorov 其實有部分是被上面講的Wiener process 啟發…他介紹了擴散過程 (diffusion process) — 一個包含了特定集合的Markov processes — 並導出了一組微分方程式來描述這個process。
所以 Wiener process 其實就是一種連續時間的Markov process。

Markov chain跟Markov process的用途非常廣泛。
Markov 拿 Markov chain去推了兩個東西:
1. 某些特定情況下,Markov chain 的結果會收斂至一組固定向量值,因此在沒有獨立的假設下證明了弱大數定律(weak law of large numbers ,通常需要這個假設)。
2. 研究一本俄文韻文小說(Eugene Onegin)的母音分佈,並且證明了Markov chain 也符合中央極限定理。
另外,(下一節會談到的?)MCMC、Bayesian statistics 以及 google 的 PageRank 也都跟Markov progress有關。

鞅(Martingale)是另一種隨機過程,其滿足下述條件:
已知過去某一時刻 s 以及之前所有時刻的觀測值,而某一時刻 t 的觀測值的條件期望等於 s 的觀測值。

鞅的概念一開始是由 萊維(Paul Pierre Lévy)提出。
鞅這個詞本身,是來源於法國的一個叫馬提克的小鎮,該小鎮的居民以小氣而著稱。
據說他們下周要花的一點小錢,估計起來最有可能等於他們今天花的錢。
萊維正是從這種小氣習性中受到啟發,在「最小氣原理」的數學概念之上,創立了建立鞅方法的最初概念。
鞅的初期基礎理論均是由 杜布(Joseph Leo Doob)發展完成。
提出鞅的部分動機是為了表明成功的投注策略不可能存在。 — wiki

鞅的實際數學定義需要兩個跟 filtration 有關的數學觀念有關。(看wiki裡的general definition的話。)
本質上,其實是「隨著時間過去,能取得的資訊會越多」的意思。
所以離散時間的鞅是把「獨立隨機變數的partial sum」這件事generalize了。

鞅的用途也很廣。
譬如可以拿來model其他的隨機過程,像symmetric random walk(離散時間的鞅)或某種 Wiener process(連續時間的)。於博弈論中,鞅則是對「公平博弈」的數學模型。
這篇Quora上還有些看起來很有趣、對鞅的討論。

總之!看起來我們可以用數學描述,各式各樣不同特質的隨機過程了!

聽起來很棒…可是,自始自終…到底為什麼要談數學化?反正沒數學化之前,物理學家還是用得很開心啊?

嗯,雖然(我)不知道一開始是為了什麼 Hilbert 要問那問題、要去找機率的數學架構(數學描述全世界的野望與傲氣之類的嗎?!)… 總之、總之,在機率被數學化了、納入數學體系之後,就可以(繼續?)用更多數學工具來拓展了。

譬如像統計這邊的進展。

1933年,GC理論(Glivenko–Cantelli theorem)提出,當獨立分佈觀察(independent and identically distributed)的數量上升,經驗分佈函數(empirical distribution function)會有漸進線(asymptotic)的行為。

什麼意思?

在一個分佈裡,假設全體的值小於某個 a 值的比例是 x ,大數法則會告訴我們,我們抽樣拿到的值小於 a 的比例 y,會隨著我們抽樣的數量越來越多,越來越靠近 x。
而 GC 理論比大數法則講了更多一點:這件事可以拓展到每一個可能的a值。也就是說,假設今天是骰子的分佈,不管我的a是1還是4,這個抽樣的收斂性質都是成立的,不會因為他們真實的比例 x 是多少而改變。

之後,1956年,還會有個 Dvoretzky–Kiefer–Wolfowitz inequality 告訴我們,事實上我們對哪一種機率分佈(譬如骰子、譬如氣體分子),這收斂性質都成立。

所以,當然也可以apply到隨機過程的機率分佈了。

所以…這代表,我們猜得夠多的話,說不定就可以猜到「隨機過程」了?

這說起來很有趣。

一開始人想要用抽象化的語言(數學)描述真實世界的事件,簡單如博弈、複雜如布朗運動。我們透過抽象化那些現象,藉以利用現實做出應用(蒸汽機),同時也探討現實的本質(熱、氣壓)。接著,人類的想像力構築出的世界開始延伸,我們開始用抽象化的語言去模擬真實的世界,甚至想用這份理解去探索世界活動的模型 — 我們想預測未來的現實。

嗯,因為這種野心,透過這些抽象化,人類將會把隨機應用到一些驚人的地方。

--

--