網路聲量真的能用嗎?好吃嗎?
沒有足夠資訊所做的判斷, 只是又再次增加錯誤的決策罷了…. (楊威利, 前十三艦隊軍團長)
很多人都以為統計學是從數學分支出來的,但事實上一直不是,因為在最初數學家超討厭統計學,因為認為統計學是一種不夠嚴謹的丟骰子結果,跟數學定理公理的完美天差地遠,所以統計學最早是因為一些人口調查或生態研究分支出來,一直到十九世紀末到二十世紀初時,一些數理統計慢慢的補完才逐漸不被數學家歧視。
而演算法、資料探勘到大數據也是,因為不只是其系統也無法完全用嚴謹的論證,甚至其有效性也是用 “Benchmark/衡量基準” 的方式去計算有效性,其邏輯也跟統計學有很大的不同,甚至只是把統計學當作一種 “Markup Language/描述語言”,而其基礎完全不樣,而用統計學的眼光來看一些資料探勘/大數據的東西一定會昏倒。
在 2005 年整理了一份表,來說明統計學與資料探勘的不同,現在不見都合用,但也可以知道用相同的基準來看兩件事一定不合理。

但到底資料探勘大數據到底能不能用?這種無母體抽樣、無固定模型、甚至無法知道其邏輯描述的(半)黑箱能不能用,應該大家都知道結果,但是不是合統計學邏輯,可能這會有很大的誤會,因為這兩套系統在架構上是完全不一樣的。
當然也有人會有誤解,例如下面的置疑:

基本上上面幾個問題都可以回答,事實上新聞與 Youtube 都有在撈,只是提出問題的人不知道,而 PTT 為甚麼不撈,因為 PTT 的使用者的族群有 20 萬人,相較臉書、新聞網站、Youtube 的數百萬到上千萬的覆蓋率,跟本是小巫見大巫,雖然不是不撈,因為這些資訊都會透通到更大覆蓋率的社群與媒體,PTT 是拿來帶風向或危機處理相當有用,但用這偏差極大的幾十萬人來看兩千三百萬人,相較臉書的一千八百萬人的偏差應該知道覆蓋率與偏差的問題吧。
當然現在用網路來預測投票是有問題的,因為網路的行為層級有太多種,每一種的滲透與轉換率都不太一樣,要用一個指標來看所有行為是危險的,所以會用各個面相來推估是較接近真實,甚至在現在電話的撥通率/回答率如此低的情形,整個會用電話的偏差也是相當大的,因此不應該只用電話調查來看全部,尤其是市話是更危險。

事實上網路不該只是用來知道更多人民想法的地方,而是要更多互動、溝通、討論的地方,而現在的投票示的民主,在於雙方極端的不溝通,不了解、不討論反而發生更容易誤導產生謬論的現像,網路在某方面也是推波助瀾這問題沒錯,所以更該反思這問題,但事實上透過網路,可以用連續性的投票與討論說不定可以更接近結果。
現在有太多的選舉投票機制都是偏向一種說法來決勝負,明明要更多不同立場思考的國會,不是用單一選區制來壓制對手,甚至 5% 讓少數的聲量無法發聲,這會是好的溝通、討論的民主嗎?
最後不是在販賣亡國感,不然就是在追求一黨專政的全面執政,最後的民主還是把裙帶或團塊政治給延續下來,雖然說,天下烏鴉都是黑的,就像是政治、政黨都是黑的,但事實上是不一般黑,而我們人民應該要往更透通、透明的資訊,更多人參與與討論方向前進才對阿。
我相信網路可以讓政治更普及、更普遍、更具連續性,這些不是用單純的投票機制去改變,也不只是用更多的民意探測機制去趨近,而是要靠我們持續不斷的發聲與參與,不該交給任何一個政治人物或政黨,而是要 “Trust but Verify/信任但可驗證” 才對,這可能要走的路還很長。

所謂聲量只是我們展現出來的一種方式,People Power。
