報導者的20大高風險賣場圖表,哪裡有問題?

海東青
Blue East Sea
Published in
Feb 9, 2023

與直接數據換算關係不一定的間接數據,不能夠作為好的資訊圖表素材。

圖片來源:報導者臉書

報導者刊登了一篇由新聞所學生製作個資外洩專題,並且用上面這個圖表來推銷這篇文章。結果讓大家很疑惑「居然沒有讀冊」?

雖然報導內文中有提到讀冊詐騙的好發時間不是2022年,但問題是,圖表本身也沒有辦法反映出真正的「20大」高風險賣場。

首先,要請大家想一想,提到「20大」,你想到的比較標準會是什麼?

受害件數最多?受害會員比最高?受害金額最大?外洩個資筆數最高?外洩時間最長?

很抱歉,這個圖表沒有辦法說明上面任何一項指標。

因為,這個圖表是依據刑事局165專線所作的統計。統計的方式是,只要該電商當週「疑似個資外洩被害件數超過5件」,就會記成1。

換句話說,你一週發生5件是1,發生100件是1,一週發生5000件也是1。

所以,它雖然告訴你約略的受害件數,但它不能告訴你這個電商到底外洩程度有多嚴重。

比方說,你會知道博客來去年「至少」發生了32*5=160件個資外洩案件,但到底是160低空飛過,還是200,還是1450,甚至是5B2C(??),你不會知道。

所以,當你想著這個20大是受害件數最多?受害會員比最高?受害金額最大?外洩個資筆數最高?外洩時間最長?

哇,你已經被這個圖表騙了。

實際上,這個報導者的20大,根本與上面各種可能的指標都沒有直接關係。

這個圖表,它告訴你各位的,只有洩漏件數超過5件以上的「時間」長度。這好像某個程度上反映了數量跟時間的嚴重度,但這在某個尺度以上跟以下,都是沒有意義的。

我們已經說過,在這個圖表裡面,1可能是5,可能是10,可能是100,可能是1000。圖表在提供數量參考的可靠度上是不足的。它在提供時間參考的的角度上也是。

一年有52週,根據圖表,博客來跟誠品有一半的時間都備持續通報有個資外洩,這種電商,我們可以很肯定它有長期個資外洩的問題,不是被駭客側錄消費者行為(不管是在是伺服器端或是在使用者端),就是 database 八成已經被詐騙集團複製了。

但是更往下的旋轉拍賣或蝦皮,是不是個資外洩的時間比較少?案件比較少?很難說。

回到博客來,我們知道博客來上榜了32週,一週是5件,至少一年是160件。我們就假設2022年博客來只有160件好了。

我們再假設有一家電商,叫做「深海的大鳳梨」好了。「深海的大鳳梨」連續40週,每週都有4個案件,那它的受害者件數其實跟假設中的博客來案件數一樣,都是160件,時間甚至更長。

按照一般人的看法,既然博客來有在20大裡面,那「深海的大鳳梨」應該有在20大裡面才對吧?

可是,事實上「深海的大鳳梨」永遠不會成為報導者所謂的「前20大」高風險賣場。

因為它永遠不會到達一週5件的上榜資格。

所以我說,這個圖表本質上是一個沒有意義的圖表。因為它的基礎是建立在一個間接數字之上。

間接數據確實可能有一定的代表性,但前提是間接數據跟直接數據的關係要一致。

在報導者使用的「高風險賣場上榜週數」統計中,1(週)對應的可能是5件,可能是10件,可能是100件;2對應的可能10件,可能是100件,可能是200件。2不一定比1大,也不一定比1小。

這種換算關係不一致的間接數據,讓我們沒有辦法切確反推真實數據,也沒辦法知道實際的情況。

這就是為什麼我說,這個圖表本質上沒有意義的原因。

實際上,在當代閱聽者有限的閱讀時間與報導者小編的吸睛打算中,它提供的資訊正確度,可能沒有比每個人平均有一個睪丸,所以你應該也「只有」一個睪丸來得更多。

--

--

海東青
Blue East Sea

塵世中一隻無知小熊,練習寫作,磨練眼力。曾為社群編輯、內容編輯,前政治工作者,目前為研究政策的無業遊民,總是覺得錢不夠花。書評、影評、時論。過往公開發表作品散見想想論壇、MPlus | 云閱讀、說書、udn 鳴人堂(專欄已結束)、沃草、上報。