【源起】嘗試製作報導香港新聞、時事及社會議題媒體的開放數據

自我製作的開放數據

原本只想寫一篇關於香港傳媒 RSS 的文章放在主網站長尾一下,怎知越搞越好奇,索性弄起試算表來。我也不知道我弄的符不符合開放數據格式,盡力做就是。然而在公開這份資料前,我想說明一下我好奇的原因。

如果大家還有印象,二月時港大、中大、理大聯同學生動源和香港民族陣綫在港大舉行旺角騷亂三週年集會,期間《時聞香港》記者劉轉好被驅趕離場。及後香港記者協會發出聲明,指傳媒在正常採訪工作不應受阻撓。 但如何界定甚麼是傳媒?《時聞香港》只是一個 Facebook 專頁而不是在電影、報刊及物品管理辦事處已登記的報紙或期刊,卻被記協確認為媒體,所以我認為有必要製作清單,例如當大家某一天在街上被某媒體訪問或無故被拍攝,也可以查找該媒體是否經已登記和了解其他資料。

基本數據

這個名為「報導香港新聞、時事及社會議題媒體」的試算表分開收費報紙、免費報紙、收費雜誌、免費雜誌、網絡媒體、網上電台、電子傳媒、Facebook專頁及外國媒體九個大類收錄媒體註冊情況、中英文名稱、所屬集團、傳媒立場、RSS Feed 位址、有沒有 App、該媒體網站有沒有廣告位、會不會接受捐款、創辦人、決策人、地址、電話、經緯度、口號甚至網民稱謂等。原本也想過收錄媒體員工人數,不過就算傳媒集團也不是每家都會提供數據,故此遲一步再處理。

顧名思義,此試算表不會收錄純消閒類型內容的媒體資訊。至於那些「以玩樂為主再帶出時事」的媒體,基於他們「連轉貼也不夠別人快」的關係,暫不收錄。

九個大類要稍作解釋,例如網絡媒體,有些非香港原生媒體但特地為香港製作「香港版」或香港網站,也會被歸類為網絡媒體,而涵蓋香港新聞的外國媒體當然就是歸類為外國媒體。有朋友可能覺得外國媒體的部份未必有用,但如果你是那種覺得香港媒體太有立場或寫太多字,又想輕快地看一下重點不想脫節,其實看外媒的中文或華文版挻好。而網上電台方面,主要針對每天有提供文字新聞報導的網台網站,其他只放置聲音檔的網台並不包括在內。

是否接受捐款和有沒有廣告位可以讓大家自行作更深入研究,例如為甚麼有一些媒體不印刷賣錢,讓人免費閱讀之餘,既沒有廣告位也不接受捐款,卻可以繼續運作?當然最好再加多一欄說明該媒體有沒有置入式行銷,甚至廣告價目表 ( Rate Card ) 大概為何(例如刊登頭版需要多少錢),但工程過於浩大,只得作罷。

社交媒體數據

既然收集了基本數手數據,當然也弄一弄社交媒體這方面。原本希望採用 Google Sheets 的 IMPORTHTML 和 IMPORTXML 做到即時性數字更新,但它承受不了太多計算 load 不出來,又沒有錢買那些貴森森的 Social Media Monitoring Tool,只好在四月初開始作田野調查式手動記錄。

與網上分析工具如 Socialbakers 香港傳媒排行榜不同之處是這種手動記錄能將所有與該新聞媒體相關的數字一拼整合,於是那些喜歡一炁化三清將不同內容拆開做不同 Facebook page 的媒體,只要內容源自同一域名,都會更全面地被認知。此外傳媒集團其他並不屬於新聞媒體的 Facebook Page 亦一拼作社交媒體記錄,以便計算傳媒集團的整體影響力。

互聯網服務內容

互聯網服務也是大眾閱讀新聞的途徑,這部份將拆解每家機構所提供的內容源自哪裡。

2019Q1傳媒錯誤次數統計

2019年第一季傳媒錯誤數據來自新聞噏乜9 Facebook Page。雖然內容源自社群自發報料而不是每天由編輯主動監察而來,但仍然具有一定程度參考價值。