城市新興數據、空間策略與城市治理的探索

Roy Lin
IVC-InVisibleCities
27 min readJul 5, 2021

註:本文首刊於《建築師》雜誌,2021年七月,原文標題「城市新興數據用於空間規劃與城市治理的探索」

在過去的十多年間,我從一名建築設計師,轉向都市設計,又再從都市跨足數據分析,服務的對象從一開始的單體建築業主,到房地產開發商,而後轉向零售企業諮詢,最近又回到台灣擔任公部門的數據分析與應用顧問。有人會說這段經歷非常跨領域,但對我而言,其中的脈絡是一致連貫的,都是關於理解人在城市中的行為、剖析城市何以為城市,並對複雜議題提出創意與解法。

用數據看城市,過去與現在

過去一段時間,每次對外演講的開場白,我都會放這兩張圖。左邊是建築人相當熟悉的波士頓城市印象,源自於 Kevin Lynch 的 The Image of the City [1] 一書。右邊那張可能就沒那麼熟悉了,它是Eric Fischer,一位數據藝術家,利用Flickr照片共享平台的數據,識別出在地人(藍色)與遊客(紅色)在空間上的分布差異[2]。一個是1960年,用訪談、手繪;一個是2015年,用大數據。幾十年過去,我們還是對城市充滿了好奇。即便我們一部分人能直接左右城市的樣貌,如建築師、規劃師、開發商,我們還是不夠了解城市。不了解城市裡的人如何移動、在哪裡、什麼時候做什麼事;不了解交通體系的交織運作;不了解為何一些地方吸引某些人、一些地方總是混亂、一些地方沒落衰敗、一些地方莫名熱鬧…。

聽起來很矛盾,若不了解城市,怎麼能替城市做出好的設計?這其實也是我認為都市專業領域一直以來的瓶頸:我們一直太過仰賴經驗法則、販賣情懷,強調主觀美感與價值觀。某種程度上,我認為建築與都市專業的養成,本就應該將科技與數據思維(Data thinking)內化,才能跟得上這個資訊爆炸、瞬息萬變的時代。唯有將這門專業,帶入更科學的佐證與論述,才能積極地與其他產業對話協作、放大影響力。

一. 都市數據的興起

在深入談數據如何改變都市規劃與治理之前,我們需要先了解這十年間一些重要的背景趨勢:

1. 開放數據運動 (Open Data Movement)

約莫2000年開始的全球開放資料運動,由國際開放知識基金會(Open Knowledge Foundation[3], OKF)為首,從歐美國家開始倡導開放公部門資料開放給大眾使用。當政府釋出了各類數據,不光是貫徹公民監督政府的作用,更能達到普及知識、催生民間創新的深遠效果,這也是我在美國求學期間感受到的衝擊:資料越開放健全,民間與學術圈的創新力就越強,越能集眾人之智慧解決社會問題。台灣也隨後積極響應,在2017年甚至被OKF評為開放資料評比第一名。大量的開放資料,讓民眾開始可以直接獲取官方提供的各類城市數據,包括人口結構、行政區劃、都市系統、社會經濟發展等資料。

2. 數位足跡(Digital Footprint)的爆炸性增長

我們都目睹到了各類網路服務的興起,甚至短短幾年間顛覆了我們過去幾十年的生活習慣。諸如社群網絡媒體、電子商務、共享經濟服務、個人移動裝置等,隨時隨地、多維立體的記錄著我們每個人的行為軌跡,具備大量(Volume)、高速(Velocity)、多樣(Viriety)的特性,也是俗稱的「大數據」。有別於政府擁有的社會經濟數據,這些私人企業擁有的更貼近每個人的行為,甚至潛藏的情感與秘密。我們開始有機會近乎完整的勾勒個人乃至整個社會的樣貌。這些資料多半不對公眾公開,但企業多數都積極地嘗試將自有數據商業化(Data Monitization),透過應用程式接口(Application Programming Interface, API)或加值服務方式出售,數據產業的市場機制成型指日可待。

3. 城市數據處理工具的開放

與都市相關的數據,跳脫不了地理空間屬性,也就是我們一般說的地理空間數據。過去,都市空間資訊因龐大複雜,必須透過寡佔的地理空間資訊系統(Geographic Information System, GIS)才得以讀取,又因其學習成本高,一般民眾無從利用。但隨著開放資料的興起,地理空間數據也有了相對應得開源軟體如QGIS,以及雲端化的分析圖台如 Kepler, Carto等,讓一般大眾很容易下載、處理與分析運用。

4. 大數據處理與應用工具的普及

隨著大數據的興起與電腦算力的提升,業界開始出現更多人工智能(Artificial Intelligence)、機器學習(Machine Learning)等的技術應用。這些以往仰賴強大硬體運算能力、高深計算機知識,而專屬於大型研究機構的技術方法,因為雲端運算服務的普及、開源共享的各種演算模型,開始成為每個人都能用上的工具。例如Google將其機器學習的演算法與工具,開源至TensorFlow這樣的平台,任何人只有具備基本的程式語言能力,都可以隨時用上影像辨識、語意分析、深度學習等工具。

這些趨勢,從數據源頭端的指數倍增,到工具的開源與普及,催生了城市大數據應用的熱潮。

後面我將透過我過去親身參與的案例,從商業應用與城市治理兩個角度,說明各類的城市新興數據如何幫助我們解決複雜問題、創造新價值。

二. 都市空間數據用於商業決策

在我於上海從事都市設計的三年間,正值網路服務爆炸成長的階段。許多線上服務如餐飲評價、地圖、外送APP、活動票卷、共享與租賃平台等快速崛起,提供了大量數據。雖不盡然以開放資料的方式提供給公眾,但稍有技術能力即可獲得。另一方面,許多資通訊企業也開始嘗試將手中的數據商業化,例如電信公司開始利用手機信令數據隱去個資後,彙整成帶有人口年齡層、性別、職業別等標籤的空間網格聚合數據(Aggregated data),以數據即服務(Data as a Service, DaaS)的方式出售。時逢都市分析學門在歐美的興起,令當時還在使用傳統CAD繪圖且苦無資料可玩的我,心生嚮往。於是2016年離開都市設計師的職位,想探索一套新的分析與設計方法,也於2019年創立了一間專注於位置數據分析的諮詢公司[4]。

位置數據分析,或「位置智能(Location Intelligence)」,算是傳統商業智能(Business Intelligence, BI)的分支。如果說傳統的BI是透過Excel這類報表軟體中分析出有價值的商業洞察(BI專業者應該會反對我這樣的簡化比喻),那LI就是利用地圖或GIS軟體找出商業策略(也有點粗暴的簡化,但這樣可能比較好理解)。

位置智能在維基百科[5]定義是:「從地理空間數據中挖掘出有意義的洞察,進而解決特定問題的過程。」這對於建築設計師而言,應該不陌生,因為本質上跟我們熟悉的「設計方法」並無二致。以下分享一些我認為城市空間數據在商業決策上常見的應用情境。

1. 商業選址

位置數據的應用,最容易聯想到的就是「選址」。選址是一門古老的專業,打從有店舖的概念開始,選址就是一門學問。但在過去,數據源相對少且不易取得的情況下,多半憑藉的是經驗老道的業者現場踩點、探勘而來。借助新興數據源與空間運算(Geo-processing),選址工作可以更精準科學、更有效率。

一家高爾夫休閒運動場館的品牌要進入亞洲,要在短時間內評估多個城市的不同地點是否合適。這家企業在美國已有一套標準的選址公式(圖2),即在方圓多少英里內需要滿足多少五星旅館、高消費力人口、國際企業等指標。我們的挑戰在於,除了要讓美國總部能在不涉足現場的情況下快速而全面的了解基地優劣,還要將既有的選址邏輯「在地化」,譬如光是駕車可達性這件事,在美國普遍覺得「近」的距離,在亞洲城市已經是「太遠」了,更何況其他在大眾運輸、休閒運動、消費習慣等等的文化脈絡差異。

美國選址 vs 亞洲選址

服務範圍與市場規模計算

在選址工作中,最常用的評估之一就是「交易範圍(Trade Area)」或「服務範圍」,一般會用一特定通勤距離作為邊界劃定。然而,在美國開車一小時的遠近感,在公共運輸便利的亞洲城市,可能相當於20分鐘。更短的可接受旅程時間,加上多樣的出行選擇:自駕、大眾運輸、步行,甚至各種運具之間換乘,讓「交易範圍」不能只是簡單的半徑畫圓。這時候,我們借助於地圖平台的最短距離API,結合空間運算,可以畫出有機形狀的「等時圈(Isochrone)」,即以該基地為中心,一定旅程時間下的最大可達範圍。

下圖(圖3)可以看到,以南京市某地為例,駕車一小時,與搭乘大眾運輸加步行的一小時「等時圈」形狀相當不同,雖然在遠離市區的地點,但因為鄰近大眾運輸,甚至可以比駕車更深入覆蓋到市中心區的人群。

開車 vs 大眾運輸等時圈與可達範圍

得到「服務範圍」之後,可進一步疊加電信商提供的人口結構數據,了解該範圍內的「潛在消費人群基數」與「人口年齡分佈」;也可利用房地產租賃平台的房價租金數據,推估「高消費力人群比例」;或是利用住宅戶數、辦公樓宇數量等,推估「居住或工作人群比例」。幫助該品牌了解市場潛力與特性。

此外,針對不同的目標客群,應該納入評估的設施類型、出行時間與交通方式也不同,例如家庭週末出遊的情境,應評估自駕車一小時範圍內的住宅總量;大學生出遊,應計算大眾運輸半小時覆蓋的學生總數。以消費者體驗為中心,帶入不同消費情境,再透過各類數據與空間算法的組合,可以得到非常精準且科學的評估結果。

不同客群對應不同的出行選擇

評論數據幫助商業定性

除了量化的評估,我們也可以利用各類網路平台的評論數據,提供一些「質性(Qualitative)」的資訊參考。例如,Google地圖上,用戶對於每個設施場所的「評論數」與「評分」可判斷該設施是否熱門、TripAdvisor這類旅遊景點平台上的評論關鍵字,可呈現該場所的特色,進而幫助企業在招商策略、業種混合、服務本地化等方面的依據。

利用社群平台的文字分析,看城市特色

2. 網點優化

選址之外,對於已具規模的企業而言,更大的挑戰在於資產項目管理(Portfolio Management)。企業需要在既有的空間資產上,最大化營運的效益,隨時評估展店策略、門店網絡優化,甚至關閉網點。利用都市空間的外部數據,搭配企業自身擁有的內部數據如銷售業績、門店屬性等,可更近一步發揮數據價值。

領地分析

當一企業擁有多個門店或實體據點時,不光是總體服務範圍希望最大化,同時要考量物流運送成本、客群相互侵蝕(Cannibalization)等問題,這時候問題會複雜得多。

以一間精品咖啡廳品牌為例,原先因為主打店內體驗為主,門店多分布在市中心人潮多的商業區,但近年開始拓展外送卻發現訂單不如預期。我們從數據分析的角度便可發現,大部分的門店所觸及的外送範圍,超過半數重合度達九成,意味著不同門店其實在搶食同一批消費者。要進一步改善此問題,則必須從新檢討既有門店位置的策略。

實體店起家的咖啡廳,外賣領地卻高度重疊,造成潛在客群稀釋

聚類分析(Cluster Analysis)幫助營運策略制定

數據分析能帶來的最大價值,往往來自於於跨領域的交叉分析。以一間在上海擁有三百多間門店網點的西式連鎖快餐廳來說,使用內部銷售數據作日常運營、行銷等決策參考,是再熟悉不過的。但對內部數據的熟稔或慣性,也恰恰好是大企業與機構容易產生的盲區:缺乏對外部數據的掌握與知識。

我們協助該企業,以每間店所在的街區功能特性、人群特徵、消費行為等資訊,對所有門店加以分類。在此之前,該企業對自己門店類型的定義僅「一般門店」,以及極少數「快捷門店」,以至於所有新推出的商品或行銷策略一體適用,成效有限。

我們利用機器學習中的聚類分析(Cluster Analysis),將三百多間門店歸結出包括「大型交通樞紐」、「混合功能區」、「住宅混合區」、「商務辦公區」等七大類型,並針對該區位與人群特性,建議不同的商業策略。例如交通樞紐類的門店,推出線上預訂的快取窗口;住宅區為主的則可考慮與社區合作推出團體優惠等。這幫助該企業更了解現有門店的特性,也更能針對各自所在的街區與客群,提供細緻的銷售策略。

利用街區特徵區分的門店類型與相應商業策略

除了街區尺度,在門店尺度上,我們還能利用數據和空間算法模擬消費者的到店行為。例如針對早餐快取窗口這樣的策略,我們可以結合每個門店週邊的住宅點位、辦公樓點位、地鐵進出人流量、以及最短路徑計算,模擬出早餐時段,每個路段的「順路人流量」(圖8),進而挑選出最適合優先測試「早餐快取窗口」的門店。

連鎖門店的順路人流模擬分析

建立商業地產銷售業績的「預測模型」

商業上,大數據多用來「建模(Data modeling)」,即透過大量過往數據找出規律,並對未來做出預判、減少風險,常見於金融、保險、電商等領域。以往企業須仰賴大量自有數據(如交易、會員資料等),而今也能透過多樣的城市空間、消費行為等外部數據,強化模型的預測能力。一些仰賴位置空間的產業如地產、零售,也因而能引入數據建模這樣的工具。

一間跨國的共享辦公(Co-working)企業,在進入亞洲數年後,因為資本熱潮趨緩,開始從快速擴張的市場搶佔期,過渡到追求穩定增長的商業優化期。以往「帳算得過就拿」的標的物件,開始需要反思是否值得持續投資,或需要做出產品與服務的調整。

我們透過搜集該品牌現有門店週邊的各類數據,包括辦公樓宇、商業機能、交通、房價、競爭對手等面向(圖9),透過機器學習的方法,從三十多個變量中篩選出了最關鍵的幾個,並建立了一套業績預測模型。依此模型不僅可作為未來展店的參考,亦可透過現有門店的發展預測,幫助企業了解應該採取加碼投資、撤出、或是加強行銷等不同對策。

門店15分鐘步行範圍內,不同類型數據示意圖
預測業績對比現有業績,作為門店優化策略的參考

以上案例提及的數據源、算法、建模,雖都是以零售、地產業為主,但其邏輯也可應用在更廣的範疇,例如公共設施的規劃與檢討、社會經濟方面的研究分析等。

接下來會介紹城市數據在「城市治理」範疇下的應用。

三. 開放協作,用開放資料「看見城市」

在商業場景中,所有的數據分析不外乎一個目的:更高的獲利。然而,以公部門來說,城市面對的綜合治理課題,通常不是單一量化的「績效」追求,而是多面向考量的動態權衡,因此比起給出一個明確的預測結果,如何正確客觀地呈現跨領域數據、提供多重利害關係者一個對話基礎,往往更為重要。

在我2016年離開都市設計行業之初,其實對於城市數據可以如何應用還是很模糊的,剛好當時台灣各地方政府正大力推動開放資料,因此找了一些同樣對都市研究感興趣的夥伴,成立了「在看得見的城市 In Visible Cities, IVC」社群[6],希望探索如何運用各類開放資料,結合設計思考,對城市提出有價值的洞見與倡議。

IVC社群「城市印象」工作坊

用數據閱讀城市的性格

在IVC社群的第一個專案「消極空間翻轉」中,我們試圖用空間數據與視覺化,指認台北市迫切需要活化的區域。我們定義了三種類型的消極空間:低活力、低可達性、以及負面因子(圖12)。低活力選用的是長期或時段性閒置的場所,如工地、停車場、傳統市場等;低可達性是指大眾運輸不易到達的區域,即捷運站800公尺、YouBike站200公尺以外的區域;負面因子則是指台北市公害陳情中的噪音、衛生、犯罪的空間熱點。透過這三類消極因子的視覺疊加,並以各村里的人口密度做篩選,可以很直觀的挑選出人口密度高,且消極程度大的區域,作為都市更新活化的參考。

消極空間翻轉專案,將不同消極場域視覺化

而在「創意台北」專案中,我們嘗試用數據的方式,將台北的抽象創意基因,呈現在地圖上。我們透過「活動通」平台的數據,呈現出不同類型創意活動的分佈與人氣,也看出台北隱形的「創意基礎建設」:華山與松菸為主的藝文樞紐、以世貿為核心的科技氛圍,以及散落在民間創業加速器的商業創業活力(圖13)。也透過疊加各類型的城市魅力場所與屋齡分佈,發現有魅力的小店、展館、酒吧,往往都分佈在較老的街區,為老街區的保護與重視,增添了一份有力的數據支持。(圖14)

台北市創意活動類型與分佈
台北市魅力場所與老屋分佈

用空間分析檢討公共設施

除了視覺化,空間數據加上簡單的空間運算,可以更深刻地呈現或挖掘社會問題。在另一「高齡友善城市」專案中,我們利用開放資料檢視台中市的高齡友善程度。

在中央的「長照2.0」政策下,長照資源拆分成不同等級,目的是希望透過分散式的資源網絡,就近供給給需要的長者,達到就近安老(Aging in place)的效果。

順應這個理念,我們首先透過建築資料,將各村里人口按每棟建築的樓地板面積重新分配,以此推估精準到每個街廓的高齡失能人口分佈圖(圖15)。接著將現有的養護中心位置各取一公里服務範圍(假設合理的就近安老概念為一公里距離),可計算該中心應該就近服務的高齡失能人口數量。

台中高齡者與養護中心分佈

進一步對比應該服務的人數與實際的床位數,會發現現有的養護中心除了空間分布不均之外,也有供不應求的問題(圖16)。以台中市區為例,平均每一個養護中心,不足約三百個床位。而這三百個床位不足,則成了許多需要居家照護的失能老人,其中也揭示了許多社會問題如缺乏子女照護、非法移工看護等。

養護中心與附近需求人數存在落差

除了上述案例,IVC社群夥伴們還發起了各式各樣的都市研究,包括空氣汙染農地工廠青年共居共享單車、居住正義等,持續透過社群的方式公開招募、開放協作並與公眾分享成果。

IVC社群公開分享會

大概是跨資料集的運用加上直觀的視覺化呈現,吸引了公部門的目光,在IVC社群運作的第四個年頭,我們收到了台北市政府的邀請,與資訊局同仁交流了開放資料的分析成果與想法。會後,資訊局呂局長即邀請我們參與台北市正在籌組的大數據中心。

四. 數據驅動城市治理,「台北大數據中心」的內部創新

加入台北市大數據中心的核心團隊,對於社群夥伴來說是莫大的激勵,一方面是過往的探索得到了肯定,另一方面也興奮於能接觸到更多未開放的都市資料。對我個人來說,感覺像是從都市設計圈叛逆出逃、不安於現況,跳出去摸索了一圈,又半隻腳踏回到圈子內。或許有時候,跳出體制外,反而容易受體制注意。我當時與夥伴們說,也許這一次,是我們離心目中一個「智慧城市」該有的樣子最近的時候。

重點不是數據的大數據中心

講到「大數據中心」你會想到什麼?諾大的機房?無處不在的電腦設備?

因為我們在乎的是城市,所以我們期待打造的臺北大數據中心,不是關於大數據,而是關於城市,關於洞見與智慧。大數據中心的名稱因為沿襲府方慣稱而沿用,但英文名稱,我們翻作 Taipei Urban Intelligence Center 而非直譯 Big Data Center,也算是對其定位的一種宣告。

台北大數據中心籌備處辦公室

台北大數據中心(後簡稱:TUIC)目前隸屬於台北市資訊局。TUIC的核心目標,在於推動台北市「數據驅動」的「城市治理」。具體業務分為兩大部分:跨域資訊匯流,以及深度數據分析。跨域資料匯流,重點在於資訊面的「廣度」而「即時性」,而數據分析則更注重「長時間」跨度下的趨勢,以及對議題本身的「深度」挖掘。

新兵訓練的震撼教育 — 防疫儀表板

社群夥伴們正式加入市府,是2020年初,正好遇上新冠肺炎疫情爆發。當時市府內部每天的防疫會議,是由各相關局處人工彙整資訊、產製報表並口頭報告。而TUIC的首要任務,便是協助市府彙整防疫相關各類數據,建立自動化且即時的資訊儀表板,供長官與相關人員隨時查看包括國內外趨勢、隔離人數與位置、剩餘床位、消毒區域,甚至口罩供給趨勢等資訊。

台北市防疫儀表板,口罩供給現況與趨勢

這看似單純的任務,其實相當複雜。首先,防疫相關的各類資訊,跨及中央、地方政府,以及民間單位如聯合醫院,且各單位的系統與資料格式不一,須根據個案建置資料處理流程;其次,龐雜的資訊如何有效的過濾與呈現,並提供地理空間、時間趨勢的交叉查詢,當中不光是互動介面與圖表設計的挑戰,更要符合業務單位的操作邏輯;最後,因為防疫工作的持續,內容會不斷修正與擴充,例如後期也加進了實聯制場館入場人數追蹤等內容。

經過了一個月左右的設計、資料介接與開發製作,防疫儀表板於2020三月上線,一直到現在,都還在不斷的迭代與進化。

(後記:這篇文章交稿在2021年五月,而後正好面臨台灣的本土疫情爆發,在防疫的急迫性、資料規模與複雜度上又是截然不同的挑戰,之後有機會再另外撰文分享。)

防疫儀表板是整個市府資料匯流工程的縮影,透過這個專案,我們對跨局處複雜的資料介接與行政作業流程,有了初步的經驗。也在疫情趨緩之後,開展我們另一項重要的任務:城市運行儀表板。

全市府跨域數據匯流 — 城市運行儀表板

台北市作為首善之都,許多局處無論在人員的數據素養或系統的數位化方面,都有相當的成就,例如災情應變中心、警察局、交通局等。但即便這些單位在各自「垂直領域」有較高的數位化能力,面臨跨局處「水平向度」的跨域協作時,便因為行政法令、業務習慣、作業標準不一等原因,窒礙難行。

「城市運行儀表板」的規劃,便是希望突破這個困境,透過彙整各局處的關鍵數據,幫助府級長官在面對跨領域都市議題時,能有更即時、宏觀的掌握,做出更快而準確的施政參考。

城市儀表板資料組件設計
城市儀表板介面(內部測試版)

為此,我們進行了數個月的業務單位訪談,了解每份數據的產製方式與行政邏輯,並針對城市的各個面向,設計出多個資料「組件」。每個「組件」包括了資料集串接、告警與預判邏輯、資訊圖表、地圖視覺化與歷史趨勢等設計,後端還有需要吃得下各種資料格式的大數據資料庫,以及資料清洗、系統管理運維等工程。如果把城市運行儀表板比喻為露出海面的冰尖,那麼彙整全府三十多個局處的浩大工程就是水面下整座冰山。

城市運行儀表板整體架構

市政議題的深度分析 — 計程車招呼站優化、內科交通議題探討

前面提到,TUIC的兩大職責,除了彙整全市府的跨域資料外,就是針對當下重要的市政議題提供深度的數據分析。大數據中心,既是市府的數據匯流基礎建設,也扮演市府的市政分析智庫角色。

以去年九月與交通局聯合發表的「應用計程車搭乘熱點大數據規劃合理的計程車排班方案」為例,此案緣起於市府希望解決市區計程車隨處載落客、以及空車繞行造成的環境污染。

其實在此之前,北市府已有設置多處計程車招呼站,但因缺乏強制力、不符實際需求等原因,成效不彰。因而委託交通局與資訊局大數據中心,協調多家計程車廠商,透過數據分析,研擬可行的解決方案。

我們從多個計程車業者提供的旅程起迄點數據,發現了不管是「電招」與「路攔」方式,民眾上下車的熱點都與現有招呼站有所出入。為此,我們挑選出最頻繁的一百處熱點,並結合道路紅線與建築資訊,以互動地圖的方式交付給交通局,讓同仁們可以帶著平板電腦,到現場探勘增設招呼站的可行性。

計程車起訖點熱區圖

另外如長久以來受塞車所困的內湖科學園區,也是TUIC進行中的專案之一。除了使用市府公開的戶籍人口資料,我們也與電信公司合作,利用手機信令數據加以區分工作與居住人口,幫助我們在靜態的村里人口之外,更準確掌握動態的就業人口分布,以及通勤行為特徵。疊加上捷運進出人流量、公車乘載量等資訊,能更準確幫助推敲交通疏解方案,以及制定相關政策。

內科通勤來源地分析。綠色為大眾運輸,紅色為非大眾運輸

由內而外的「數據素養」

除了TUIC內部的工作,台北市政府也因應各種資料機敏性與民眾隱私疑慮,成立了「資料治理委員會」,將資安與個資議題做了最高層級的討論。台北市在「數據驅動城市治理」的這條道路上,由TUIC在實務面逐步推動公部門的數據素養與能力,也由「資治會」從適法性與機制面做把關,未來的發展路上,應是精采可期的。

五. 數據的侷限、反思與期待

數據,其實只是我們可以選用的眾多工具之一。怎麼用、何時用,端看我們的目的與需求。我提倡利用數據,但也反對過度相信數據。就像所有工具都有局限,使用數據做決策之前,必須也了解其合適的場景,以及潛藏的誤區。

1. 數據呈現何時、何地、人事物關聯,而非因果

剛開始接觸數據分析時,最容易犯的錯誤之一,就是把數據之間的「相關性」誤以為「因果關係」。舉一個經典的例子:研究發現,美國的森林大火次數與冰淇淋的銷量有強烈正相關,難道是因為冰淇淋造成了森林大火?還是因為大火所以大家想吃冰淇淋?其實僅僅是因為這兩件事都發生在夏天、與氣溫正相關。

又或是錯把「現象(Fact)」視為「需求(Need)」,譬如,從自行車的騎行軌跡,發現大家都騎某個路段,並不一定是因為該路段特別吸引人,可能僅僅是因為騎手沒有其他更好的選擇。

如果我們不細究數據背後的邏輯,那麼很可能得到似是而非的結論,包裹上數據分析的外衣,變成「高級的騙術」。特別是在複雜的都市議題中,更必須隨時保持對數據發現的反思,並積極地引入領域專家的討論,避免謬誤。簡言之,數據能幫我們更清楚看到「What」跟「How」,但不能告訴我們「Why」。要真正了解因果關係,光數據分析往往是不夠的。

2. 數據告訴我們過去和現在,而非未來

任何學習資料科學、或提倡人工智慧的人,十個有九個會跟你說,數據的價值在於預測。但他們通常沒說的,是要能預測未來,必須有非常多先決條件,譬如可控的系統變量、大量的人工預判做訓練集等。如果你用A,B,C,D建出了一個模型,那它不可能應對甲、乙、丙、丁的出現。就像共享乘車的服務邏輯不同於計程車、電子支付顛覆了信用卡行為習慣等等,是無法用舊模型推導新場景的。而在城市的場景裡,往往幾年就會出現一個顛覆性的新服務、政策調整、行為習慣改變,或基礎設施的更迭,這讓原本就變量趨近於無窮多的城市現象變得更難模型化。

未來趨勢不是不能預測,但只能在定義非常明確的場景、經過一定程度的抽象化,且時間跨度通常無法太長遠。

所以在城市議題的範疇裡,我認為「解釋性模型(Explainatory Model)」的重要性可能更勝於「預測性模型(Predictive Model)」,即強調數據分析的可解釋性而非預測精準度。這會讓數據分析更聚焦在理解問題的前因後果,也才能更好的對接相關權責單位,更有助於政策制定。

3. 數據越大量越準確,但洞察也越容易概括化(Generalized)

數據分析,樣本數量越大,越能得出有代表性的結論或模型。但同時間,這些「洞察」也越是大多數樣本的共通性,在都市的範疇裡,往往也越貼近我們的「常識」。譬如把交通數據視覺化,可能只是驗證了我們印象中常塞車的路段與時間。這樣花力氣用數據去驗證「常識」意義不大。然而當我們想要去談「局部」而非「整體」特徵時,又往往面臨數據樣本不足的問題。

過去我曾在產品設計公司接觸過「深度訪談」的訓練,針對樣本數極少(通常個位數)的用戶進行一兩個小時的訪談,幫助大公司挖掘下一代產品的潛力。當時並不完全理解,為何不採用大量的問卷或市場分析。

後來才漸漸體會,大量的數據能夠顯現整體的趨勢與共性,但往往有價值的「洞察」來自於少數「早期採用者(Early adopter)」或「離群者(Outlier)」的異常表現,或使用者沒說出口、藏在行為表象後的「根本原因(Root cause)」。

「量化(Quantitative)」的研究方法,和「質化(Qualitative)」是互不可取代的,也是需要互補的。好的研究人員,甚至好的設計師,應該要能懂得何時使用不同的工具。

4. 數據利於優化效率、規避風險,創新還是仰賴設計

總結上述數據的侷限,大概不難了解,數據的應用非常有助於優化既有系統、資源最佳化適配、或在有限變量中預測短期趨勢、最小化風險。要真的挖掘出意想不到的洞見,必須跨資料類型交叉分析,並且搭配質化研究如訪談、問卷、田野調查等方式。最後,要提出解決辦法,還是得靠人的創意與綜合評判力。

我相信在未來,數據獲取的成本將越來越低,如同今天人手一台電腦與手機。如果把數據比喻為食材,那麼我們已經漸漸從粗放式的農業、大家直接交易著自己種的番茄、芹菜,慢慢過渡到有著大盤、中盤、小盤、批發與加工等複雜價值鏈的年代。而設計師,就是扮演「廚師」的角色。靠著好的創意與手藝,一百塊的食材,才能成為上千元的米其林料理。

期待一個關於創新、人本的智慧城市

最後用一個我親身經歷的小故事,作為這篇文章的總結。

幾年前我和一個對城市大數據很有研究的朋友聊天,他跟我這麼描述他的心得:「最早的時候,我們透過數據,開始可以「描述(Describe)」城市的樣態;而當有了機器學習與人工智慧,我們開始可以利用數據去「預測(Predict)」城市的發展;我認為,人類的終極目標,應該是可以「控制(Control)」城市的各個面向,近乎一個烏托邦的理想城市。」他在白板上把他的「理論」畫了下來。

聽完當下,覺得哪裡好像怪怪的,但又說不上來。

事後回想,我覺得應該是這樣的:

控制性的智慧城市,或創新型的智慧城市?

開始有了數據之後,我們透過數據可以「描繪(Depict)」一部分的城市。

描繪,是因為帶了主觀的認知去看待。有人說:數據不會說謊,但事實是,數據什麼也不會說,說話的是「人」。只要是人,就脫離不了主觀。

接著,有了機器學習,我們可以把複雜世界簡化成模型,但模型幫助我們的不是預知,而是「理解(Comprehend)」城市複雜體系當中各種因子的相互關聯。

了解了各種現象的原因與脈絡,我們更能「創新(Innovate)」,創造更好的城市環境。畢竟,我們之所以熱愛或嚮往一個城市,並不是因為他的交通多麽順暢、市政運行多麽有效率,而是因為它給我們出其不意的驚喜、因為在那裡能遇到的喜愛人事物。

一個可以完全受掌控的城市,應該是非常無趣的。

註1:The Image of the City, 中譯:《城市的意象》是美國都市理論家Kevin Lynch在1960年出版的一本書。這本書是對波士頓、澤西市和洛杉磯進行的為期五年的研究的結果,該研究是觀察者如何獲取都市信息,並用它來製作心理地圖。

註2:線上作品與說明可查看網站 https://labs.mapbox.com/labs/twitter-gnip/locals/

註3:開放知識基金會(英語:Open Knowledge Foundation,縮寫:OKF)是一個全球性的非營利網絡,免費推廣和分享資訊。網站:https://okfn.org/

註4:Civic Intelligence, 簡稱 CVI,是一致力於位置數據與智能的商業咨詢公司。網站:cvi-tech.com

註5:https://en.wikipedia.org/wiki/Location_intelligence

註6:IVC InVisibleCities 在看得見的城市,是一致力於分享城市洞見、對城市倡議的非營利社群。官網:ivc.city。文章:https://medium.com/ivc-invisiblecities

--

--