手札 | 空間網格,正方形還是六角形好?

四角和六角網格簡單比較,還有其他非均值的空間統計單元…

Roy Lin
IVC-InVisibleCities
Sep 5, 2020

--

六角或四方的辯證

做空間數據統計,最常用的方式就是在空間平面上打上網格,用等面積的網格範圍做不同變量的統計。這種方式非常直觀,而隨著早期普遍使用的正方形網格,到近年也越受流行的六角形網格,許多對於網格幾何的討論開始出現。這篇文章基本上把三角、正方、六角網格的優缺點都梳理了一遍(雖然看得出來作者偏向用六角網格,因為他們公司的產品就是用六角的)。節錄重點如下:

六角網格優點:

  • 可遍佈於球面,所以特別適合全球尺度下的網格切分。
  • 任一網格跟他相接的所有網格中心點都是等距的,這有利於做空間的鄰近分析(四方形網格會有「端點相接」和「臨邊相接」兩種麻煩類型)。
  • 近似於正圓,因此在邊緣範圍的點,距離網格中心都是等距的,這能確保單一網格內所有點位於中心的最大距離是近似的(這優點也讓六角網點更適合作為地圖爬蟲的基準點,但爬蟲就不在此展開了…)
  • 有人覺得六角比較酷,但我覺得這真的不太重要…

六角網格缺點:

  • 六角網格在「加密、簡化」上受很大限制,且會面臨不同尺度網格軸向變化、不完全重合的問題,這加大了資料工程和閱讀理解的難度。如附圖。
https://towardsdatascience.com/spatial-modelling-tidbits-honeycomb-or-fishnets-7f0b19273aab

四角網格:

基本上六角網格的優點,都是四角網格的缺點:不能適應曲面、鄰近關係弔詭等。而四角網格最大的優點,大概就兩個:

  • 它非常好理解。人從一受教育,就習慣東西南北、XY構成的平面關係,所以方形網格是最直觀、也最容易套用數學表述的基礎網格(本質上,人類的思考還是很不習慣把地球當作球體)。
  • 完美的「加密簡化」延展性,每次一級網格,都與上一級網格完美重合。

雖然就這倆優點,但這優點無敵強勢,考慮空間統計僅僅是許多應用的一環、必需與其他工具、數據結構銜接,就讓四方網格處於不敗之地。

從幾何來看最大偏差值

有次跟朋友討論到四方或六角的優缺點,我直接想到的是「詮釋偏差」。在空間分析實務上,常遇到的狀況就是某個網格看來表現優異,但其實只是網格內其中某一區域有特別集中的分佈,即「不均」與「偏心」現象;或某一明顯空間群聚,恰好被兩個以上網格切分掉,導致呈現的分數不特別高。使用網格的初衷,就是對真實世界的簡化,所以網格數值與真實世界之間的偏差,應該作為網格使用評判的基準之一。

畫個簡圖來看,以方形網格來說,假設真實世界中有一百個人,均勻分布在一個方形範圍中,用同樣尺寸的方形網格去切分,一種極段情境「完美符合」,即單一網格完美貼合真實狀況,反應了100分的統計數值;另一種極端情境「完全偏離」,及網格完美的錯開該人群,變成了四個25分的網格。以單一網格的分數差異來看,存在75分的落差。即75%的最大詮釋偏差。

同理,以六角網格來看,「完美符合」的100分網格,與「完美錯過」的33.3分網格,之間存在66.7%的偏差。因此,以最大偏差值來看,六角網格可以比四角網格好上8.3%。然而實務上來說,這一點點優勢,似乎也幫助不大。

其他非均值的空間統計單元

無論四角、六角、還是三角網格,目的都在於跳脫真實環境的約束,均勻且公平地看待所有變量,也才能進行科學分析比較,但這有時也造成了分析後的詮釋較難回饋到真實世界中。想像一情境:網格統計下,某網格人口很高,需要增加服務設施,但該網格恰好橫跨不同行政區,造成難以直接對接政策落實。因此,也有其他基於真實世界特徵的統計單元概念。以下簡單介紹幾個:

  • 行政分區:例如縣市、區、村里界。利用行政邊界做統計,便於直接與直屬機關、行政作為掛鉤。
  • 經濟統計單元:例如內政部提供的經濟統計區一、二、三級發布區。據內政部文件解釋,是根據戶籍人口做的劃分,目的是更利於制定與人均資源分配相關的政策,如醫療、教育、治安、選舉等。
  • 自然街區:這概念我第一次聽到是在一家GIS平台公司的算法產品介紹,概念是利用都市與自然邊界如水域、街廓、自然保留用地等做幾何邊界的約束,這可以確保統計單元能更真實反映地形地貌。
  • 分群算法後的地理板塊邊界:類似上面自然街區的概念,但加上大量空間數據做為空間的特性維度,加以分類歸納。常見如利用大量POI數據+機器學習去區分住宅區、工業區、混合功能區等,也常應用於專一領域的邊界劃分,例如利用商業設施POI與消費行為劃分的商圈邊界。這類空間邊界的適用性非常窄,大概跳出特殊語境之外便失去意義。

--

--