廣度優先演算法與深度優先演算法比一比

行銷資料科學
Marketingdatascience
4 min readAug 18, 2020

先前我們曾經提過,圖論(Graph theory)的起源,最早來自於柯尼斯堡的七橋問題。而解決該七橋問題的尤拉(Leonhard Euler,1707~1783),則被認為是圖論的創始人。其實,透過拓撲學的圖論,可以協助解決許多問題,其中像是如何進行網路搜尋或爬蟲,就是圖論的延伸。

1993年,魔賽克網路瀏覽器(Mosaic web-browser)剛剛面世。幾個月後,麻省理工學院學生馬修·葛雷(Matthew Gray)也寫出了一支稱為World Wide Web Wanderer的世界上第一個網路機器人爬蟲程式,該程式能以系統性的方式,遊歷各Web網站並蒐集站點資料。

從現在的觀點來看,當年的World Wide Web上的資料,可能只是目前網路資料的九牛一毛,但是當年的電腦效率,有了搜尋程式已讓網路使用者省力很多。但您有沒有想過,如何搜尋才是最有效或者是最省力的方式?這就牽涉到進行網路爬蟲時,兩種常用的演算法:廣度優先搜尋(Breadth-First Search,BFS)與深度優先搜尋(Depth-First-Search,DFS)

所謂的廣度優先,就是從圖的某一節點開始走起,然後逐一走過此一節點相鄰且所有未走過的節點,再由走訪過的節點,接續進行「先廣後深」的搜索方式。 換句話說,利用樹狀系統,就即把同一層級的節點走過一次,然後再繼續向下一層級搜尋,直到找到所要的目標,或者已尋遍所有的節點。不曉得,各位有沒有發現,這種概念跟七橋問題幾乎一模一樣。

我們再以下面圖1顯示的網路圖來說明。「廣度優先」搜尋會先搜尋第一層與A相連的點(即ABCD),再搜尋第一層相連的點EFGH,以此類推,所以搜尋順序為A、B、C、D、E、F、G、H、I、J、K、L。

圖1. 網路圖

至於深度優先搜尋(Depth-First-Search,DFS)則是深入一個節點後,再單刀直入,深入下一個節點。所以搜尋順序為A、B、C─E、F─I─J、D─G、H─K─L。

不過,如此一來,網友一定會問,這兩種演算法,到底哪一個比較好,或是適用的情境為何?

一般來說,一個網站最重要的應該是它的門面(網站首頁),以及最接近首頁的那幾層網頁。從這樣的觀點來看,在時間、資源有限的情況下,要爬取到最重要資料的網頁,「廣度優先搜尋(BFS)」應該是優於「深度優先搜尋(DFS)」。

不過,使用DFS的好處是,可以增加爬蟲的效率,畢竟一直換網站搜尋或下載,背後有其時間成本。採用廣度優先搜尋時,如果找不到所要的資料時,爬蟲程式會先到一個網站去,然後再到另一個網站,之後再回到原有網站下載。而這樣換來換去,也就犧牲了效率。

所以,後來又出現了最佳優先搜尋(Best-First Search)方法,背後則是透過一個「優先排序系統」,來決定應該下載哪個網頁。

了解這些原理之後,對於像我們這類網路搜尋的重度使用者來說,都會對這些搜尋程式心存感激,畢竟如果沒有這些程式,為了找到某些特定資料,可能找到海枯石爛都找不到。

作者 : 羅凱揚(台科大企管系博士)、蘇宇暉(台科大管研所博士候選人)

歡迎加入我們的Telegram獲取即時訊息!https://t.me/marketingdatascience
歡迎加入我們的Line@獲取即時訊息!https://line.me/R/ti/p/%40cde8265r

--

--

行銷資料科學
Marketingdatascience

Marketing data science. 台灣第一個行銷資料科學(MDS)知識部落,本粉絲專頁在探討行銷資料科學之基礎概念、趨勢、新工具和實作,讓粉絲們瞭解資料科學的行銷運用,並開啟厚植數據分析能力之契機。粉絲專頁:https://www.facebook.com/MarketingDataScienceTMR