一起來認識Crawl Budget,大網站才需要擔心它
Google說,如果你的網站URL 不多於1000個,基本上不需要擔心不被爬取的問題。
什麼是Crawl Budget
搜尋引擎在檢索網站時,會派出它的蜘蛛負責這項工作,但世界上有高達上億個網站,每個網站的提供的資訊正確與否以及更新的時間長短都不同,再加上有這麼多數據,並不是一時半刻就能完成的事情,為了讓蜘蛛可以有效率的抓取,搜尋引擎會針對不同大小的網站、它更新的時間、內容品質高低而調整蜘蛛去拜訪的時間,而每天蜘蛛去抓取的URL 數量,就是所謂的Crawl Budget。根據Google 的說法,Crawl Budget 又是由 Crawl Rate Limit 與 Crawl Demand 兩者組合而成的。
什麼是Crawl Rate Limit
為了給使用者良好的體驗,不排擠使用者的使用前提下,搜尋引擎設定了檢索率的限制 — Crawl Rate Limit,而這個限制又受到兩種因素的影響:Crawl Health 與 Limit set in Search Console,前者是網站的速度,後者則是可以在站長工具中做調整,去減少蜘蛛來網站檢索的速度。
什麼是Crawl Demand
就算檢索沒有達到限制,如果在搜尋引擎上,沒有需求的話,搜尋引擎蜘蛛也會減少來網站的次數。而在Crawl Demand 中影響最大的兩個關鍵是URL的權重與網站是否時常更新。
要怎麼知道我的網站Crawl Budget 是多少?
你可以到Google Search Console 中,選擇你要查詢的網站後,點「檢索」下的「檢索統計資料」,第一行「每日檢索的網頁數目」就會是Google 搜尋引擎蜘蛛每天抓取的情形,右側的「平均數目」就會是你的Crawl Budget,當然這個數字會隨著網站裡的變化,還有搜尋引擎蜘蛛檢索的情形而有所不同!

什麼時候Crawl Budget會影響我的網站?
Dan Taylor,一位SEO專家在Oncrawl的文章中提到,你可以將網站被收錄的數目(可以透過搜尋 site:你的網站 取得)除以平均每日檢索數目(上圖中紅色框的數字),獲得一個值,這個值所代表的數字是搜尋引擎花多久時間才能爬完整個網站,如果小於5,那你的網站就不需要煩惱Crawl Budget 的問題;若是值大於10,你就必須要優化你的網站,以讓搜尋引擎蜘蛛花較少的時間更新你的網站收錄狀況。
網站被收錄數目 / 平均每日檢索數目 = 搜尋引擎花多久時間才能爬完整個網站以我自己先前經營的痞客邦部落格為例,site:指令下Google 所收錄的頁面大約為2490個頁面,而平均每日檢索數目則為上圖的1154,兩者相除:2490 ÷ 1154 = 2.157,小於5,所以Crawl Budget 對我的網站來說並不會造成大問題!

優化你的Crawl Budget
1. 移除重複的頁面
有些網站會因為程式的問題,導致一個頁面有很多的網址,造成很多一模一樣的頁面但是URL不同,如果有這種情形,可以移除多餘的URL,或是利用canonical tag 整合重複的網址。
2. 移除無效連結
無效的連結和檢索錯誤都會讓搜尋引擎更難檢索到網站的內容。利用Google Search Console 或是其他檢索軟體,找到無效的連結,看是要移除或是修復它!
3. 寫有份量的文章、時常更新網站
比起寫很多小文章,不如將份量少的文章集結成一篇字數足夠,有內容的文章,無論是優化Crawl Budget也好,對整體SEO來說也是只有利大於弊。時常更新網站,讓搜尋引擎知道你的網站擁有最新的資訊,不僅搜尋引擎樂見,使用者也比較喜歡有更新的網站。
4. 提高網站載入速度
就像先前所提到的,網站速度影響的不只是使用者體驗,還有搜尋引擎蜘蛛來的頻率。因為搜尋引擎到你的網站檢索,也會占用伺服器的空間,拖垮網站的速度,就這樣的惡性循環下,搜尋引擎蜘蛛會減少光臨的次數,所以網站速度真的很重要!
其實寫到這裡,很多優化的方法都是大家所熟知,或是很多SEO 專家多次提及的不二法門,但這也證實了,SEO優化沒有捷徑,打好基本功,就是最重要的事情!
參考網站
