建置中的網頁如何處理?ROBOTS.TXT與Meta有什麼差異?
網站擁有者都希望網站能被大量收錄,但當網頁尚未建置完成時,被收錄可能對網造成負面的影響,為了不被搜尋收錄,有兩種常見的作法:提交ROBOT.TXT以及撰寫頁面中的Meta。
什麼是Meta
Meta可以當作是網頁的介紹,就像社群平台中,我們常常利用tag來尋找相關的內容,Meta也是有同樣的用意,但Meta是寫給搜尋引擎看的簡介,告訴搜尋引擎網站的內容包含什麼,讓搜尋引擎更快速的檢索網站內容。
什麼是ROBOTS.TXT
ROBOTS.TXT又稱為爬蟲協議、爬蟲規則,是一個撰寫搜索規則的文字檔,大部分被放置於網頁的根目錄中,透過ROBOTS.TXT,你可以清楚告知搜尋引擎,希望那些頁面被搜尋引擎收錄、或者不收錄,搜尋引擎在收錄網站時也會率先參考網頁的ROBOTS.TXT。
Meta vs ROBOTS.TXT
設定Meta與ROBOTS.TXT並不衝突,但存在差異性,ROBOTS.TXT是針對整個網站或部分網站,建立「爬蟲檢索規則」,透過文檔告訴爬蟲,如果沒有特別備註,爬蟲就會自由地檢索網站,而於META則是針對單一頁面,設定NOINDEX是告知爬蟲該頁面不要「收錄」。
如何設置ROBOTS.TXT?
ROBOTS.TXT的設置方式並不困難,於根目錄中加入ROBOT.TXT檔案即可,一般的文字檔會允許搜尋引擎收錄,甚至是新增site.map讓爬蟲更快速的收錄。
正常的情況如下
User-agent: *
Disallow:
如果不希望某個頁面被檢索
User-agent: *
Disallow: /example.html
當然,你也可以禁止某些瀏覽器的爬蟲檢索你的網站
User-agent: Googlebot
Disallow: /
User-agent: *
Allow: /
撰寫完規則後大致上就完成代碼的設置,不過,需要注意的是,代碼設置需要謹慎,如果不小心設置到全部不收錄,會對網站的排名造成很大的影響,此外,搜尋引擎未必對ROBOTS.TXT照單全收,如果你的網站排名很高或者有很多的反向連結,搜尋引擎還是會將你的網頁收錄。
除了自行設定ROBOTS.TXT,許多網站也提供內建的ROBOTS.TXT功能,如文筆網路的高階版官網,可以讓用戶將在後台設置好ROBOT.TXT,不必擔心代碼設置錯誤影響SEO。
以上是關於ROBOT.TXT的介紹,如果你有建站的需求,文筆響應式網站架站服務除了提供最新的高穩定性AWS佈署與CDN技術架構外,也提供SSL憑證申請服務,讓你的網站資訊更加安全;想了解更多資訊,歡迎參考響應式網頁服務介紹。