建置中的網頁如何處理？ROBOTS.TXT與Meta有什麼差異？

Published in

ttnet.net 文筆知識補給站

Jul 21, 2022

網站擁有者都希望網站能被大量收錄，但當網頁尚未建置完成時，被收錄可能對網造成負面的影響，為了不被搜尋收錄，有兩種常見的作法：提交ROBOT.TXT以及撰寫頁面中的Meta。

什麼是Meta

Meta可以當作是網頁的介紹，就像社群平台中，我們常常利用tag來尋找相關的內容，Meta也是有同樣的用意，但Meta是寫給搜尋引擎看的簡介，告訴搜尋引擎網站的內容包含什麼，讓搜尋引擎更快速的檢索網站內容。

什麼是ROBOTS.TXT

ROBOTS.TXT又稱為爬蟲協議、爬蟲規則，是一個撰寫搜索規則的文字檔，大部分被放置於網頁的根目錄中，透過ROBOTS.TXT，你可以清楚告知搜尋引擎，希望那些頁面被搜尋引擎收錄、或者不收錄，搜尋引擎在收錄網站時也會率先參考網頁的ROBOTS.TXT。

Meta vs ROBOTS.TXT

設定Meta與ROBOTS.TXT並不衝突，但存在差異性，ROBOTS.TXT是針對整個網站或部分網站，建立「爬蟲檢索規則」，透過文檔告訴爬蟲，如果沒有特別備註，爬蟲就會自由地檢索網站，而於META則是針對單一頁面，設定NOINDEX是告知爬蟲該頁面不要「收錄」。

如何設置ROBOTS.TXT？

ROBOTS.TXT的設置方式並不困難，於根目錄中加入ROBOT.TXT檔案即可，一般的文字檔會允許搜尋引擎收錄，甚至是新增site.map讓爬蟲更快速的收錄。

正常的情況如下

User-agent: *

Disallow:

如果不希望某個頁面被檢索

User-agent: *

Disallow: /example.html

當然，你也可以禁止某些瀏覽器的爬蟲檢索你的網站

User-agent: Googlebot
Disallow: /
User-agent: *
Allow: /

撰寫完規則後大致上就完成代碼的設置，不過，需要注意的是，代碼設置需要謹慎，如果不小心設置到全部不收錄，會對網站的排名造成很大的影響，此外，搜尋引擎未必對ROBOTS.TXT照單全收，如果你的網站排名很高或者有很多的反向連結，搜尋引擎還是會將你的網頁收錄。

除了自行設定ROBOTS.TXT，許多網站也提供內建的ROBOTS.TXT功能，如文筆網路的高階版官網，可以讓用戶將在後台設置好ROBOT.TXT，不必擔心代碼設置錯誤影響SEO。

以上是關於ROBOT.TXT的介紹，如果你有建站的需求，文筆響應式網站架站服務除了提供最新的高穩定性AWS佈署與CDN技術架構外，也提供SSL憑證申請服務，讓你的網站資訊更加安全；想了解更多資訊，歡迎參考響應式網頁服務介紹。

Written by ttnet.net