建置中的網頁如何處理?ROBOTS.TXT與Meta有什麼差異?

網站擁有者都希望網站能被大量收錄,但當網頁尚未建置完成時,被收錄可能對網造成負面的影響,為了不被搜尋收錄,有兩種常見的作法:提交ROBOT.TXT以及撰寫頁面中的Meta。

什麼是Meta

Meta可以當作是網頁的介紹,就像社群平台中,我們常常利用tag來尋找相關的內容,Meta也是有同樣的用意,但Meta是寫給搜尋引擎看的簡介,告訴搜尋引擎網站的內容包含什麼,讓搜尋引擎更快速的檢索網站內容。

什麼是ROBOTS.TXT

ROBOTS.TXT又稱為爬蟲協議、爬蟲規則,是一個撰寫搜索規則的文字檔,大部分被放置於網頁的根目錄中,透過ROBOTS.TXT,你可以清楚告知搜尋引擎,希望那些頁面被搜尋引擎收錄、或者不收錄,搜尋引擎在收錄網站時也會率先參考網頁的ROBOTS.TXT。

Meta vs ROBOTS.TXT

設定Meta與ROBOTS.TXT並不衝突,但存在差異性,ROBOTS.TXT是針對整個網站或部分網站,建立「爬蟲檢索規則」,透過文檔告訴爬蟲,如果沒有特別備註,爬蟲就會自由地檢索網站,而於META則是針對單一頁面,設定NOINDEX是告知爬蟲該頁面不要「收錄」。

如何設置ROBOTS.TXT?

ROBOTS.TXT的設置方式並不困難,於根目錄中加入ROBOT.TXT檔案即可,一般的文字檔會允許搜尋引擎收錄,甚至是新增site.map讓爬蟲更快速的收錄。

正常的情況如下

User-agent: *

Disallow:

如果不希望某個頁面被檢索

User-agent: *

Disallow: /example.html

當然,你也可以禁止某些瀏覽器的爬蟲檢索你的網站

User-agent: Googlebot
Disallow: /
User-agent: *
Allow: /

撰寫完規則後大致上就完成代碼的設置,不過,需要注意的是,代碼設置需要謹慎,如果不小心設置到全部不收錄,會對網站的排名造成很大的影響,此外,搜尋引擎未必對ROBOTS.TXT照單全收,如果你的網站排名很高或者有很多的反向連結,搜尋引擎還是會將你的網頁收錄。

除了自行設定ROBOTS.TXT,許多網站也提供內建的ROBOTS.TXT功能,如文筆網路的高階版官網,可以讓用戶將在後台設置好ROBOT.TXT,不必擔心代碼設置錯誤影響SEO。

以上是關於ROBOT.TXT的介紹,如果你有建站的需求,文筆響應式網站架站服務除了提供最新的高穩定性AWS佈署與CDN技術架構外,也提供SSL憑證申請服務,讓你的網站資訊更加安全;想了解更多資訊,歡迎參考響應式網頁服務介紹

--

--

ttnet.net
ttnet.net 文筆知識補給站

長期深耕大中華市場,旨在推廣台灣中小企業,成為國際品牌。文筆知識補給站(https://medium.com/ttnet-net)分享最新業內外新知,讓您最新資訊不漏接。