Robots.txt là cái chi chi, Sitemap là gì? Và tại sao ta cần đến chúng ?

Hieu Do
SotaTek
Published in
6 min readDec 13, 2018
Robots.txt và Sitemap

GIỚI THIỆU
Tìm kiếm gần như đã trở thành một nhu cầu thiết yếu cho hầu hết tất cả mọi người dù cho người đó là ai, ngành nghề hoặc nhu cầu cá nhân nào. Người dùng luôn luôn tìm một công cụ tìm kiếm an toàn và nhanh chóng mà có thể tạo ra kết quả thành công theo truy vấn tìm kiếm của họ ngay trên trang đầu tiên.
Mỗi công cụ tìm kiếm như Google, BING hay Yahoo đều có một con Bot của riêng mình. Chúng sẽ lùng sục trên website của chúng ta để tìm kiếm và phân loại từ khóa. Nhưng các công cụ tìm kiếm khó có thể duyệt hết các page trong website hoặc không biết page nào có độ ưu tiên cao hơn, page nào ta không muốn xuất hiện trên kết quả tìm kiếm.
Đây là lúc Sitemap Robots.txt phát huy tác dụng, chúng sẽ như một chiếc bản đồ giúp dẫn đường chỉ lối khi bot crawl dữ liệu.
Chúng ta hãy cùng tìm hiểu cách vẽ chiếc "bản đồ" này ở phần dưới nhé!!!!

1. Sitemap là gì ? Viết Sitemap như thế nào?

Chiêc "bản dồ" có đuôi .xml

XML Sitemap đúng với cái tên của nó, được xem như là một tấm bản đồ của website, nó thực hiện hai chức năng chính sau:

  1. Với người dùng:
    Giúp người dùng biết được website có những mục nào. Giúp phục vụ nhu cầu và trải nghiệm người dùng
  2. Với công cụ tìm kiếm
    Sitemap sẽ giúp "dẫn đường chỉ lối" cho bot tìm kiếm đi thu thập thông tin.
    Sitemaps bao gồm những tệp file XML liệt kê tất cả những đường dẫn (URL) có trong website cũng với siêu dữ liệu bổ sung cho mỗi đường dẫn đó.
    Ví dụ :
    - Bài viết được cập nhật lần cuối khi nào
    - Mức độ thay đổi thường xuyên của nội dung
    - Mức độ ưu tiên so với các nội dung khác
    .......
    Điều này sẽ công cụ tìm kiếm (Chủ yếu là Google) có thể thu thập và xử lý thông tin một cách thông minh & chính xác hơn. Hơn nữa đây cũng là một tiêu chí vô cùng quan trọng để các công cụ tìm kiếm đánh giá website của chúng ta.
    Việc tạo sitemap đặc biệt quan trọng đối với các website mới, vì những website mới luôn gặp khó khăn về vấn đề index , XML sitemap sẽ thay mặt bạn nói với Google “Tôi có website mới, hãy vào do thám và index website của tôi đi!”.

Viết Sitemap như thế nào ?

Đọc đến đây chắc các bạn cũng đã hiểu được phần nào tầm quan trọng của sitemap với các công cụ tìm kiếm rồi phải không. Vậy việc viết sitemap như thế nào ? Có khó không ?
Thật sự việc viết sitemap không khó nhưng nó tốn khá nhiều thới gian nếu làm một cách thủ công. Với mỗi đối tượng đường dẫn ta cần viết trong file xml như ví dụ sau:

<url>
<loc>https://sotatek.com/</loc>
<lastmod>2018–12–13T06:59:03+00:00</lastmod>
<priority>1.00</priority>
</url>

Trong đó lastmod thể hiện lần chỉnh sửa cuối cùng, priority là sự ưu tiên của page trong website của bạn theo giá trị tăng dần từ 0.1 đến 1.

Nếu với 100 hay 1000 đường dẫn thì khá là dài phải không? Nhưng bạn đừng lo lắng bởi hiện giờ đã có rất nhiều công cụ giúp tạo sitemap tự động. Cùng làm theo mình nhé:

B1: Truy cập trang web http://www.xml-sitemaps.com/
B2: Nhập url vào input vd: https://sotatek.com

B3: Nhấn nút Start và đợi chờ trong hạnh phúc thôi, https://www.xml-sitemaps.com sẽ tìm kiếm tất cả url và tạo file sitemap.xml giúp bạn.

B4: Sau khi xử lý xong, ta sẽ tải file sitemap.xml về và cần một text editor mở file sitemap.xml để set thông số Priority cho các url theo ý bạn.
-Lưu ý phần này: Thông số Priority quy định sự quan trong của các url đối với website của bạn. Với những URL quan trọng bạn nên cho điểm cao hơn, cao nhất là 1.0 và thấp nhất 0.10.

B5: Up file xml lên website (Ngang bằng với file index của bạn)
B6: Vào công cụ seo Google Webmaster Tools để cập nhật sitemap.

Như vậy là ta đã hoàn thành Sitemap rồi đó .Thật là đơn giản phải không ?

Tiếp theo ta sẽ tìm hiểu đến file Robots.txt và tầm quan trọng của nó nhé!

2. Tìm hiểu về robots.txt

Nói một cách ngắn gọn và dễ hiểu nhất thì Robots.txt là một dạng text đặc biệt ( không phải là HTML hay XML giống sitemap ). Nó giúp cho các webmaster linh hoạt hơn và nhận thức được việc cho hay không cho bot của các công cụ tìm kiếm ( SE ) đánh chỉ mục(index) một khu vực nào đó trong website của bạn.
VD: File robots.txt của https://sotatek.com/

User-agent: *
Crawl-delay: 10
Disallow: /admin
Disallow: /cgi-bin/

Robots.txt hoạt động như thế nào ?

Ở phần dưới mình sẽ liệt kê những chức năng chính của robots.txt đi kèm với ví dụ luôn cho các bạn dễ hiểu nhé.
1. Không cho bot truy cập vào những thư mục không mong muốn
Lâý luôn ví dụ ở trên nhé

Disallow: /cgi-bin/

Điều này có nghĩa là cho phép tất cả các loại bot thu thập tất cả các thư mục chỉ trừ thư mục cgi-bin

2. Chặn 1 trang khỏi search engine

Disallow: /admin

Có nghĩa là trang admin đang bị chặn

3. Đặt thời gian delay giữa mỗi request của bot

Crawl-delay: 10

Thời gian delay giữa mỗi request của bot đang là 10s. Nó sẽ giúp server của bạn giảm tải khi không cho phép bot gửi request liên tục.

4. Chặn một bot nào đó

User-agent:SpamBot
Disallow: /

User-agent: *
Disallow: /cgi-bin/

Để bắt đầu chỉ định mới thì bạn hãy đặt một dòng trắng. Như ví dụ ở trên thì SpamBot đã bị cấm truy cập tất cả tài nguyên. Trong khi các bot khác được truy cập tất cả trừ thư mục cgi-bin.
Tương tự bạn cũng có thể thay SpamBot bằng Googlebot của Google, Bingbot của Bing hay Slurp của Yahoo để chặn các search engine trên index website của mình.
List các bot thông dụng các bạn có thể xem ở link này nha!

Lưu ý khi sử dụng robots.txt:

  • Mỗi một câu lệnh nên viết trên 1 dòng.
  • Robots.txt có phân biệt chữ hoa và chữ thường.
  • Không chèn thêm bất kỳ ký tự nào khác ngoài các cú pháp lệnh.
  • Không được viết thừa hay thiếu khoảng trắng.

Giống như sitemap, bạn cần upload robots.txt lên ngang bằng với file index của bạn và submit với Google.

3. KẾT

Như vậy qua bài viết trên chúng ta cũng đã phần nào hiểu thêm về sitemap robots.txt đúng không nào. Rất mong nhận được sự đóng góp thêm của các bạn.

Chân thành cảm ơn các bạn đã theo dõi, nhớ like và share nếu bạn thấy hữu ích nhé.

--

--