File Robots.txt là gì? Cách tạo file robots.txt cho website

File Robots.txt là gì? Cách tạo file robots.txt cho website - ANTU services

File Robots.txt là công cụ được dùng để giúp các trang web định hướng thu thập những dữ liệu chỉ mục rõ ràng. Nhờ có File Robots.txt mà người sử dụng có để đi đúng đích và truy cập được các trang đúng với mong muốn. Bài viết này, ANTU Services sẽ chia sẻ cho bạn một số thông tin để giúp bạn hiểu hơn về File Robots.txt và biết cách tạo File robots.txt một cách hiệu quả.

File Robots.txt là gì?

File robots.txt được hiểu giống như một tệp tin văn bản có cấu trúc bình thường và hiển thị ở dạng đuôi txt. Tệp tin đó là tập con của REP được viết tắt bởi Robots Exclusion Protocol có khả năng chứa đựng bộ tiêu chuẩn web, truy cập cũng như chỉ mục và mang tới nội dung đó cho người có nhu cầu sử dụng.

Tệp robots.txt đóng vai trò quan trọng trong việc xác định quyền truy cập cho các công cụ tìm kiếm khi duyệt qua trang web. Đối với mọi trang web, đặc biệt là những trang web quy mô lớn hoặc đang trong giai đoạn phát triển, việc sử dụng tệp robots.txt là vô cùng quan trọng.

Thuật ngữ phổ biến file Robots.txt

File Robots.txt là gì? Cách tạo file robots.txt cho website - ANTU services

Hiện nay đã có 5 thuật ngữ thông dụng được sử dụng trong một file robots.txt, đó là:

  • User-agent: Đây được hiểu là tên gọi của các trình thu thập cũng như truy cập dữ liệu trên website. Chẳng hạn như Coprobot hay Googlebot…
  • Disallow: Đây là tính năng được dùng để nhắc nhở cho các User-agent về việc không cho phép tiếp nhận dữ liệu.
  • Allow: Đây là tính năng chỉ dùng cho Googlebot dùng để thông báo rằng File Robots.txt sẽ truy cập trang mặc dù không cho phép.
  • Crawl – delay: Tính năng này nhằm thông báo cho website crawl được bết cần phải mất bao nhiêu thời gian trước khi download và thu thập dữ liệu của trang. Để dùng được tính năng này bạn cần cài đặt Google Search Console còn Googlebot không hỗ trợ tính năng này.
  • Sitemap: đây là nơi chức các Sitemap XML có chức năng kết nối với URL. Các công cụ hỗ trợ sử dụng được tính năng này đó là Yahoo hay Bingo, Google,…

Lợi ích khi tạo file Robots.txt

Việc tạo tệp robots.txt để sử dụng cho trang web hỗ trợ bạn giám sát được việc truy cập các con Bots đến các vùng cố định trên website. Điều này sẽ giúp bạn thấy rõ được những lợi ích khi tạo file robots.txt mang lại:

  • Các thông tin dữ liệu hiển thị được chọn lọc để tránh trùng lặp gây mất thiện cảm của người dùng.
  • Một số phần của trang được mặc định có khả năng bảo mật cao.
  • Các trang tìm kiếm được bảo mật nội bộ không phát tán trên trang kết quả của công cụ tìm kiếm.
  • Nơi đặt của sitemap có quy định một cách rõ ràng.
  • Ngăn chặn Google chỉ mục vào một số tệp không được cho phép trên trang web.
  • Bạn có thể thiết lập thời gian để tránh việc máy chủ của bạn gặp sự cố quá tải khi thu tiền thông tin bằng cách sử dụng lệnh Crawl-delay.

File Robots.txt có hạn chế gì?

File Robots.txt là gì? Cách tạo file robots.txt cho website - ANTU services

Tệp robots.txt đã mang lại vô số lợi ích cho người dùng nhưng thông qua đó vẫn còn tồn tại nhiều hạn chế bạn cần phải hiểu rõ:

  • Bạn có tìm kiếm thất bại vì một số công cụ không cho phép các lệnh trong file robots.txt.
  • Mỗi phần thu thập thông tin sẽ hoạt động theo cách khác nhau.
  • File robots.txt không cho phép nhưng Google vẫn có thể index các website có liên kết.

Cách hoạt động của file Robots.txt

File Robots.txt là gì? Cách tạo file robots.txt cho website - ANTU services

File Robots.txt được tiến hành theo cách thức như sau:

  • Bước 1: File Robots.txt tiến hành phân tích dữ liệu của website để tìm kiếm thông tin bằng các phương pháp có hỗ trợ của các công cụ để liên kết từ web này tới web khác. Từ đó có số lượng thông tin khổng lồ bằng việc thu thập được từ các web. Việc phân tích thông tin này có tên gọi khác là Spidering.
  • Bước 2: File Robots.txt làm nhiệm vụ chỉ mục thông tin để đưa tới những thông tin dữ liệu cần thiết mà người dùng tìm kiếm. Nó có khả năng chứa đựng các thông tin khi các công cụ của Google thực hiện chức năng nhằm thu thập cơ sở dữ liệu trang web. Khi đó, con bots sẽ được hỗ trợ thêm thông tin dữ liệu cho quá trình này.

Bạn hãy chú ý rằng bạn không thực hiện thiết lập file robots.txt trên website hay tệp robots.txt không có lệnh từ các User-agent. Khi đó những con bots sẽ thực hiện tiếp nhận các dữ liệu khác trên website.

Cách kiểm tra file robots.txt trên website

Bạn cần xem xét trang web xem có file robots.txt hay không thì bạn hãy làm các bước dưới đây:

Bước 1: Gõ Root Domain, ví dụ như antu.vn

Bước 2: Sau đó tiến hành chèn /robots.txt ở đuôi, ví dụ như antu.vn/robots.txt và ấn Enter.

Bạn cần chú ý rằng website của bạn đã không thiết lập robots.txt cho WordPress nếu như bạn làm phương pháp kiểm tra bên trên mà không có trang .txt hiển thị.

Một số quy tắc cần bổ sung vào file Robots.txt WordPress

File robots.txt của WordPress đều tiến hành thực hiện một quy tắc cùng thời gian. Nhưng nếu bạn cần dùng các quy tắc khác nhau cho các bot không giống nhau thì bạn hãy tiến hành bổ sung thêm các bộ quy tắc đó vào phần User-agent cho các bot một cách đơn giản.

Chẳng hạn, bạn cần tạo một quy tắc để dùng được cho tất cả các bots. Ngoài ra cần một quy tắc chỉ để áp dụng cho Googlebot thì bạn cần làm như sau:

User-agent: *

Disallow: /wp-admin/

User-agent: Googlebot

Disallow: /

Dựa vào phần này, các bots không liên quan sẽ không dùng được /wp-admin/ nhưng Googlebot sẽ không truy cập được tất cả các dữ liệu tại trang web của bạn.

Cách tạo file Robots.txt cho website WordPress

Áp dụng vào thực tiễn thì tạo robots.txt cho WordPress hỗ trợ các nhà quản trị web linh động hơn cũng như dễ dàng hơn trong việc cung cấp quyền cho các con bots chỉ báo của Google phần lớn trong trang web của mình.

Bạn đã tạo tệp robots.txt nhưng chưa thành công hay bạn muốn thay đổi tệp robots đã có sẵn bằng tệp khác. Hãy quan sát hướng dẫn chi tiết cách tạo robots.txt cho WordPress dưới đây của chúng tôi.

Tạo file robots.txt bằng Yoast SEO

Bước 1: Bạn cần đăng nhập vào trang web đã có sẵn của mình trên WordPress. Khi đó bạn sẽ thấy hệ thống thông tin của WordPress hiện ra.

Bước 2: Tiến hành vào mục SEO, sau đó chọn Tools. Trên màn hình hiển thị rất nhiều chức năng, bạn cần ấn File editor.

Bước 3: Khi đó bạn đã hoàn thành xong các bước và mục robots.txt sẽ hiện ra, bạn có thể tạo file robots.txt một cách nhanh chóng.

Tạo file robots.txt bằng Plugin All in One SEO

Cách tạo file robots.txt bằng việc sử dụng bộ Plugin All in One SEO này được nhiều người ưa chuộng và sử dụng nhất vì nó khá đơn giản. Để tạo file, bạn hãy làm các bước như hướng dẫn:

Bước 1: Tải về tại http://vi.wordpress.org/plugins/all-in-one-seo-pack/ và đăng nhập vào phần giao diện mở đẩu của bộ Plugin All in One SEO Pack.

Bước 2: Tiếp theo bạn chọn mục All in One SEO, sau đó chọn Feature Manager và cuối cùng ấn vào Activate để cấu hình mục Robots.txt.

Bạn cần chú ý rằng All in One SEO sẽ không làm lộ dữ liệu của file robots.txt bằng việc làm mờ đi và không có sự sửa đổi file như khi dùng Yoast SEO. Điều này có phần hạn chế cho người sử dụng vì họ bị động trong việc sửa đổi file robots.txt của WordPress. Nhưng chính điều đó làm giảm đi sự rủi ro cho website bởi yếu tố gây hại.

Tạo file robots.txt qua FTP rồi upload

Bạn có thể tự tạo file robots.txt cho WordPress của bạn bằng phương pháp thủ công mà không cần dùng tới plugin. Để thiết lập file robots.txt WordPress thủ công rồi upload lên cơ sở dữ liệu qua FTP thì cần:

Bước 1: Bạn hãy mở Notepad hay có thể là Textedit để thiết lập mẫu cho file robots.txt WordPress.

Bước 2: Sau đó tiến hành mở FTP và vào phần thư mục public_html để vào chọn file robots.txt. Cuối cùng là ấn vào Upload.

Một số quy tắc cần tuân thủ thiết lập file Robots.txt

Một số nguyên tắc được đề ra khi thiết lập file robots.txt bạn cần chú ý để tránh xảy ra lỗi và gián đoạn quá trình sử dụng:

  • Các file robots.txt WordPress cần được để ở trong các tệp ưu tiên nhất của website để các con bot có thể dễ dàng tìm thấy.
  • File txt có sự phân biệt rõ ràng về loại chữ như in hoa hay chữ thường nên bạn cần chú ý khi đặt tên cho file, mặc định phải là robots.txt.
  • Ở mục Disallow thì bạn không nên để phần mềm plugin hay giao diện themes và để tránh việc các công cụ không nhận diện đúng về trang web.
  • Các file robots.txt chuẩn cũng khi không được sử dụng vì nhiều User-agent không chính thống và các bots sở hữu các mã có hại.
  • Các File robots.txt thường được thiết lập sẵn trên các website để tiện sử dụng các bạn chỉ cần thêm đuôi /robots.txt vào là được. Việc hiển thị một cách công khai như vậy thì ai cũng có thể biết được các web bạn muốn Crawl. Vì thế để bảo mật thông tin bạn cần tránh sử dụng File robots.txt
  • Các tên miền phụ thuộc các tên miền cao cấp thường sử dụng bóc tách file robots.txt. Chẳng hạn như blog.example.com sẽ khác hoàn toàn về file robots.txt với example.com. Đây là phương pháp hiệu quả nhất để nhận định được nơi sitemaps được liên kết với tên miền ở cuối tệp robots.txt.

Một số lưu ý khi dùng file Robots.txt

Để dùng tệp robots.txt một cách tiện lợi bạn cần lưu ý những nội dung sau:

  • Các bots sẽ bỏ theo dõi các liên kết bị web chặn ngoại trừ các liên kết này có kết nối với web khác.
  • Link Juice không truyền được dữ liệu từ web bị chặn về web đích cho nên khi cần truyền dữ liệu qua các trang này bạn không nên chọn thiết lập robots.txt WordPress.
  • File robots.txt được liên kết với các web khác nên khả năng bảo mật thông tin là rất thấp. Bạn không nên dùng các tệp đó để ngăn chặn các dữ liệu mang tính nhạy cảm.
  • File robots.txt cho WordPress không có khả năng chặn các kết quả tìm kiếm từ website.
  • Tất cả các User-agent ở một công cụ giống hệt nhau đều làm theo một quy tắc cố định được đề ra. Vì thế, bạn không cần phải đề ra các lệnh cho các User-agent riêng rẽ. Bạn vẫn làm được việc điều chỉnh chỉ bảo dữ liệu website bình thường.
  • Dữ liệu file robots.txt WordPress sẽ được lưu trữ bởi các công cụ có chức năng tìm kiếm. Tuy nhiên nó sẽ update liên tục trong ngày. Vì thế bạn hãy sử dụng tính năng gửi của trình kiểm tra tệp robots.txt nhằm chỉnh sửa và cập nhật nhanh nhất.

Câu hỏi thường gặp về file Robots.txt

Dưới đây là một số câu hỏi thường gặp về robots.txt và các trả lời tương ứng:

1. Kích thước tối đa tệp robots.txt là bao nhiêu?
Tệp robots.txt có kích thước tối đa là khoảng 500 kilobyte.

2. Vị trí của tệp robots.txt trong WordPress?
Trong WordPress, tệp robots.txt được đặt tại đường dẫn: domain.com/robots.txt.

3. Cách thực hiện chỉnh sửa tệp robots.txt trong WordPress?
Để chỉnh sửa tệp robots.txt trong WordPress, bạn có thể thực hiện theo hai phương pháp: thủ công hoặc sử dụng các plugin WordPress SEO như Yoast. Các plugin này cho phép bạn chỉnh sửa tệp robots.txt dễ dàng từ giao diện quản trị WordPress.

4. Nếu sử dụng lệnh Disallow và Noindex trong robots.txt, điều gì sẽ xảy ra?
Khi sử dụng lệnh Disallow và Noindex, Google sẽ không bao giờ nhìn thấy lệnh Noindex vì nó không thể thu thập dữ liệu từ trang đó.

5. Có thể sử dụng URL đầy đủ thay vì đường dẫn tương đối trong tệp robots.txt cho nhiều trang web không?
Câu trả lời là không, các lệnh của tệp robots.txt (ngoại trừ lệnh Sitemap) chỉ áp dụng cho đường dẫn tương đối. Bạn không thể sử dụng URL đầy đủ trong tệp robots.txt.

6. Làm cách nào để tạm ngừng hoạt động thu thập dữ liệu trang web của tôi?
Bạn có thể tạm ngừng hoạt động thu thập dữ liệu bằng cách trả về mã kết quả HTTP 503 cho mọi URL, bao gồm cả tệp robots.txt. Tuy nhiên, không nên sửa đổi tệp robots.txt để chặn hoạt động thực hiện thu thập dữ liệu của nó.

7. Có cách nào để chặn tất cả các Web Crawler không?
Để chặn tất cả các Web Crawler, bạn có thể truy cập vào cài đặt (Settings) > Đọc (Reading) và chọn tùy chọn “Tích vào ô cạnh Tính năng tìm kiếm”.

Mong rằng sau khi đọc bài viết trên đây của chúng tôi thì bạn đã hiểu hơn về khái niệm file robots.txt là gì và cách tạo file robots.txt cho website một cách nhanh chóng và dễ dàng nhất. Chúc bạn áp dụng cách làm dễ dàng và tạo file thành công!