Nội dung
- shares
- Facebook Messenger
- Gmail
- Viber
- Skype
Gần đây, một trong những độc giả của chúng tôi đã hỏi chúng tôi về các mẹo về cách tối ưu hóa tệp robot.txt để cải thiện SEO. Tệp Robots.txt chỉ dẫn cho các công cụ tìm kiếm biết cách thu thập dữ liệu trang web của bạn, giúp cho SEO cực kỳ mạnh mẽ. Trong bài viết này, chúng tôi sẽ chỉ cho bạn cách tạo một tệp robot.txt hoàn hảo cho SEO.
Robots.txt là gì?
Robots.txt là một file văn bản mà chủ sở hữu trang web có thể tạo để báo cho bot tìm kiếm về cách thu thập dữ liệu và lập chỉ mục tìm kiếm các trang trên website của họ.
Nó thường được lưu trữ trong thư mục gốc còn được gọi là thư mục chính của trang web. Định dạng cơ bản cho tệp robot.txt trông như thế này:
User-agent: [user-agent name] Disallow: [URL string not to be crawled] User-agent: [user-agent name] Allow: [URL string to be crawled] Sitemap: [URL of your XML Sitemap]
Bạn có thể thêm nhiều code để cho phép hoặc không cho phép các URL cụ thể và thêm nhiều sơ đồ trang web (sitemap). Nếu bạn không chỉ định chặn URL, thì các bot tìm kiếm cho rằng chúng được phép thu thập dữ liệu.
Đây là ví dụ về tệp robot.txt có thể trông như sau:
User-Agent: * Allow: /wp-content/uploads/ Disallow: /wp-content/plugins/ Disallow: /wp-admin/ Sitemap: https://example.com/sitemap_index.xml
Trong ví dụ trên, chúng ta đã cho phép các công cụ tìm kiếm thu thập dữ liệu và lập chỉ mục các tệp trong thư mục uploads của WordPress.
Tiếp đó, không cho phép thu thập dữ liệu và lập chỉ mục các plugin và thư mục wp-admin.
Cuối cùng, chúng ta cung cấp thêm sitemap XML.
Bạn có cần Robots.txt cho WordPress không?
Nếu website của bạn không có tập tin robot.txt, thì các công cụ tìm kiếm vẫn sẽ thu thập dữ liệu và lập chỉ mục trang web của bạn. Tuy nhiên, bạn sẽ không thể thông báo cho các công cụ tìm kiếm những trang hoặc thư mục nào họ không nên thu thập dữ liệu.
Điều này sẽ không ảnh hưởng nhiều khi bạn lần đầu tiên bắt đầu một blog và không có nhiều nội dung.
Tuy nhiên, khi trang web của bạn phát triển và có rất nhiều nội dung, thì bạn có thể muốn kiểm soát tốt hơn cách trang web của bạn được thu thập và lập chỉ mục.
Bot tìm kiếm có một hạn ngạch thu thập dữ liệu cho mỗi trang web.
Điều này có nghĩa là họ thu thập dữ liệu một số trang nhất định trong những lần thu thập thông tin. Nếu họ không hoàn thành việc thu thập dữ liệu trên trang web của bạn, thì công cụ sẽ quay lại và tiếp tục thu thập thông tin trong phiên tiếp theo.
Điều này có thể làm chậm tốc độ lập chỉ mục trang web của bạn.
Bạn có thể khắc phục điều này bằng cách không cho phép các bot tìm kiếm cố gắng thu thập dữ liệu các trang không cần thiết như trang quản trị WordPress, tệp plugin và thư mục giao diện themes.
Bằng cách không lập chỉ mục các trang không cần thiết, điều này giúp các công cụ tìm kiếm thu thập đúng dữ liệu bạn muốn.
Một lý do chính đáng khác để sử dụng tệp robot.txt là khi bạn muốn ngăn các công cụ tìm kiếm lập chỉ mục một bài đăng hoặc trang.
Đây không phải là cách an toàn nhất để ẩn nội dung trên website, nhưng nó sẽ giúp bạn ngăn chúng xuất hiện trong kết quả tìm kiếm.
Nhiều blogs hiện nay sử dụng robots.txt khá đơn giản. Nội dung của nó có thể khác nhau, tùy thuộc vào tững loại trang web cụ thể:
User-agent: * Disallow: Sitemap: http://www.example.com/post-sitemap.xml Sitemap: http://www.example.com/page-sitemap.xml
Tệp robot.txt này cho phép các bot lập chỉ mục tất cả nội dung và cung cấp cho máy tìm kiếm một vài liên kết đến sitemap XML khác.
Với WordPress, mình khuyến nghị bạn dùng cấu hình như sau trong robots.txt
User-Agent: * Allow: /wp-content/uploads/ Disallow: /wp-content/plugins/ Disallow: /wp-admin/ Disallow: /readme.html Disallow: /refer/ Sitemap: http://www.example.com/post-sitemap.xml Sitemap: http://www.example.com/page-sitemap.xml
Cài đặt này định hướng các bot tìm kiếm lập chỉ mục tất cả các hình ảnh trong thư mục uploads/. Và không cho phép các bot tìm kiếm lập chỉ mục các tệp WordPress plugin, khu vực quản trị WordPress, tệp readme và bạn quản lý các liên kết refer.
Bằng cách thêm sơ đồ trang web vào tệp robot.txt, bạn có thể dễ dàng hướng dẫn cho các bot của Google tìm thấy tất cả các trang trên trang web của bạn.
Tạo Robots.txt trong WordPress
Có 2 cách để tạo tệp robots.txt trong WordPress. Bạn có thể chọn cho mình cách phù hợp nhất.
Cách 1: Sử dụng Yoast SEO
Nếu bạn sử dụng plugin Yoast SEO, thì có sẵn công cụ tạo robots.txt cho bạn.
Bạn có thể sử dụng để tạo và sửa robots.txt trực tiếp từ trang quản trị WordPress. Truy cập SEO » Tools và nhấn vào liên kết File Editor.
Ở trang kế tiếp, nếu yoast không phát hiện có sẵn file robots.txt, bạn có thể nhấn nút “Create robots.txt file”.
Cấu hình robots.txt Mặc định được tạo bởi Yoast SEO là:
User-agent: * Disallow: /
Cảnh báo: rule trên sẽ chặn tất cả các công cụ tìm kiếm thu thập dữ liệu trang web của bạn. Do vậy, bạn cần xóa đoạn trên.
Sau khi xóa văn bản mặc định, bạn có thể thêm vào quy tắc của riêng mình. Chúng tôi khuyên bạn nên sử dụng định dạng robot.txt lý tưởng mà chúng tôi đã chia sẻ ở trên.
Khi bạn đã hoàn tất, đừng quên nhấp vào nút ‘Save robots.txt file’ để lưu các thay đổi của bạn.
Cách 2: Sửa file Robots.txt sử dụng FTP
với cách này bạn sẽ cần phần mềm kết nối FTP để sửa tệp robots.txt
SAu khi kết nối vào hosting wordpress, bạn sẽ nhìn thấy file robots.txt trong thư mục gốc của website.
Lưu ý: Nếu bạn không thấy, có thể tạo mới file robots.txt
Robots.txt là một file văn bản, có nghĩa là bạn có thể tải nó xuống máy tính và chỉnh sửa bằng bất kỳ trình soạn thảo văn bản đơn giản nào như Notepad hoặc TextEdit. Sau khi lưu các thay đổi, bạn có thể tải nó trở lại thư mục gốc của trang web.
Kiểm tra robots.txt
SAu khi đã tạo luật index cho robots.txt, bạn cũng sẽ cần kiểm tra cú pháp sử dụng công cụ robots.txt tester tool. Hiện này có nhiều công cụ giúp bạn kiểm tra tệp robots.txt, nhưng phổ biến hơn cả là sử dụng chính Google Search Console
Đăng nhập vào tài khoản Google Search Console & chuyển sang giao diện webmaster cũ.
Nhấn vào menu “robots.txt tester” ở trong phần Crawl.
Công cụ sẽ tự động tìm nạp tệp robot.txt và thông báo các lỗi & cảnh báo nếu tìm thấy.
Nếu bạn thích bài viết này, hãy ủng hộ chúng tôi bằng cách đăng ký nhận bài viết mới ở bên dưới và đừng quên chia sẻ kiến thức này với bạn bè của bạn nhé. Bạn cũng có thể theo dõi blog này trên Twitter và Facebook
- shares
- Facebook Messenger
- Gmail
- Viber
- Skype