Dịch vụ của [GMO INTERNET GROUP] chúng tôi đang được rất nhiều khách hàng trong và ngoài nước sử dụng.

Các câu hỏi thường gặp

  • Tạo file robots.txt như thế nào?

    File robots.txt là gì?


    Tạo file robots.txt là một trong những công việc cần làm khi seo onpage. Khi search engine tìm đến (crawl) một website nào đó thì tập tin đầu tiên nó để ý đến là robots.txt. Vậy robots.txt là một file dạng txt có chứa các câu lệnh để định ra các thành phần với quyền hạn riêng biệt cho từng bọ tìm kiếm.
    Thực chất, file robots.txt là một tập tin văn bản đơn giản (không chứa mã HTML) được đặt trong thư mục gốc của website (ngang cấp với file index.htm, index.php, default.aspx,….)
    ví dụ :   http://tentenshop.vn/robots.txt

    Hướng dẫn tạo file robots.txt
    Để tạo tập tin robots.txt, bạn mở file notepad và gõ các lệnh, sau đó lưu lại với tên robots.txt và chép vào thư mục gốc của website.
    3 lệnh cơ bản nhất của 1 tâp tin robots.txt như sau:
    User-agent: *
    Allow: /SEO/
    Disallow: /wp-includes/

    User-agent : dùng để xác định bot của công cụ tìm kiếm nào.
    Allow: cho phép bot vào thư mục, trang nào đó.
    Disallow: chặn bot vào thư mục, trang nào đó.

    Ở ví dụ trên là cho phép tất cả các bot vào thư mục SEO, nhưng không được vào thư mục wp-includes.

    Một vài ví dụ huớng dẫn cách sử dụng Robots.txt 1. Chặn tất cả các bot vào web


    User-agent: *
    Disallow: /

    Với lệnh trên thì không có công cụ tìm kiếm nào lập chỉ mục (index) website của bạn, có nghĩa là các bài viết trên website của bạn sẽ không xuất hiện trong kết quả tìm kiếm của các công cụ tìm kiếm.
    2. Không cho bot truy cập vào một thư mục, trang nào đó

    User-agent: *
    Disallow: /wp-includes/
    Disallow: /test.html

    Điều này có nghĩa là cho tất cả các loại bot truy cập vào website và trừ thư mục wp-includes và trang test.html không được truy cập.
    3. Chặn 1 bot nào đó

    User-agent: SpamBot
    Disallow: /

    User-agent: *
    Disallow: /wp-includes/

    SpamBot bị cấm truy cập tất cả tài nguyên. Trong khi các bot khác được truy cập tất cả trừ thư mục “wp-includes”
    4. Ccho phép bot truy cập vào một thư mục, trang nào đó

    User-agent: *
    Allow: /bai-viet/
    Allow: /demo.html
    Disallow: /wp-includes/

    Cho tất cả bot truy cập vào thư mục bai-viet vài trang demo, nhưng không truy cập được thu mục wp-includes

    5. Chặn bot vào nhiều đường dẫn có cùng cấu trúc

    ví dụ chúng ta có 2 hay nhiêu đường dẫn như sau

    www.abc.com/geolat10=1235345
    www.abc.com/geolat12=1345
    ..

    Chúng ta muốn chặn bot truy cập vào tất các các đường dẫn có dạng nay thì làm thế nào? Các bạn để ý trong URL có chung phần /geolat là cấu trúc giống nhau của 2 hoặc nhiều URL. Chúng ta sẽ dùng đoạn code sau để chặn Chặn bot vào nhiều đường dẫn có cùng cấu trúc

    Disallow: /geolat*

    6. Có bao nhiêu loại bot ?
    Bạn có thể xem danh sách các bot Tại đây

    Những điều nên tránh:

    Không sử dụng các chú thích trong file robots.txt, nó có thể làm cho các spider của search engine bị lầm lẫn.

    Ví dụ:

    “Disallow: support # Don’t index the support directory”

    Không được để khoảng trắng ở đầu dòng lệnh

    Ví dụ:

    User-agent: *
    Disallow: /cgi-bin/

    Không thay đổi trật tự của các dòng lệnh.

    Ví dụ:

    Disallow: /support
    User-agent: *

    Không sử dụng quá một thư mục trong dòng lệnh Disallow.

    Ví dụ:

    User-agent: *
    Disallow: /support /cgi-bin/ images/

    Các search engine không hiểu định dạng trên. bạn nên viết thế này:

    User-agent: *
    Disallow: /support
    Disallow: /cgi-bin/
    Disallow: /images/

    Phải chắc chắn các mệnh đề, từ sử dụng trong lệnh là đúng.

    Ví dụ:

    Thư mục của bạn là “cgi-bin” (viết thường, không viết hoa), nhưng khí vào lệnh, bạn lại viết là “Cgi-Bin” thì các search engine không hiểu được.

    Không nên dùng lệnh Allow trong file robots.txt

    Bởi vì trong website của bạn chắc chắn sẽ có một số trang hoặc một số thành phần bạn không muốn bị người khác “nhòm ngó”. nếu bạn sử dụng lệnh Allow, tất cả mọi ngóc ngách trong website của bạn sẽ bị index.

    Bạn có thể kiểm tra file robots.txt của site bằng cách vào Webmaster Tools của Google (phải đăng nhập tài khoản) vào Site configuration->Crawler access.
    Copy nội dung file robots.txt dán vào ô đâu tiên. Nhấn vào nút Test. Kết quả sẽ hiển thị ở dưới cùng.

Hỗ trợ trực tuyến

Hotline: 024.7108.9999

Kinh doanh Hà Nội
024.7108.9999
Kinh doanh Đà Nẵng
0236.3.886.066
Kinh doanh TP.HCM
028.3848.9197

Đăng ký nhận tin mới

Hãy nhập email để đăng ký nhận thông tin cập nhật mới nhất từ TENTENshop

Kết nối

Đối tác thanh toán