5 điều nên tránh để google index website của bạn. Đôi lúc có thể bạn đang chặn Google mà chính bạn cũng không hay biết. Điều này có nghĩa là Google sẽ không thể index tất cả các trang web trong website của bạn. Trong bài viết này, bạn sẽ biết được làm thế nào để chặn Google và làm thế nào để đảm bảo rằng bạn không vô tình chặn đi Google.
Đôi lúc có thể bạn đang chặn Google mà chính bạn cũng không hay biết. Điều này có nghĩa là Google sẽ không thể index tất cả các trang web trong website của bạn. Trong bài viết này, bạn sẽ biết được làm thế nào để chặn Google và làm thế nào để đảm bảo rằng bạn không vô tình chặn đi Google.
Những Điều Vô Tình Làm Cho Google Không Index Website Của Bạn
1. Lỗi trong file robots.txt của website sẽ chặn Google lại
Câu lệnh “disallow” trong file robots.txt là cách dễ dàng nhất để loại bỏ một file hoặc cả một thư mục khỏi việc đánh dấu chỉ mục của Google. Để loại ra những file riêng rẻ, thêm dòng sau vào file robots.txt:
User-agent: * Disallow: /directory/ten-file.html
Để loại ra toàn bộ thư mục nào đó, sử dụng câu lệnh:
User-agent: * Disallow: /first-directory/ Disallow: /second-directory/
Nếu website của bạn có file robots.txt, kiểm tra thật kỹ file robots.txt đó để chắc chắn rằng bạn không loại những thư mục mà bạn muốn nhìn thấy trên kết quả tìm kiếm của Google.
Lưu ý thằng những vị khách truy cập vào website của bạn vẫn sẽ thấy những trang mà bạn loại ra trong file robots.txt. Kiểm tra website của bạn với Công cụ đánh giá website hoặc dịch vụ khác như http://www.seoprofiler.com để xem có bất cứ vấn đề nào với file robots.txt
2. Sử dụng thẻ meta robots noindex và Google sẽ bỏ bạn mà đi
Thẻ meta robots noindex cho phép bạn nói với robots của bộ máy tìm kiếm một trang riêng rẻ trong website không nên được đánh chỉ mục. Để loại trang web ra khỏi kết quả tìm kiếm, thêm đoạn code sau trong phần <head> của trang web:
<meta name=”robots” content=”noindex, nofollow”>
Trong trường hợp này, bộ máy tìm kiếm sẽ không thể đánh chỉ mục trang web và cũng không thể theo dấu những liên kết (links) trong trang này. Nếu bạn muốn bộ máy tìm kiếm theo dấu liên kết trong trang web, sử dụng:
<meta name=”robots” content=”noindex, follow”>
Trang web sẽ không xuất hiện trong kết quả tìm kiếm nhưng những liên kết vẫn được theo dấu. Nếu bạn muốn chắc chắn rằng Google sẽ index tất cả các trang, bỏ thẻ robots này đi.
Thẻ meta robots noindex chỉ tác động đến những robot của bộ máy tìm kiếm. Những khách thông thường của website vẫn có thể nhìn thấy trang web của bạn, công cụ đánh giá website như seoprofiler sẽ giúp bạn tìm ra vấn đề gặp phải nếu có từ thẻ meta robots noindex.
3. Sai mã trạng thái HTTP (HTTP Status Code) sẽ đưa Google ra đi.
Mã trạng thái từ máy chủ (HTTP Status Code) cho phép bạn đưa những khách hàng thật và robots của công cụ tìm kiếm đến những nơi khác nhau trên website của bạn. Một trang web thường có mã trạng thái “200 OK”. Ví dụ, bạn có thể sử dụng những mã sau đây:
301 moved permanently – 301 redirect (điều hướng 301): thẻ điều hướng 301 sẽ gửi request hiện tại và những request tương lai đến một URL mới.
403 forbidden: máy chủ sẽ từ chối đáp ứng lại request.
Để tối ưu bộ máy tìm kiếm (SEO), mã điều hướng 301 nên được sử dụng nếu bạn muốn đảm bảo khách hàng của trang web cũ sẽ được chuyển tới trang web mới.
Công cụ đánh giá website sẽ chỉ ra những trang web gặp phải lỗi trạng thái này.
4. Google sẽ không thể đánh chỉ mục những trang web được bảo vệ bởi password.
Nếu bạn đặt password bảo vệ trang web, chỉ những người khách nào biết được password mới có thể xem nội dung của trang đó.
Robots của bộ máy tìm kiếm sẽ không thể truy cập vào website. Trang web có password bảo vệ có thể gây ra những tác động tiêu cực đến trải nghiệm người dùng vì vậy bạn nên kiểm tra kỹ lưỡng trước khi áp dụng điều này.
5. Nếu trang web của bạn yêu cầu Cookie hay Javascript, Google có thể không lập chỉ mục được trang web của bạn.
Cookie và Javascript cũng có thể giữ Robots của bộ máy tìm kiếm ra xa khỏi cửa “nhà” bạn. Ví dụ, bạn có thể ẩn nội dung bằng cách chỉ cho phép những User Agents nào chấp nhận cookie truy cập .
Bạn cũng có thể sử dụng những mã Javascript phức tạp để tạo ra nội dung. Hầu hết những robots của bộ máy tìm kiếm không thực thi Javascript phức tạp vì vậy chúng không thể nào đọc được trang web của bạn.
Nhìn chung, bạn muốn Google index những trang trong website. Hãy kiểm tra thật kỹ những mục trên, sử dụng một số công cụng đánh giá website để xem lại có lỗi nào trong website của mình hay không. Từ đó loại bỏ việc Google không để đánh chỉ mục một hay một vài trang web.
CHÚC CÁC BẠN THÀNH CÔNG!!!