Tự Học Làm SEO

Crawler traps trong SEO là gì? Cách nhận biết và phòng tránh

Crawler traps hay còn gọi là bẫy trình thu thập thông tin có lẽ là một khái niệm còn rất mới mẻ với nhiều người. 

Tuy nhiên, nếu đã có mặt trong bài viết này thì tôi nghĩ rằng bạn nên tìm hiểu nó ngay vì nó có thể gây ra những ảnh hưởng đến quá trình thu thập thông tin và tổn hại nghiêm trọng đến hiệu suất SEO của bạn.

Vậy thì crawler traps là gì? Nó có tác động thế nào đến SEO? Làm cách nào để xác định và tránh chúng? Đó sẽ là những thông tin mà Hoài Đoàn muốn chia sẻ đến bạn trong bài viết này. Cùng tìm hiểu ngay bây giờ nhé!

Crawler traps là gì?

Crawler traps hay bẫy tình thu thập thông tin là một vấn đề cấu trúc trong một trang web khiến trình thu thập thông tin tìm thấy một số lượng gần như vô hạn các URL không liên quan. 

Về lý thuyết, trình thu thập thông tin có thể sẽ bị kẹt trong một phần của trang web và không bao giờ việc thu thập thông tin các URL liên quan. Đó là lý do tại sao chúng được gọi là bẫy trình thu thập thông tin.

crawler traps

Crawler traps tác động thế nào đến SEO?

Như tôi đã đề cập ở đầu bài, crawler traps có thể gây ảnh hưởng đến quá trình thu thập thông tin và lập chỉ mục, cuối cùng là đến thứ hạng website của bạn.

Sau đây là những tác động mà trình thu thập thông tin có thể gây nên.

Gây ra các vấn đề về ngân sách thu thập thông tin

Ngân sách thu thập thông tin là số trang mà công cụ tìm kiếm sẵn sàng truy cập khi thu thập thông tin trên trang web. Về cơ bản, đó là sự chú ý mà các công cụ tìm kiếm sẽ cho website của bạn.

Giả sử khi crawler traps xuất hiện và chúng chỉ dẫn trình thu thập thông tin đến các trang không liên quan đến SEO. Khi đó, ngân sách thu thập thông tin sẽ bị lãng phí vì không mang lại giá trị nào.

crawler traps

Hay nói cách khác, khi các công cụ tìm kiếm thu thập thông tin các trang không liên quan này, chúng sẽ không dành sự quan tâm vào các trang quan trọng mà bạn đang muốn xếp hạng.

Có thể bạn đang tự hỏi rằng “không lẻ các công cụ tìm kiếm không thể phát hiện được bẫy thu thập thông tin sao?”.

Tất nhiên là có thể phát hiện được nhưng không điều gì hoàn toàn đảm bảo cả. Và đặc biệt, để các bot tìm kiếm chỉ có thể nhận ra chúng đang ở trong một bẫy thu thập thông tin khi đã đi qua một cái bẫy trước đó và đến lúc này thì mọi thứ đã quá muộn vì ngân sách thu thập thông tin đã bị lãng phí rồi.

Tạo ra các nội dung trùng lặp

Crawler traps còn là một nguyên nhân gây ra các nội dung trùng lặp trên trang web của bạn. Tại sao? Bởi vì chúng làm cho nhiều trang có chất lượng thấp có thể truy cập và lập chỉ mục cho các công cụ tìm kiếm.

Cách xác định bẫy thu thập thông tin

 Mặc dù đôi khi, các trình thu thập thông tin khó xác định đâu là crawler traps, nhưng với một người am hiểu về web thì điều này không hề khó khăn.

Bạn chỉ cần biết những URL nào nên được thu thập thông tin và sau đó đánh giá xem liệu các URL không nên được thu thập có đang được thu thập hay không.

Hãy chú ý đến các mẫu URL sau:

  • Checkout và liên quan đến tài khoản: admin, cart, checkout, favorite, password, register, sendfriend, wishlist
  • Liên quan đến các tệp lệnh: cgi-bin, includes, var
  • Liên quan đến đặt hàng và lọc: filter, limit, order, sort
  • Liên quan đến phiên: sessionid, session_id, SID, PHPSESSID
  • Một số khác: ajax, cat, catalog, dir, mode, profile, search, id, pageid, page_id, docid,doc_id
crawler traps

Có 4 cách để thực hiện điều này:

  1. Chạy thu thập thông tin
  2. Toán tử tìm kiếm nâng cao trong Google
  3. Kiểm tra thông số URL  trong Google Search Console
  4. Phân tích tệp nhật ký

Chạy thu thập thông tin riêng của bạn

Thu thập thông tin trang web bằng ContentKing và đi qua tập dữ liệu của bạn để tìm kiếm các mẫu URL được đề cập ở trên. Đồng thời, cuộn qua toàn bộ danh sách URL của bạn.

Sắp xếp dựa trên điểm mức độ liên quan (để các URL ít quan trong được liệt kê ở đâu tiên) sẽ giúp bạn dễ dàng tìm thấy các URL không nên được thu thập tin.

Những kết quả điển hình mà bạn thu được có thể là:

  • URL có tham số truy vấn (chứa dấu? Và / hoặc dấu &) – Ví dụ: http://www.example.com/shoes?sex=men&color=black&size=44&sale=no và http://www.example.com/calendar/events?&page=1&mini=2015-09&mode=week&date=2021-12-04
  • URL có các mẫu lặp lại – Ví dụ: http://www.example.com/shoes/men/cat/cat/cat/cat/cat/cat/cat/cat/cat/
  • Các trang có tiêu đề, mô tả meta và tiêu đề – Trùng lặp Tìm kiếm các trang có tiêu đề, mô tả meta và tiêu đề trùng lặp là một cách tuyệt vời để tìm các bẫy thu thập thông tin tiềm năng.
crawler traps

Toán tử tìm kiếm nâng cao trong Google

Sử dụng toán tử tìm kiếm nâng cao trong Google để tìm các mẫu URL đã được đề cập ở trên theo cách thủ công.

Sử dụng site: toán tử, bạn yêu cầu các công tìm kiếm chỉ tìm kiếm trong một miền nhất định, đồn thời inurl: cho biết bạn chỉ  đang tìm kiếm các trang có một mẫu URL nhất định.

Các mẫu truy vấn:

  • site:example.com inurl:filter
  • site:example.com inurl:wishlist
  • site:example.com inurl:favorite
  • site:example.com inurl:cart
  • site:example.com inurl:search
  • site:example.com inurl:sessionid

Kiểm tra thông số URL trong Google Search Console

Khi bạn chuyển đến Tham số URL trong Google Search Console, bạn sẽ tìm thấy tất cả các URL mà Google tìm thấy trong khi thu thập dữ liệu trang web của bạn.

Phân tích các tệp nhật ký

Một phương pháp hiệu quả khác để tìm thấy các mẫu URL này là đi qua các tệp nhật ký trên máy chủ web của bạn. Các tệp này là bản ghi của tất cả các yêu cầu được thực hiện đến máy chủ, bao gồm khác truy cập và công cụ tìm kiếm.

Làm thế nào để tránh khỏi crawler traps?

Các loại bẫy thu thập thông tin phổ biến thường gặp hiện nay là:

  • URL có tham số truy vấn: những URL này thường dẫn đến URL duy nhất vô hạn.
  • Vòng lặp chuyển hướng vô hạn : URL tiếp tục chuyển hướng và không bao giờ dừng lại.
  • Liên kết đến tìm kiếm nội bộ: liên kết đến các trang kết quả tìm kiếm nội bộ để cung cấp nội dung.
  • Nội dung được tạo động: nơi URL được sử dụng để chèn nội dung động.
  • Trang lịch vô hạn: nơi có lịch hiện có liên kết đến các tháng trước và sắp tới.
  • Liên kết bị lỗi: các liên kết trỏ đến URL bị lỗi, tạo ra nhiều URL bị lỗi hơn.

Dưới đây là chi tiết về từng loại và tránh né tránh crawler traps.

crawler traps

URL có tham số truy vấn

Trong hầu hết mọi trường hợp, công cụ tìm kiếm không thể truy cập được các URL có tham số vì chúng có thể tạo ra các URL gần như vô hạn. Bọc lọc sản phẩm là một ví dụ điển hình mà bạn có thể hình dung. 

Vậy tại sao các tham số được đưa vào URL?  Để lưu trữ thông tin, chẳng hạn như tiêu chí lọc sản phẩm, ID phiên hoặc thông tin giới thiệu.

URL mẫu với tiêu chí lọc sản phẩm:

http://www.example.com/shoes?sex=men&color=black&size=44&sale=no

URL mẫu có ID phiên:

http://www.example.com?session=03D2CDBEA6B3C4NGB831

URL mẫu với thông tin giới thiệu:

http://www.example.com?source=main-nav

Lời khuyên

Sử dụng các tham số truy vấn trong URL càng ít càng tốt. Nhưng nếu cần sử dụng, hãy luôn đảm bảo rằng các công cụ tìm kiếm không thể truy cập chúng bằng cách loại trừ chúng trong tệp robots.txt hoặc thiết lập xử lý tham số URL trong Google Search Console.

Đối với trường hợp là nếu bạn có các tham số truy vấn trong URL có nhiều liên kết. Để các công cụ tìm kiếm hợp nhất các tín hiệu thông qua các URL chuẩn thành phiên bản chuẩn của các URL này, chúng cần phải thu thập thông tin được. Khi đó, không cho phép các URL này sử dụng tệp robots.txt.

Cách để sửa chữa và tránh bẫy thu thập thông tin này

Nếu các công cụ tìm kiếm đã lập chỉ mục các trang trên trang web của bạn với các URL tham số, hãy thực hiện theo các bước bên dưới:

  1. Triển khai lệnh ngăn lập chỉ mục của rô bốt đối với các trang này.
  2. Cho các công cụ tìm kiếm một khoảng thời gian để thu thập lại thông tin các trang này và chọn theo yêu cầu của bạn. Đồng thời, có thể ẩn các URL này bằng Google Search Console và Bing Webmaster Tools.
  3. Sử dụng tệp robots.txt để hướng dẫn các công cụ tìm kiếm không truy cập vào các URL này. Nếu đây không phải là một tùy chọn vì lý do nào đó, hãy sử dụng cài đặt xử lý tham số URL trong Google Search Console và Bing Webmaster Tools để hướng dẫn bot tìm kiếm không thu thập dữ liệu các trang này.
  4. Ngoài ra, khi các URL này được giới thiệu qua các liên kết: hãy đảm bảo thêm thuộc tính liên kết nofollow vào các liên kết này. Điều này sẽ dẫn đến việc các công cụ tìm kiếm không theo các liên kết đó.

Hãy nhớ rằng nếu bạn chuyển sang bước 3 ngay lập tức, các công cụ tìm kiếm sẽ không bao giờ có thể nhận lệnh ngăn lập chỉ mục của rô bốt (vì bạn yêu cầu chúng giữ nguyên) và sẽ giữ các URL trong chỉ mục của chúng lâu hơn.

Tuy nhiên, nếu công cụ tìm kiếm chưa lập chỉ mục bất kỳ trang nào có URL tham số, thì chỉ cần thực hiện theo bước 3 và 4 trong số các bước được đề cập ở trên.

Vòng lặp chuyển hướng vô hạn

Vòng lặp chuyển hướng vô hạn là một loạt các chuyển hướng không bao giờ kết thúc. Khi bạn gặp một vòng lặp chuyển hướng trong Google Chrome, đây là những gì bạn sẽ thấy:

crawler traps

Các vòng lặp chuyển hướng khiến khách truy cập bị mắc kẹt trên một trang web và có thể sẽ khiến họ rời đi. Google thường sẽ ngừng theo dõi chuyển hướng sau ba hoặc bốn bước nhảy và điều này làm ảnh hưởng đến ngân sách thu thập thông tin của bạn.

Tất nhiên họ có thể tiếp tục theo các chuyển hướng đó sau một thời gian, nhưng bạn vẫn nên tránh tình huống này.Các vòng lặp chuyển hướng thường là kết quả của việc thực hiện chuyển hướng không đúng cách.

crawler traps

Ví dụ như bạn muốn tất cả URL mà không có một dấu gạch chéo là 301-chuyển hướng đến phiên bản với các dấu gạch chéo, nhưng vì một sai lầm, tất cả các yêu cầu URL với một dấu gạch chéo là cũng 301-chuyển hướng đến phiên bản mà không cần các dấu gạch chéo.

Bạn có thể khắc phục bằng cách sửa cấu hình chuyển hướng của mình.

Trong ví dụ trên, việc xóa chuyển hướng 301 gửi yêu cầu đến các URL có dấu gạch chéo tới phiên bản không có dấu gạch chéo sẽ khắc phục vòng lặp chuyển hướng — và nó cũng tạo ra cấu trúc URL ưa thích luôn có dấu gạch chéo ở cuối.

Liên kết đến tìm kiếm nội bộ

Trên một số trang, các liên kết đến kết quả tìm kiếm nội bộ được tạo để phục vụ nội dung, thay vì có các trang nội dung thông thường. Các liên kết đến kết quả tìm kiếm nội bộ đặc biệt nguy hiểm nếu chúng được tạo tự động. Điều đó có thể tạo ra hàng nghìn trang chất lượng thấp.

Hãy lấy một ví dụ: bạn theo dõi các truy vấn tìm kiếm phổ biến nhất trên trang web và bạn tự động liên kết đến chúng từ nội dung của mình vì bạn nghĩ rằng chúng hữu ích cho người dùng.

Các trang kết quả tìm kiếm này có thể chứa ít kết quả hoặc không có kết quả nào, điều này dẫn đến nội dung chất lượng thấp có thể truy cập được đối với các công cụ tìm kiếm.

Liên kết đến các trang kết quả tìm kiếm nội bộ hiếm khi tốt hơn so với việc có các trang nội dung thông thường.

Nhưng nếu bạn thực sự nghĩ rằng việc hiển thị các liên kết này cho khách truy cập là hữu ích, thì ít nhất hãy làm cho các trang kết quả tìm kiếm nội bộ này không thể truy cập được đối với các công cụ tìm kiếm bằng robots.txt tập tin .

Ví dụ:

Disallow: /search/ #block access to internal search result pages

Disallow: *?s=* #block access to internal search result pages

Nếu sử dụng tệp robots.txt không phải là một tùy chọn vì lý do nào đó, bạn cũng có thể thiết lập xử lý tham số URL trong Google Search Console và Bing Webmaster Tools.

Nội dung được chèn động

Một cách để chèn động nội dung trong trang là chèn nội dung đó thông qua các URL. Điều này rất phức tạp, bởi vì các công cụ tìm kiếm sau đó có thể tìm thấy rất nhiều trang có nội dung chất lượng thấp.

Đây là ví dụ minh họa của crawler traps này:

www.example.com/pants/green/có tiêu đề H1 cho biết: “Mua quần màu xanh lá cây”. Và nó liệt kê những chiếc quần màu xanh lá cây thực tế. Nghe ổn phải không?

Nhưng điều gì sẽ xảy ra nếu www.example.com/pants/pink/trả về trạng thái HTTP 200 và chứa tiêu đề H1 có nội dung “Mua quần màu hồng” … nhưng không hiển thị quần màu hồng thực sự? Chắc chắn là không tốt chút nào.

Đây chỉ là một vấn đề nếu các công cụ tìm kiếm có thể tìm thấy các loại trang này và nếu các trang không có kết quả cũng trả về trạng thái HTTP 200.

Đây là các giải pháp để bạn khắc phục:

  • Đảm bảo rằng không có liên kết nội bộ nào đến các loại trang này.
  • Vì bạn không thể kiểm soát các liên kết bên ngoài, hãy đảm bảo rằng các trang không thể truy cập được và không hiển thị kết quả trả về trạng thái HTTP 404 .
crawler traps la gi

Trang lịch vô hạn

Nhiều trang web chứa lịch để sắp xếp các cuộc hẹn. Điều đó tốt nhưng chỉ khi lịch được triển khai chính xác.

Vấn đề với những lịch này là chúng thường đặt ngày sẽ hiển thị vào URL, và trong khi đó chúng cho phép bạn đi xa hơn, rất xa trong tương lai. Có khi hàng nghìn năm và đó đích thị là một crawler traps.

Cấu trúc URL điển hình cho lịch sẽ là:

  • www.example.com/appointment?date=2021-07 cho tháng 7 năm 2021
  • www.example.com/appointment?date=2021-08 cho tháng 8 năm 2021
  • www.example.com/appointment?date=2021-09 cho tháng 9 năm 2021

Điều này dẫn đến việc các trang không được công cụ tìm kiếm quan tâm, vì vậy bạn cần phải loại bỏ chúng.

Giải pháp cho bạn trong các trường hợp này:

  • Đảm bảo chỉ cung cấp một số tháng hợp lý trong tương lai cho các cuộc hẹn.
  • Thêm nofollow thuộc tính liên kết vào liên kết “Tháng tới và “Tháng trước” của bạn.
  • Làm cho các công cụ tìm kiếm không thể truy cập được URL lịch thông qua tệp robots.txt.

Liên kết bị lỗi

Một loại liên kết bị lỗi cũng có thể tạo ra crawler traps. Điều này thường xảy ra khi mọi người sử dụng URL tương đối và họ bỏ qua dấu gạch chéo đầu tiên.

Hãy xem một liên kết ví dụ:

<a href=”shop/category-x”>Category X</a>

Vấn đề ở đây là dấu gạch chéo đầu tiên trước khi ‘cửa hàng’ bị thiếu. Điều này sẽ đúng:

<a href=”/shop/category-x”>Category X</a>

Điều gì xảy ra nếu bạn sử dụng liên kết sai? Trình duyệt và công cụ tìm kiếm đều sẽ thêm shop/category-phần sau URL hiện tại, dẫn đến: example.com/some-page/shop/category-x/thay vì mục đích example.com/shop/category-x/.

Vào ngày example.com/some-page/shop/category-x/, liên kết đến trang này sẽ trở thành example.com/some-page/shop/category-x/shop/category-x/, và trên trang đó example.com/some-page/shop/category-x/shop/category-x/shop/category-x/, đến vô cùng.

crawler traps

Khi các trang được liên kết không chính xác này trả về mã trạng thái HTTP 200 (“OK”) thay vì 404 (“Không tìm thấy trang”), thì sẽ xảy ra sự cố. Các công cụ tìm kiếm sau đó sẽ cố gắng lập chỉ mục các trang này, dẫn đến nhiều trang chất lượng thấp được lập chỉ mục. 

Crawler traps này đặc biệt tai hại nếu nó được bao gồm trong các yếu tố điều hướng chung, chẳng hạn như điều hướng chính, thanh bên và chân trang. Sau đó, tất cả các trang trên trang web sẽ chứa loại liên kết không chính xác này — bao gồm cả các trang mà bạn đã liên kết sai.

Dưới đây là cách để bạn xử lý khi gặp tình huống này:

  • Giám sát trang web của bạn để tìm các liên kết không chính xác. Nếu bạn làm như vậy, bạn sẽ nhận thấy sự gia tăng đáng kể các trang mới được tìm thấy và bạn sẽ nhanh chóng tìm ra vấn đề.
  • Đảm bảo rằng các trang không tồn tại trả lại mã trạng thái HTTP 404.

Trên đây là toàn bộ các thông tin mà tôi muốn chia sẻ về crawler traps. Hy vọng rằng nó sẽ mang lại nhiều giá trị hữu ích cho việc tối ưu SEO cho website của bạn.

Sau cùng, xin chúc bạn thành công. Cảm ơn vì đã theo dõi bài viết này và đừng quên cập nhật thêm nhiều bài viết về SEO khác của tôi tại đây.

Nguồn tham khảo: https://www.contentkingapp.com/academy/crawler-traps/

Có kinh nghiệm đào tạo SEO tại Trung Tâm Tin Học Đại Học Khoa Học Tự Nhiên (ĐHQG TPHCM) từ 2018

Write A Comment