Tự Học Làm SEO

Duplicate Content là gì? 13 nguyên nhân và cách xử lý

Duplicate Content là lỗi phổ biến, xảy ra trên rất nhiều website. Nó có thể xuất phát từ vấn đề kỹ thuật hoặc do con người cố tình sao chép nội dung từ những trang web khác.

Tất nhiên đã là lỗi thì nó sẽ gây ra những ảnh hưởng nhất định đến hiệu suất SEO của trang web. Vậy thì Duplicate Content là gì? Đâu là nguyên nhân dẫn đến trùng lặp nội dung? Và làm sao để phát hiện và loại bỏ chúng?

Mời bạn đọc hãy cùng Hoài Đoàn tìm hiểu cụ thể trong bài viết bên dưới!

Duplicate Content là gì?

Duplicate Content hay nội dung trùng lặp là khái niệm dùng để nói về những nội dung hoàn toàn giống nhau hoặc rất giống nhau. Nó có thể là sự trùng lặp giữa các trang trên cùng một website hoặc là với các website khác.

Nói theo một cách khái quát hơn, Duplicate Content là những nội dung không mang lại nhiều giá trị cho người dùng. Vì vậy, những trang ít hoặc không có nội dung cũng có thể được coi là Duplicate Content.

Duplicate Content la gi

Tại sao Duplicate Content lại ảnh hưởng xấu đến SEO?

Duplicate Content sẽ gây tổn hại đến SEO:

  • Khiến cho các công cụ tìm kiếm khó xác định cần phải thu thập thông tin và lập chỉ mục cho URL nào để hiển thị trong kết quả tìm kiếm. Điều này sẽ là giảm hiệu suất SEO vì các phiên bản nội dung trên cùng một website đang tự cạnh tranh với nhau.
  • Các công cụ tìm kiếm khó khăn khi hợp nhất các số liệu liên kết (thẩm quyền, mức độ liên quan và độ tin cậy) cho nội dung. Đặc biệt, khi các trang web khác liên kết đến.
  • Gây lãng phí crawl budget, có thể dẫn đến những trang quan trọng mà bạn đang muốn thúc đẩy không được index và xếp hạng.

Duplicate Content có bị Google phạt không?

Mặc dù Google đã nhiều lần tuyên bố rằng Duplicate Content sẽ không bị phạt:

“Không có hình phạt cho nội dung trùng lặp. Chúng tôi sẽ không hạ thứ hạng của một trang web chỉ vì có nhiều nội dung trùng lặp”. – John Mueller, Nhà phân tích xu hướng quản trị trang web của Google

“Hãy thôi nói về điều này một lần và mãi mãi: Không hề có cái gọi là hình phạt cho nội dung  trùng lặp”. – Susan Moscow, Cựu nhà phân tích xu hướng quản trị trang web của Google

“Google không có hình phạt với những trang web có nội dung trùng lặp”. Gary Illyes, Nhà phân tích xu hướng quản trị trang web của Google.

Tuy nhiên, điều này chỉ diễn ra trong điều kiện nội dung trùng lặp là vô tình chứ không phải cố ý sao chép từ các trang web khác. Nhưng nếu cố tình thao túng kết quả xếp hạng, đánh lừa Google và người dùng hoặc tạo ra những nội dung spam, chắc chắn sẽ có những ảnh hưởng nhất định.

duplicate content co bi phat khong

Đây là những gì Google đã xác nhận:

“Nếu Google phát hiện những nội dung trùng lặp được tạo nên với mục đích thao túng kết quả tìm kiếm và đánh lừa người dùng, chúng tôi sẽ thực hiện một số biện pháp thích hợp trong việc lập chỉ mục và xếp hạng cho trang web liên quan. Thứ hạng của trang web có thể bị ảnh hưởng hoặc nội dung có thể bị xóa index và không còn tìm thấy trong kết quả tìm kiếm nữa”.

Vậy thì vấn đề cần quan tâm ở đây là như thế nào được coi “thao túng kết quả tìm kiếm và đánh lừa người dùng”? Hãy cùng xem xét những trường hợp dưới đây:

  • Tạo ra nhiều trang, tên miền phụ có nhiều nội dung trùng lặp
  • Xuất bản nhiều nội dung cóp nhặt
  • Xuất bản nhiều nội dung sao chép từ các trang web khác và không mang thêm giá trị cho người dùng

Tóm lại thì, không cần biết Duplicate Content có bị Google phạt hay không nhưng tốt nhất nên hạn chế vì nó sẽ gây những tác động xấu cho trang web của bạn.

Cách khắc phục Duplicate Content 

Cách phổ biến và cũng hiệu quả nhất để xử lý Duplicate Content là thực hiện redirect 301 từ các phiên bản URL không được ưu tiên sang các phiên bản được ưu tiên.

Tuy nhiên, nếu người dùng cần tiếp tục truy cập URL, bạn không nên redirect 301 mà cần phải sử dụng canonical URL hoặc thẻ noindex để ngăn lập chỉ mục. Canonical URL cho phép bạn hợp nhất một số tín hiệu trong khi noindex thì không.

cach khac phuc duplicate content

Tất nhiên, mỗi cách làm trên sẽ có những ưu và nhược điểm khác nhau. Sẽ không có một cách làm nào nên được áp dụng cho toàn bộ Duplicate Content. Điều quan trọng là bạn cần phải xem xét tình hình, tìm hiểu nguyên nhân dẫn đến trùng lặp nội dung để từ  đó đưa ra hướng giải quyết thích hợp nhất.

Nguyên nhân gây ra Duplicate Content là gì?

Duplicate Content thường xuất phát từ 2 lý do chính là trang web được thiết lập không đúng cách hoặc do con người tạo nên (cố tình sao chép nội dung từ nơi khác).

Dưới đây là những nguyên nhân phổ biến nhất dẫn tình trạng Duplicate Content:

HTTPS vs. HTTP, and non-www vs. www

Tất cả các trang web đều có thể truy cập được với một trong 4 biến  thể sau:

  • https://www.example.com (HTTPS, www)
  • https://example.com (HTTPS, non-www)
  • http://www.example.com (HTTP, www)
  • http://example.com (HTTP, non-www)

Nếu bạn đang sử dụng HTTPS, nó sẽ là một trong hai cách đầu tiên. Còn việc có hay không có www sẽ do bạn quyết định.

Tuy nhiên, nếu máy chủ không được cấu hình đúng, trang web của bạn có thể sẽ được truy cập bằng hai hoặc nhiều biến thể như trên. Điều này có thể sẽ gây ra Duplicate Content.

Cách giải quyết: Với trường hợp này, bạn nên sử dụng chuyển hướng 301 để đảm rằng trang web của bạn chỉ được truy cập ở một phiên bản yêu thích.

nguyen nhan dulicate content

URL chữ hoa và chữ thường

Lưu ý rằng Google có phân biệt chữ hoa và chữ thường trong URL. Điều này có nghĩa rằng các URL sau là hoàn toàn khác nhau:

  • https://example.com/page/
  • https://example.com/Page/
  • https://example.com/PAGE/

Cách giải quyết: Nhất quán trong việc liên kết nội bộ, không liên kết đến nhiều phiên bản URL. Đồng thời, bạn có thể thực hiện chuyển hướng đến URL ưu tiên.

Dấu / và không có dấu / trong URL

Google coi các URL có dấu gạch / và không có / ở cuối URL là duy nhất:

  • https://example.com/page/
  • https://example.com/page

Điều đó có nghĩa rằng, nếu nội dung của bạn được truy cập với cả 2 URL như trên thì sẽ dẫn đến Duplicate Content.

Để kiểm tra rằng liệu bạn có rơi vào trường hợp này hay không, hãy thử truy cập vào một trang bằng URL có và không có /. Nếu chỉ có một trong hai tải được (tức là khi bạn truy cập vào URL có dấu / thì sẽ được chuyển hướng sang không có /), thì sẽ không có vấn đề gì.

Cách giải quyết: nếu cả 2 đều hoạt động, bạn hãy lựa chọn phiên bản ưa thích và chuyển hướng 301 cho cái còn lại về nó.

nguyen nhan gay ra duplicate content

URL thân thiện với bản in

Khi có các trang thân thiện với bản in nhưng có nội dung giống nhau, chỉ khác ở URL:

  • example.com/page
  • example.com/ print/page

Cách giải quyết: Triển khai một URL chuẩn dẫn từ phiên bản thân thiện với bản in đến phiên bản bình thường của trang.

URL thân thiện với thiết bị di động

Cũng tương tự như với bản in, bạn có các phiên bản thân thiện trên thiết bị di động với nội dung giống nhau nhưng khác nhau về URL:

  • example.com/page
  • NS. example.com/page

Cách giải quyết: Sử dụng rel= “alternate” để Google biết rằng URL thân thiện với thiết bị di động là phiên bản thay thế của nội dung trên máy tính để bàn.

ID phiên

ID phiên lưu trữ thông tin của người dùng thường sẽ có thêm một chuỗi ký tự phía sau các URL, ví dụ như: https://example.com/?sessionId=jow8082345hnfn9234

Cách giải quyết: Chuẩn hóa các URL về phiên bản thân thiện với SEO

URL AMP

Các trang sử dụng AMP để tăng tốc trên thiết bị di động cũng được coi là một bản sao của phiên bản chính:

  • example.com/page
  • example.com/amp/page

Cách giải quyết: Chuẩn hóa phiên bản AMP về phiên bản không AMP. Sử dụng l=”amphtml” để báo cho công cụ tìm kiếm biết rằng URL AMP chỉ là một phiên bản thay thế so với bản gốc.

Tag và Category Pages

Các trang chuyên mục chuyên dụng sẽ được tạo ra khi bạn gắn thẻ tag cho các bài viết. Và điều này có thể gây ra Duplicate Content trong một số trường hợp.

Cách giải quyết:

  • Không sử dụng thẻ tag vì thực tế thì nó cũng không mang lại nhiều giá trị
  • Noindex các trang thẻ tag
nguyen nhan duplicate content

Các comment được phân trang

WordPress và nhiều nền tảng CMS khác cho phép comment của người dùng được phân trang và tạo ra nhiều phiên bản của các URL giống nhau:

  • example.com/post/
  • example.com/post/comment-page‑2
  • example.com/post/comment-page‑3

Cách giải quyết: Ngăn lập chỉ mục các trang được phân trang hoặc tắt phân trang comment.

Trang kết quả tìm kiếm

Rất nhiều website cung cấp chức năng tìm kiếm để người truy cập có thể tìm kiếm thông qua nội dung của trang web.

Điều đáng nói ở đây là các  trang kết quả này đều hiển thị rất giống nhau với một URL tìm được tham số hóa dạng: https://example.com/?q=search-term.

Cách giải quyết: Sử dụng meta robots để ngăn chặn công cụ tìm kiếm index các trang kết quả tìm kiếm. Đồng thời không nên tạo liên kết đến các trang này.

Nếu website của bạn có một số lượng lớn các  trang kết quả tìm kiếm được thu thập thông tin, bạn cần ngăn chặn điều này thông qua tệp robots.txt.

URL đính kèm hình ảnh

Nhiều CMS tạo ra các trang riêng dành cho tệp đính kèm hình ảnh. Hầu hết chúng đều không hiển thị gì khác ngoài hình ảnh và một số bản sao chép sẵn. Nếu các trang được tạo tự động, bản sao chép này sẽ giống nhau và chúng dẫn đến Duplicate Content.

Cách giải quyết: Tắt tất cả các trang dành riêng cho hình ảnh, nếu website của bạn đang chạy trên WordPress, bạn có thể sử dụng Yoast SEO để làm điều này.

Các thông số để lọc

Các trang thương mại điện tử thường sử dụng tham số URL để cung cấp chứng năng lọc, ví dụ như: https://www.example.com/toys/cars?colour=black

Mặc dù điều này sẽ giúp khách hàng thuận lợi hơn trong việc mua hàng nhưng nó lại gây ra vấn đề với công cụ tìm kiếm. Các tùy chọn lọc tạo ra một số lượng kết hợp gần như vô hạng khi có nhiều hơn một tùy chọn bộ lọc. Vì thế, nhiều trường hợp sẽ dẫn đến nội dung giống nhau trên các URL khác nhau:

duplicate content

Cách giải quyết: Triển khai một URL cho mỗi trang chính chưa được lọc để ngăn chặn trùng lặp và củng cố quyền của trang do bộ lọc phân phối.

Localization và hreflang

Khi nói đến localization, các vấn đề về Duplicate Content có thể xảy ra nếu trang web đang sử dụng cùng một nội dung để nhắm vào mục tiêu người dùng ở các khu vực khác nhau nhưng chung một ngôn ngữ.

nguyen nhan duplicate content

Chẳng hạn như bạn có một trang dành riêng cho Hoa Kỳ và một cho Canada, cả 2 khu vực này đều sử dụng tiếng Anh và có thể nó sẽ có những nội dung trùng lặp.

Cách giải quyết: Nếu bạn đang sử dụng một nội dung cho cho nhiều khu vực khác nhau, hãy triển khai hreflang trong một phần của chiến lược SEO quốc tế.

Lời kết

Trên đây là toàn bộ các thông tin mà tôi muốn chia sẻ đến các bạn về vấn đề Duplicate Content.

Nhìn chung, Duplicate Content là một vấn đề khó có thể tránh khỏi với mọi trang web. Việc cần làm là hạn chế tối đa tình trạng trùng lặp nội và đừng bao giờ copy nội dung từ những website khác.

Chúc các bạn thành công.

Nguồn tham khảo: https://www.contentkingapp.com/academy/duplicate-content/

Có kinh nghiệm đào tạo SEO tại Trung Tâm Tin Học Đại Học Khoa Học Tự Nhiên (ĐHQG TPHCM) từ 2018

Write A Comment