Tất cả chúng ta đều biết rằng không nên copy nội dung từ một site khác. Nhưng bạn có biết rằng nội dung trùng lặp có thể xảy ra một cách tự nhiên, vì thế không nên bị xem là nguyên nhân gây ra hình phạt, nhưng vẫn có thể giới hạn khả năng thành công của một site?
Rất may mắn, Matt Cutts, người đứng đầu Google webspam đã từng nói.
“25% của tất cả nội dung là trùng lặp… nhưng không phải tất cả chúng là spam.”
Tại sao trùng lặp nội dung là vấn đề đáng quan tâm?
Nội dung trùng lặp có nghĩa là Search Engine phải lãng phí thời gian để crawl tất cả phiên bản trùng lặp khác của một page.
Có 2 hoặc nhiều phiên bản của cùng một nội dung cũng có nghĩa là những tín hiệu uy tín (như backlink) và social shares bị chia nhỏ cho mỗi phiên bản. Mỗi phiên bản trở nên yếu hơn, giới hạn tính hiệu quả của chúng.
Nếu bạn có nội dung trùng lặp trên website, bạn đang bỏ mặc sức khỏe của website bạn trong tay hệ thống của Google.
Bạn có thể xem thêm lý do Google thích nội dung tươi mới và đánh giá rất thấp nội dung trùng lặp.
Làm thế nào để biết có nội dung trùng lặp?
Nội dung trùng lặp có thể xảy ra nếu bạn có:
- 2 domain sử dụng chung một nguồn content (ví dụ: domain.com và domain.net)
- Nội dung giống nhau cho những tập khán giả ở những khu vực khác nhau.
- Nội dung giống hệt nhau trên những url khác nhau (ví dụ: Các phiên bản thân thiện máy in, các trang được gắn tag tương tự nhau)
- Những page tương tự nhau trên những url khác nhau.
- Trùng lặp title và description trên những page tách biệt.
- Những URL khác nhau trỏ tới cùng một page (ví du: www.domain.com, domain.com, domain.com/index.html trỏ tới cùng trang chủ của một website).
Google nói sao về điều này?
Google xác định nội dung trùng lặp là những khối nội dung trùng hoặc giống nhau thấy rõ thông qua cùng domain hoặc nhiều domain.
Làm thế nào khắc phục vấn đề này?
1. Thiết lập phiên bản ưu tiên của domain.
Vấn đề: Người dùng thấy những site giống nhau trên những phiên bản domain hơi khác nhau một chút, nhưng Google lại xem 2 site có nội dung trùng lặp. Điều này có thể là vì:
- Biến thể của domain: VD: exemple.com và example.net
- Không thiết lập ưu tiên www hay non-www.
- Thiết lập bảo mật https hoặc không bảo mật http
- Những website được mở dạng subdomain ví dụ: beta.example.com
Khắc phục:
- Chọn phiên bản website mà bạn muốn là phiên bản chính và sau đó sử dụng 301 redirect để chuyển hướng traffic tới domain chính. Hoặc đảm bảo bạn sử dụng một URL tuyệt đối trong thẻ canonical.
- Sử dụng Webmaster Tools để nói với Google phiên bản được ưu tiên giữa www./non-www.
- Sử dụng canonical tag để thiết lập hoặc là http hoặc là https làm phiên bản canonical của website.
2. SEO quốc tế với Hreflang
Vấn đề: Nếu bạn có webite cho mỗi quốc gia nhưng chỉ với một chút khác biệt nhỏ so với phiên bản đang lưu hành, thì Search engine có thể xem mỗi phiên bản giống như là một site riêng lẻ bị trùng lặp.
Hướng khắc phục: Thêm một hreflang tag, cái mà cho phép bạn nói với Google phiên bản nào của website nên được hiển thị cho quốc gia nào.
3.Disallow nội dung giống nhau trên những URL riêng rẽ
Vấn đề: Các page có thể dễ dàng bị trùng lặp trên nhiều URL bên trong cùng một site. Thường thấy là:
-
- Cung cấp phiên bản thân thiện máy in trên URL tách biệt.
- Sử dụng quá nhiều tag cho một page về cùng 1 chủ đề (ví dụ: thiết kế web, thiết kế website, thiet ke web)
- Url được viết hoa ở một vài nơi
- Những biến thể theo cách mà URL được đưa ra (ví dụ: /new?page=1&order=recent và /news?order=recent&page=1)
- Cùng 1 đường dẫn được lặp lại 2 lần (ví dụ: /news/news/)
- Những biến thể theo cách mà URL được kết thúc (ví dụ: /news.html và /new.aspx)
Khắc phục: làm theo 4 bước trong bài viết Previous URL duplication post.
4. Xóa đi những biến thể gần đúng của cùng một page từ index của Google.
Vấn đề: Nếu bạn có cùng một nội dung trên vài trang có sự sai khác nhau một chút giống như là những trang sản phẩm theo những màu khác biệt thì nội dung sẽ được xem là trùng lặp.
Khắc phục: Chọn biến thể tốt nhất để Google index (lý tưởng nhất là link nhận được nhiều traffic nhất) và xóa những biến thể trùng lặp khác khỏi chỉ mục của Google.
– Xác định biến thể có traffic thấp trong Google analytic
– Sử dụng robots.txt để chặn google Crawling nó
– Sử dụng canonical tag để chuyển hưởng google tới phiên bản chính.
Bạn có thể liên kết tới những biến thể khác từ page chính (sử dụng rel=”nofollow”) để đảm bảo khách hàng vẫn có thể tiếp cận nội dung của bạn khi họ tới website.
5. Thay thế tiêu đề và mô tả trùng lặp.
Vấn đề: Nếu bạn có chung tiêu đề và mô tả trên một vài page riêng lẻ thì Google có thể bỏ qua nó hoặc là chọn theo ý họ điều đó sẽ trông lộn xộn và ảnh hưởng tới CTR.
Khắc phục: Sử dụng công cụ Google webmater Tools để xác định tiêu đề và mô tả trùng lặp sau đó chỉnh sửa chúng.
Hãy nhớ rằng Google sẽ chỉ hiển thị tiêu đề được một số lượng nào đó trong kết quả tìm kiếm vì thế hãy cố gắng bao hàm những yếu tố độc đáo trong 100 ký tự đầu tiên.
6. Khắc phục backlink trùng lặp
Vấn đề: link trùng lặp có thể làm giảm giá trị hoặc trong một vài trường hợp có thể bị bỏ qua hoàn toàn. Tuy nhiên, một số lượng lớn backlink tới website của bạn có nghĩa là site bạn đang mắc lỗi spam, một nguyên nhân dẫn tới hình phạt của Google.
Khắc phục: Xác định những liên kết trùng lặp sử dụng những công cụ ưa thích và liên hệ với site để xóa link.
Xem như mỗi URL mục tiêu và mỗi anchor text độc nhất là một backlink riêng lẻ. Link có thể bị trùng lặp trên cùng một page hoặc nhiều page.
Kết luận: Trùng lặp nội dung có thể không trực triếp gây ra hình phạt cho website nhưng chắc chắn sẽ tác động tới kết quả SEO của bạn, vì thế hãy chú ý những vấn đề trùng lặp nội dung ở trên trên để có phương pháp xử lý kịp thời.