làm thế nào để vượt qua Google khi nội dung trùng lặp Duplicate Content

Admin 08:47 29-01-2019 1130

Đôi khi con người và máy móc không đồng ý về nội dung nào là nội dung trùng lặp (Duplicate Content). Đây là lý do tại sao và cách đánh bại hệ thống khi nó xảy r.

Ấn tượng như học máy móc và trí thông minh dựa trên thuật toán có thể, họ thường thiếu một thứ tự nhiên như với con người.

Nó cho dể hiểu là rằng việc đưa cùng một nội dung lên nhiều trang sẽ tạo ra nội dung trùng lặp ( Duplicate content ). Nhưng nếu bạn tạo các trang về những điều tương tự, với sự khác biệt quan trọng thì sao? Các thuật toán gắn cờ chúng là các bản sao, mặc dù con người không có vấn đề gì khi nói các trang như thế này:

Thương mại điện tử : các sản phẩm tương tự có nhiều biến thể hoặc khác biệt quan trọng
Du lịch: chi nhánh khách sạn, gói điểm đến với nội dung tương tự
Rao vặt: danh sách đầy đủ cho các mặt hàng giống hệt nhau
Doanh nghiệp: trang dành cho các chi nhánh địa phương cung cấp cùng một dịch vụ ở các khu vực khác nhau
Làm thế nào điều này xảy ra? Làm thế nào bạn có thể phát hiện ra vấn đề? Bạn có thể làm gì về nó?

Sự nguy hiểm của nội dung trùng lặp


Nội dung trùng lặp cản trở khả năng của bạn để hiển thị trang web của bạn cho người dùng tìm kiếm thông qua:

Mất thứ hạng cho các trang duy nhất vô tình cạnh tranh cho cùng một từ khóa
Không thể xếp hạng các trang trong một cụm vì Google đã chọn một trang làm tiêu chuẩn
Mất quyền quản trị trang web cho số lượng lớn nội dung mỏng


Cách máy xác định nội dung trùng lặp


Google sử dụng các thuật toán để xác định xem hai trang hoặc một phần của trang có phải là nội dung trùng lặp hay không, mà Google định nghĩa là nội dung có nghĩa là rất giống nhau.

Phát hiện sự tương tự của Google trên nền tảng dựa trên thuật toán Simhash được cấp bằng sáng chế của họ, phân tích các khối nội dung trên một trang web. Sau đó, nó sẽ tính toán một mã định danh duy nhất cho mỗi khối và tạo ra một hàm băm, hoặc dấu vân tay, cho mỗi trang.

Bởi vì số lượng trang web là khổng lồ, khả năng mở rộng là chìa khóa. Hiện tại, Simhash là phương pháp khả thi duy nhất để tìm nội dung trùng lặp ở quy mô.

Dấu vân tay của Simhash là:

Không tốn kém để tính toán. Chúng được thiết lập trong một lần thu thập dữ liệu của trang.
Dễ dàng so sánh, nhờ chiều dài cố định của họ.
Có thể tìm thấy gần trùng lặp. Chúng đánh đồng các thay đổi nhỏ trên một trang với các thay đổi nhỏ trong hàm băm, không giống như nhiều thuật toán khác.
Điều cuối cùng này có nghĩa là sự khác biệt giữa bất kỳ hai dấu vân tay có thể được đo bằng thuật toán và được biểu thị bằng phần trăm. Để giảm chi phí đánh giá từng cặp trang, Google sử dụng các kỹ thuật như:

Phân cụm: bằng cách nhóm các trang đủ tương tự lại với nhau, chỉ cần so sánh dấu vân tay trong một cụm, vì mọi thứ khác đã được phân loại là khác nhau.
Ước tính: đối với các cụm đặc biệt lớn, độ tương tự trung bình được áp dụng sau khi tính toán một số cặp vân tay nhất định.

So sánh dấu vân tay trang. Nguồn: Phát hiện tài liệu gần như trùng lặp để thu thập thông tin trên web (bằng sáng chế của Google)

Cuối cùng, Google sử dụng tỷ lệ tương tự có trọng số loại trừ một số khối nội dung giống hệt nhau (soạn sẵn: tiêu đề, điều hướng, thanh bên, chân trang; từ chối trách nhiệm). Nó tính đến chủ đề của trang bằng phân tích n-gram để xác định từ nào trên trang xảy ra thường xuyên nhất và - trong ngữ cảnh của trang - là quan trọng nhất.

Phân tích nội dung trùng lặp với Simhash


Chúng tôi sẽ xem xét một bản đồ của các cụm nội dung được gắn cờ tương tự bằng Simhash. Biểu đồ này từ OnCrawl sẽ phân tích chiến lược nội dung trùng lặp của bạn trên các cụm nội dung trùng lặp.

Phân tích nội dung OnCrawl cũng bao gồm các tỷ lệ tương tự, cụm nội dung và phân tích n-gram. OnCrawl cũng đang làm việc trên một bản đồ nhiệt thử nghiệm cho thấy sự tương tự trên mỗi khối nội dung có thể được phủ lên trên một trang web.

Xác nhận các cụm với canonicals
Sử dụng URL chuẩn để chỉ ra trang chính trong một nhóm các trang tương tự là cách phân cụm các trang có chủ ý. Lý tưởng nhất là các cụm được tạo bởi canonical và những cụm được thiết lập bởi Simhash phải giống hệt nhau.


Các cụm Canonical phù hợp với các cụm tương tự (màu xanh lá cây). Nổi bật: 6 trang giống nhau 100%. Chính sách kinh điển của bạn và phân tích Google Sim Simhash đối xử với họ theo cùng một cách.

Khi đây không phải là trường hợp, nó thường là vì không có chính sách chính tắc nào trên trang web của bạn:


Không có khai báo chính tắc: cụm gồm hàng trăm trang mỗi trang, với tỷ lệ tương tự trung bình là 99-100%. Google có thể áp đặt các URL chuẩn. Bạn không có quyền kiểm soát trang nào sẽ xếp hạng và chiến thắng nào.

Hoặc do có mâu thuẫn giữa chiến lược kinh điển của bạn và các phương pháp Google sử dụng để nhóm nội dung tương tự:


Các vấn đề với canonicals: các cụm lớn với độ tương tự trên 80% và nhiều URL chuẩn cho mỗi cụm. Google sẽ áp đặt các URL chính tắc của riêng mình hoặc lập chỉ mục các trang trùng lặp mà bạn muốn tránh khỏi chỉ mục.

Trang web của bạn có các cụm từ trông giống như những người ở trên. Bạn đã theo dõi các thực tiễn tốt nhất cho nội dung trùng lặp. Các URL chứa cùng một nội dung - chẳng hạn như các phiên bản có thể in / di động hoặc các URL thay thế được tạo bởi CMS - khai báo URL chính xác.


Lọc ra nội dung trùng lặp được xử lý chính xác bởi chiến lược chính tắc của bạn. Các URL không được chuẩn hóa còn lại là các trang bạn muốn xếp hạng.


Ánh xạ trước đó, sau khi loại bỏ các cụm và cụm được xác thực (màu xanh lá cây) với độ tương tự dưới 80%. Hầu hết 46 cụm còn lại chỉ có 2 trang.

Các URL vẫn xuất hiện trong các cụm dựa trên Simhash và phân tích ngữ nghĩa là các URL mà bạn và Google không đồng ý.

Giải quyết các vấn đề nội dung trùng lặp cho nội dung độc đáo
Không có thủ thuật thỏa mãn nào để sửa lỗi máy Xem các trang duy nhất có vẻ trùng lặp: chúng ta có thể thay đổi cách Google xác định nội dung trùng lặp. Tuy nhiên, vẫn có những giải pháp để điều chỉnh nhận thức của bạn về nội dung độc đáo và Google Cẩn trong khi vẫn xếp hạng cho các từ khóa bạn cần.

5 chiến lược để thích ứng với trang web của bạn.

Giải quyết các trường hợp cạnh
Bắt đầu bằng cách xem xét các trường hợp cạnh: cụm có tỷ lệ tương tự rất thấp hoặc rất cao.

Giảm số lượng các khía cạnh
Nếu các trang trùng lặp của bạn có liên quan đến các khía cạnh, bạn có thể gặp vấn đề về lập chỉ mục. Duy trì các khía cạnh đã xếp hạng và giới hạn số lượng các khía cạnh bạn cho phép Google lập chỉ mục.


Cụm bao gồm các trang giống hệt nhau dựa trên các khía cạnh có thể sắp xếp. Nguồn: OnCrawl.

Làm cho các trang (thêm) độc đáo
Hãy nhớ rằng: sự khác biệt nhỏ trong nội dung tạo ra sự khác biệt nhỏ trong dấu vân tay Simhash. Bạn cần thực hiện các thay đổi đáng kể cho nội dung trên trang thay vì điều chỉnh nhỏ.

Làm phong phú nội dung trang:

  • Thêm nội dung văn bản vào các trang.
  • Thêm mô tả khác nhau của hình ảnh.
  • Bao gồm đánh giá đầy đủ của khách hàng (Nếu đánh giá áp dụng cho nhiều trang, hãy hợp nhất các trang!).
  • Thêm thông tin bổ sung.
  • Thêm thông tin liên quan.
  • Sử dụng các hình ảnh khác nhau.
  • Kiểm tra bằng cách sử dụng văn bản neo rất khác nhau cho các liên kết đến các trang khác nhau.
  • Giảm số lượng mã nguồn chung giữa các trang tương tự.
  • Cải thiện mật độ ngữ nghĩa trên các trang.
  • Tăng vốn từ vựng liên quan đến chủ đề và giảm phụ.

Tạo trang tham khảo xếp hạng
Nếu làm phong phú các trang của bạn là có thể hoặc phù hợp, hãy xem xét việc tạo một trang tham chiếu duy nhất được xếp hạng thay cho tất cả các trang trùng lặp. Chiến lược này sử dụng nguyên tắc giống như các trung tâm nội dung để quảng bá một trang chính cho nhiều từ khóa. Nó đặc biệt hữu ích khi bạn có nhiều phiên bản của một sản phẩm mà bạn cần duy trì dưới dạng các trang riêng biệt.

Chiến lược này có thể được sử dụng để tạo các trang nhắm mục tiêu theo nhu cầu hoặc cơ hội theo mùa. Nó có thể cải thiện gia đình của các trang bằng cách cung cấp ngữ nghĩa và thứ hạng mạnh hơn.

Nó cũng có thể có lợi cho các trang web rao vặt, trang web cung cấp việc làm và các trang web khác với nhiều danh sách, thường tương tự. Các trang tham khảo nên nhóm danh sách theo một đặc điểm duy nhất; vị trí (thành phố) thường được sử dụng thành công.


Bạn Phải làm gì:

Tạo một trang tham chiếu tập hợp nội dung ngữ nghĩa của tất cả các trang sản phẩm trùng lặp của YouTube. Nó sẽ quảng bá tất cả các từ khóa bạn muốn sử dụng và liên kết đến tất cả các trang trùng lặp của YouTube.
Đặt URL chính tắc cho mỗi trang trùng lặp của Viking vào trang tham chiếu và trang tham chiếu URL chính quy của chính nó.
Liên kết giữa các trang trùng lặp trên mạng.
Tối ưu hóa điều hướng trang web để thúc đẩy trang tham khảo.
Được củng cố bởi các liên kết từ các trang trùng lặp của Wikipedia, khai báo chính tắc và nội dung kết hợp, các trang tham chiếu rất dễ xếp hạng.

Kết hợp các trang của bạn
Bạn tiếp tục cố gắng làm phong phú các trang có cùng nội dung? Bạn có thể giải thích tại sao bạn muốn giữ tất cả? Nó có thể là thời gian để kết hợp chúng.


Nếu bạn quyết định kết hợp các trang của bạn thành một:

Giữ URL hoạt động tốt nhất.
Chuyển hướng (301) trang mà bạn đã thoát khỏi trang bạn đang giữ.
Thêm nội dung từ các trang mà bạn đang loại bỏ vào trang bạn đang giữ và tối ưu hóa nó để xếp hạng cho tất cả các từ khóa Cluster cụm.
Tương lai của nội dung trùng lặp
Khả năng hiểu nội dung của một trang Google liên tục phát triển. Với khả năng ngày càng chính xác để xác định nồi hơi và để phân biệt giữa ý định trên các trang web, nội dung độc đáo được xác định là trùng lặp cuối cùng sẽ trở thành quá khứ.

SEO uy tín hiểu lý do tại sao nội dung của bạn trông giống như Google và điều chỉnh nó để thuyết phục Google, là chìa khóa để SEO thành công cho các trang tương tự.



Cảm ơn bạn đã đánh giá
4.7 Sao 3 Đánh giá


Các tin khác

Plugin Site Kit là gì ? Có nên cài đặt nó hay không ?

Plugin Site Kit là gì ? Có nên cài đặt nó hay không ?

Site Kit là một plugin WordPress cho phép người dùng thiết lập và định cấu hình các dịch vụ của Google để hiểu rõ hơn về bảng điều khiển WordPress của họ.

Admin 18-11-2019 23:20 1348

Google đang thử nghiệm hiển thị kết quả tìm kiếm mà không cần URL

Google đang thử nghiệm hiển thị kết quả tìm kiếm mà không cần URL

Google dường như đang thử nghiệm loại bỏ hoàn toàn URL khỏi kết quả tìm kiếm, thay vào đó chỉ hiển thị tên trang web.

Admin 14-10-2019 15:27 1143

BẠN CÓ THỂ SỬ DỤNG NHIỀU HƠN 1 THẺ H1 TRÊN CÙNG 1 TRANG HAY KHÔNG ?

BẠN CÓ THỂ SỬ DỤNG NHIỀU HƠN 1 THẺ H1 TRÊN CÙNG 1 TRANG HAY KHÔNG ?

Câu trả lời là có . John Mueller của google đã trả lời cho câu hỏi " Bạn có thể sử dụng nhiều hơn 1 thẻ H1 trên cùng 1 trang hay không " mà không ảnh hưởng tới SEO

Admin 14-10-2019 14:53 2811

CÁCH KHAI BÁO GOOGLE SEARCH CONSOLE KHI BẠN CHUYỂN ĐỔI TÊN MIỀN KHÁC 2019

CÁCH KHAI BÁO GOOGLE SEARCH CONSOLE KHI BẠN CHUYỂN ĐỔI TÊN MIỀN KHÁC 2019

Google thông báo trên Twitter rằng họ đã thêm công cụ Thay đổi địa chỉ Tên Miền vào giao diện mới của Google Search Console giúp bạn dễ dàng khai báo với google khi bạn đổi sang tên miền khác

Admin 14-10-2019 14:42 4293

đánh giá sao trên kết quả tìm kiếm google bị mất đâu là lý do

Nếu đánh giá sao của bạn trong kết quả tìm kiếm tự nhiên trên Google biến mất, đây có thể là lý do khiến cấu trúc dữ liệu của bạn biến mất.

Admin 21-09-2019 00:55 1772

5 cách để xây dựng sức mạnh thương hiệu của bạn

Một trang web siêu mạnh là một từ thông dụng trong SEO và tiếp thị nội dung. Mọi người đều muốn có nó, nhưng không phải ai cũng biết cách xây dựng nó

Admin 21-09-2019 00:40 1008

Google có thể thu thập dữ liệu từ AJAX không ?

Câu hỏi được đặt ra là liệu Google có thể thu thập dữ liệu từ AJAX không ? John Mueller của Google cho biết trong phiên bản ngày 17 tháng 9 của #AskGoogleWebmasters

Admin 21-09-2019 00:10 1432

Cách nhận lưu lượng truy cập không phải là từ Google

Cách nhận lưu lượng truy cập không phải là từ Google

Lưu lượng truy cập có thể bị xóa sổ ngay lập tức nếu Google là nguồn lưu lượng truy cập duy nhất của bạn và lấy đi tất cả những năm nỗ lực và SEO của bạn với nó qua đêm.

Admin 15-09-2019 14:43 3016

Có Nên Thay đổi cấu trúc link URL trang web của bạn

Lý do phổ biến nhất để thay đổi cấu trúc URL của bạn là trong quá trình đổi thương hiệu công ty, di chuyển trang web hoặc thiết kế lại trong đó một số trang xác định thành phần như tên miền, loại sản phẩm, tiêu điểm..

Admin 15-09-2019 14:27 2082