Как определить дубли страниц на сайте

Опубликовано: 02.09.2018

видео Как определить дубли страниц на сайте

Как найти и убрать дубли страниц сайта

Сегодня мы будем говорить о дублировании контента, а точнее о методах поисках дублей страниц на вашем ресурсе. Проблема дублирования в современном интернете стоит остро, так как если у вас имеются дубли страниц на сайте, вы можете попасть под санкции поисковых систем.



И так первое, что нам необходимо знать это “что такое дублирование контента (дубли страниц)” и какие бывают их виды, а потом мы уже будем искать пути борьбы с ними.

Дублирование контента – это отображение одного и того же текста на разных страницах сайта (на разных адресах). Дубли страниц на сайте бывают двух видов :


Как найти и исправить дубли страниц

Полные дубли; Неполные (частичные) дубли;

Полные дубли – это когда одна страница, в полной мере отображает содержимое другой и при этом имеет другой адрес. Например 2 страницы имеют одинаковый контент, но их адреса отличаются http://www.loleknbolek.com/?&cat=10&product=25 и http://www.loleknbolek.com/?product=25&cat=10

Неполные дубли – это частичное отображение текста страницы на другой. Это например новостная лента в блогах или текст в сайдбарах. Наиболее часто они встречаются в интернет-магазинах и сайтах где публикуются анонсы, новости.

Ниже я приведу методы которые используются для определения дублей. Ничего сложного здесь нету, только необходимо немного времени и терпения.

Google–вебмастер ; Поисковая выдача Yandex; Поисковая выдача Google; Страница открывается со слешем “/” и без; Страница открывается с www и без www;

1. Начинаем с первого метода, переходим в аккаунт Google–вебмастер. Дальше переходим на вкладку “Вид в поиске либо Оптимизаци” и выбираем “Оптимизация HTML”. На этой странице можно найти и посмотреть все похожие мета-описания и заголовки title.

Google Webmaster определяем дубли страниц на сайте.

Этот метод отлично подойдет для определения полных дублей, частичные дубли с помощью этого метода определить не возможно.

2. Далее рассматриваем как можно определить дубли с помощь поисковой выдачи Yandex. Переходим в поисковую систему и вводим часть текста, при этом обворачиваем его в “кавычки” для того что бы получить точное вхождение фразы.

Yandex — проверяем дубли страниц

Если в выдаче появилась только одна страница оригинал, это отлично – значит дублей нету, если же появилось пару страниц, значит имеются дубли которые необходимо удалить.

3. С помощью поисковой системы Google, определять дубли страниц на сайте, можно также, как и в Yandex. Только при этом необходимо в поисковую строку ввести запрос site:moysite.ru -site:moysite.ru/&, где фразу moysite.ru, заменяем на адрес своего сайта. Если в выдаче нашло только один ваш сайт значит дублей нету, если несколько, необходимо предпринимать меры борьбы с дублированием.

4. Дублирование также может бить если вы используете систему управления контентом (cms) . Система может генерировать автоматические ссылки которые будут открываться как со слешем “/” так и без. Например у вас есть адрес http://www.loleknbolek.com/?&cat=10&product=25, вы можете проверить открывается ли этот адрес со слешем в конце “/” http://www.loleknbolek.com/?&cat=10&product=25/. Если открывается и не перенаправляет ( редирект ) на выше приведенную страницу, то это дубль страница. Если перенаправляет все работает нормально и можно не беспокоится.

5. Определяем зеркала главной страницы сайта. Аналогично выше описанному методу, пробуем добавлять www или убирать спереди адреса сайта. Если заходит и по одному и по другому адресу, то у вас имеются дубли главной страницы и необходимо их склеить и выбрать главное зеркало сайта.

Ищите дублируемый контент на своем ресурсе, так как это может привести к плохим последствиям. Если Яндекс еще более лояльно относится к дублям, то Google очень сильно наказывает за это и накладывает фильтры . Дубли страниц это грубо говоря мусор интернета, а поисковые системы не любят мусор так как он кушает много ресурсов. Поэтому советую устранять эти проблемы еще до индексации статьи поисковой системой.

IRC (Internet Relay Chat)
rss