Війни клонів: використання канонічних URL

  1. «Клони переходять в наступ»
  2. Канон є канон
  3. Як запобігти дублювання контенту
  4. Помилки, які можуть дорого обійтися

Власники активно розвиваються інтернет-ресурсів нерідко стикаються з такою проблемою - одна і та ж сторінка з однаковим змістом може бути знайдена за кількома різними адресами. Такий стан справ є абсолютно нормальним, але ду-уже «не подобається» пошуковим роботам, які виявляються в положенні буриданова осла - з безлічі сторінок їм необхідно вибрати одну, яка підлягає відображенню в результаті. Правда, на відміну від уявного тваринного, боти не мають звичаю «вмирати від голоду» і змушені самостійно приймати рішення про вибір кращою сторінки ... або користуватися підказкою атрибута rel = «canonical»!

Довідка
Атрибут rel = canonical, вперше введений пошуковою системою Google в лютому 2009 року, залишається актуальним і донині. Цей атрибут вказує пошуковим роботам на сторінку, яка є кращою в ході індексації.

Найбільш частими причинами появи клонів / дублів сторінок експерти пошуковиків Bing, Google і техпідтримки Tsohost називають такі:

  • Публікація відноситься відразу до декількох категорій - контент може бути знайдений за кількома окремими URL-адресами через відмінності в роботі CMS;
  • Динамічний контент - в залежності від особливостей користувальницького сеансу, зміст сторінки змінюється;
  • Некоректна конфігурація сервера - при неправильній установці сертифікату SSL пошуковий робот не може визначити, яка саме версія сайту повинна бути використана: https: // або http: //.

«Клони переходять в наступ»

Дублями вважаються два (або більше) документа / сторінки, що мають однаковий зміст Дублями вважаються два (або більше) документа / сторінки, що мають однаковий зміст.

«Логіка» пошукового робота проста: користувач не бажає переглядати у видачі системи одне і те ж вміст кілька разів. Значить, при виявленні дубля потрібно виключити його з індексації!

(Є і ще одна неафішована причина нелюбові пошукових систем до клонам: жоден пошуковик «не хоче» займатися монотонною постійної обробкою мільйонів дубльованих інтернет-сторінок, витрачаючи на цей нудний процес значну частину своїх потужностей)

А це означає, що навіть якщо якась інформація розміщена на декількох сторінках, у видачі пошукової системи відображається тільки одна з них! І зовсім не факт, що URL, обраний роботом, є оптимальним. Більш того, він навіть не обов'язково насправді веде до оригінальної публікації!

Канон є канон

Канонічна сторінка - першоджерело, первісна сторінка, завдяки якій результати видачі пошукової системи задовольняють цілям автора контенту. Канонічна посилання, що має атрибут rel = canonical, вказує пошуковому роботу на сторінку, обрану в якості канонічної.

Головними правилами проставлення атрибута фахівці Google називають:

  • Дубльовані сторінки повинні містити посилання на канонічний URL-адресу;
  • Канонічна сторінка повинна реально існувати і не повертати помилку 404;
  • Канонічна сторінка не повинна бути закрита від індексації;
  • Атрибут rel = canonical потрібно включити в код HTML;
  • Атрибут rel = canonical не повинен використовуватися на одній сторінці кілька разів.

Як запобігти дублювання контенту

Заборонити пошуковим роботам самостійно «встановлювати правила» пошукової індексації досить просто. Для цього досить використовувати атрибут rel = canonical в <head> тегах кожної сторінки, що містить однаковий контент.

Магічна формула:
<Link rel = «canonical» href = "нужний_адрес_URL»>

При цьому додаткові властивості потрібного URL-адреси канонічної сторінки - пов'язані сигнали, Page Rank і т.п. - автоматично переносяться на вказану статтю з дубльованих.

Помилки, які можуть дорого обійтися

Експерти Google виділили кілька основних типів помилок, які, як показує статистика, особливо «популярні» серед оптимізаторів і веб-майстрів, проставляється атрибут rel = canonical:

  1. Перша - не завжди найкраща

Якщо ресурс має кілька сторінок з нумерацією: Якщо ресурс має кілька сторінок з нумерацією:

  • прімер.com / стаття = назву = 1;
  • прімер.com / стаття = назву = 2;
  • прімер.com / стаття = назву = 3,

і сторінки № 2 і № 3 не є дублікатами сторінки № 1, використання атрибута rel = canonical для сторінки №1 в якості канонічної - помилка! Це веде до «випадання» всіх наступних сторінок сайту з індексу.

  1. Абсолютна не дорівнює відносному

Незважаючи на те, що атрибут rel = canonical може використовуватися як для відносних, так і для абсолютних посилань, фахівці Google радять віддати перевагу саме останнім - відносні посилання в цьому випадку обчислюються на їх основі Незважаючи на те, що атрибут rel = canonical може використовуватися як для відносних, так і для абсолютних посилань, фахівці Google радять віддати перевагу саме останнім - відносні посилання в цьому випадку обчислюються на їх основі. Якщо абсолютне посилання на канонічну сторінку записана без вказівки протоколу (http: // або https: //), то пошукові алгоритми проігнорують вказівку на канонічність обраної сторінки.

  1. rel = canonical використовується в <body>

Атрибут rel = canonical не повинен використовуватися в розділі документа коду <body>, а повинен бути включений в розділ <head> HTML-коду - інакше він буде проігнорований пошуковими алгоритмами Атрибут rel = canonical не повинен використовуватися в розділі документа коду <body>, а повинен бути включений в розділ <head> HTML-коду - інакше він буде проігнорований пошуковими алгоритмами.

Довідка
Канонічна посилання не є суворої директивою, «обов'язковою до виконання» пошуковими алгоритмами, і носить рекомендаційний характер. При відсутності атрибута пошукові роботи самостійно визначають канонічну сторінку.

Використання атрибуту rel = canonical особливо актуально для торгових інтернет-майданчиків з великою кількістю товарів: просування магазину з 5 000 щодня поповнюються основних сторінок і 10 000 дубльованих без вказівки канонічних сторінок може становити серйозну проблему і привести до штрафних санкцій з боку пошукових систем.

Важливо пам'ятати, що використання атрибута rel = canonical:

  • Чи не виконується в файлі robots.txt .;
  • Чи не здійснюється за допомогою інструментів видалення URL-адрес;
  • Чи не застосовується для різних адрес однієї і тієї ж сторінки.

IRC (Internet Relay Chat)