SEO Лексикон: Robots.txt і пошукова оптимізація

  1. зміст
  2. Що таке robots.txt?
  3. Чому мені потрібен файл robots.txt?
  4. Як налаштувати файл robots.txt?
  5. генератори robots.txt в Інтернеті
  6. Таблиця: Команди для robots.txt
  7. Як пошукові системи відповідають на заблокований вміст?
  8. SEO: Що робити, якщо вміст вже входить до індексу Google?
  9. Що станеться, якщо виключити сторінки лише за допомогою robots.txt?
  10. Чи є robots.txt гарантією того, що сторінки не потраплять до індексу Google?
  11. Інструменти Google для веб-майстрів: перевірити заблокований вміст

Robots.txt є важливим інструментом для веб-майстрів та онлайн-маркетологів для керування пошуковими системами та виключення їх з певних сайтів. У цій вікі-статті ми поговоримо про файл robots.txt: що означає файл, як налаштувати файл robots.txt і що він робить для результатів пошуку?

зміст

базові знання robots.txt

robots.txt і SEO

Якщо не вказано інше, ця стаття використовує пошукову систему Google і її Googlebot для прикладів.

Що таке robots.txt?

Файл robots.txt (вимовляється як " текст роботів ") - це файл у головному каталозі веб-сайту. Хоча це не офіційний міжнародний стандарт (наприклад, HTML 5), файл і його зміст стали фактичним стандартом.

Мета файлу robots.txt полягає в тому, щоб дати сканерам і ботам інструкції про те, як поводитися на веб-сайті. Зокрема, виключення ботів з різних каталогів і файлів регулюється в robots.txt. Наприклад, пошукові системи, такі як Google, попереджуються, що вони не повинні або не повинні відвідувати певні веб-сайти та інший вміст.

Чому мені потрібен файл robots.txt?

Як згадувалося раніше, robots.txt є важливим інструментом для запобігання доступу пошукових систем до певного вмісту. Тому ми блокуємо пошукові системи, такі як Google, намагаючись отримати критичні сторінки. До них відносяться:

  • Адміністративне адміністрування (backend),
  • Сторінки з маршрутами бронювання та операціями покупки,
  • тимчасові каталоги та файли,
  • Реєстраційні та контактні форми,
  • Результати пошуку сторінки
  • а також будь-який веб-сайт або файли, які ми не хочемо бачити в індексі Google і Co.

Як налаштувати файл robots.txt?

Налаштування файлу robots.txt є легким.

  • Крок 1. Відкрийте текстовий редактор.
    • ПОРАДА : Ми рекомендуємо програму → Notepad ++ , але і нормальний редактор (Notepad) під Windows працює відмінно для нього.
    • ПРИМІТКА . Microsoft Word та інші програми для створення документів (наприклад, Open Office Writer) не підходять для створення файлу robots.txt!
  • Крок 2 : Вставте відповідні команди, які ми будемо посилати під → Таблиця: Команди для robots.txt входити
  • Крок 3. Збережіть файл як файл robots.txt.
  • Крок 4. Завантажте файл robots.txt у головний каталог веб-сайту.
    • Приклад: https://nextlevelseo.de/robots.txt
    • ПРИМІТКА . Robots.txt не входить до підпапок. Завантаження файлу robots.txt тут не має сенсу. (Приклад:

генератори robots.txt в Інтернеті

Щоб швидко і легко створити файл robots.txt для Google та інших пошукових систем, ми рекомендуємо два веб-генератори, за допомогою яких можна легко створити файл robots.txt:

Таблиця: Команди для robots.txt

Давайте тепер звернемося до команд, які можна вносити в файл robots.txt. Вона структурована відповідно до послідовної схеми. Тому зверніть увагу на точний стиль написання (великі і малі літери) і на те, що одна команда на рядок може зберігатися. Нижче таблиці ви знайдете приклади як все це виглядає наприкінці.

ПРИМІТКА SMARTPHONE На даний момент відображаються лише найважливіші описи. Якщо вони вас плутають, спробуйте відкрити сторінку на своєму ПК. Там ви отримаєте табличний огляд, який легше зрозуміти. 😉

Опис команди # Ромб символізує ноту . Для ботів, це означає, що вони ігнорують все в цій лінії від алмазного знака. Таким чином, ви можете додавати власні нотатки до команд, щоб швидше знаходити потрібні місця при внесенні змін.Якщо алмаз розміщується на початку рядка, то вся лінія ігнорується. Приклад: # Це примітка. * Символ зірки (або знак множення) є символом підстановки, що означає, що замість символу зірки щось може бути на його місці. Таким чином, будь-яка частина URL. User-agent: * Якщо рядок починається з user-agent: * , це означає, що всі боти, які починаються з цього рядка, повинні враховувати команди, наведені нижче. Розглянуто ботів. User-agent: Googlebot запускає рядок з користувацьким агентом: Googlebot , так що тільки Google Bot ім'я. Лише він повинен розглянути наступні рядки, доки не з'явиться новий користувальницький агент: до появи нового рядка, починаючи з user-agent:. Інші сканери та боти не розглядають команди в них, а замість Googlebot можна вибірково керувати іншими ботами:

  • User-agent: зображення Googlebot
  • Агент користувача: Bingbot
  • User-agent: Yahoo! плямкати
  • User-agent: Яндекс.Бот

Список веб-сканерів і ботів можна знайти тут: useragentstring.com

Disallow: / Якщо рядок починається з Disallow: це означає, що раніше згадані боти і сканери не можуть вводити доріжку або URL-адресу, до якої додається. Це, так би мовити, знак зупинки для відповідних ботів. ПРИМІТКА . Якщо не встановлено жодного символу (символ зірки / знак множення), застосовується таке:

  • Ботів забороняється отримувати сторінки, які починаються з / в цьому прикладі.
  • Це НЕ означає, що ботам заборонено звертатися до сторінки, яка точно відповідає тому, що було депоновано. Ви повинні використовувати наступну команду зі знаком долара:

Disallow: /index.php$ Знак долара в кінці шляху або файлу говорить, що боти закінчуються знаком долара. У цьому випадку index.php в головному каталозі не враховується.Якщо в URL-адресі після index.php - як, наприклад, URL /index.php?id=123 - боти знову розглядатимуть цю сторінку. , Yahoo! Slurp, msnbot Disallow: / temp / У цьому випадку відповідним ботам заборонено сканувати папку / temp / і всі файли і вміст всередині неї. Так: структури папок можуть бути заблоковані від доступу пошуковими системами. Disallow: /admin.php Замикає файл admin.php для всіх роботів і сканерів і всіх підсторінок, які генерують сторінку Приклад: Disallow: /*.doc Ця команда говорить, що боти і сканери не можуть експортувати файли з Введіть .DOC для читання.

  • Disallow: /*.pdf
  • Disallow: /*.jpg
  • Disallow: /*.mp4
  • Disallow: /*.xls

Заборонити: /
Дозволити: / website / bots зазвичай перевіряють файл robots.txt зверху вниз. Якщо розділ раніше був заблокований (як і весь веб-сайт), але нижче - Дозволити: папку спільно використовують, боти та сканери перевірятимуть папку / website / і включатимуть її в індекс. Працює з: Googlebot, Ask.com, Yahoo! Slurp, msnbot (інші боти можуть ігнорувати замовлення!) Sitemap: <Robots> Robots.txt також може використовуватися для зберігання XML-мапи сайту. Таким чином, боти і сканери знають те ж саме і перевірятимуть файл Sitemap XML швидше, щоб включити їх вміст до індексу. Приклад: Затримка сканування: <SECONDS> Спеціально для Yahoo! і MSNbot:
Їх ботів можна проінструктувати, щоб через певні проміжки часу проскочити нову сторінку. приклад:

  • Затримка сканування: 300 # 300 секунд = кожні 5 хвилин

Спочатку файл robots.txt без пояснення, а потім з поясненнями, позначеними як нотатки.

ПРИМІТКА SMARTPHONE: Переверніть ваш телефон на пейзажний вигляд, щоб побачити розташування файлу robots.txt без помилок. Якщо це повідомлення не зникне, перегляньте сторінку на вашому ПК знову на повну ширину.

User-agent: *
Sitemap:
Заборонити: / temp /
#
User-agent: Googlebot
Заборонити: / uploads /
Дозволити: / завантаження / зображення /
#
User-agent: discobot
Заборонити: / * список.
#
User-agent: msnbot
Disallow: /.js$

А тепер той же robots.txt з нотами для пояснення. Нотатки також можуть бути включені в файл robots.txt, оскільки боти і сканери ігнорують нотатки.

# robots.txt для веб-сайту
#
# Ромб на початку рядка
# говорить, що це одна
# Коментар і боти
# не в цій області
# слід брати до уваги.
#
User-agent: *
# всі боти
#
Sitemap:
# Зберігає файл мапи сайту
# Сканери та боти
#
Заборонити: / temp /
# папка / temp / буде для всіх
# Боти заблоковані
#
User-agent: Googlebot
Заборонити: / uploads /
# Googlebot не дозволено в
#Folder / uploads /
Дозволити: / завантаження / зображення /
# Googlebot все ще дозволено
# папка / завантаження / зображення /
#
User-agent: discobot
Заборонити: / * список.
# Дискобот може не мати жодних файлів
# і відкрийте список сторінок.
Включіть # у URL-адресу.
# Wildcard (* знак) говорить
# що не має значення, що відбувається
#list. розташований.
#
User-agent: msnbot
Disallow: /.js$
# MSN Bot дозволений до javascripts
# не відкриваються. Однак тільки
# якщо файли закінчуються на .js.
# Все ще за ним
# щось, як на
# script.js? date = 20141220, потім
# MSN бот стає файлом
# Пошук.
#
# END

Як пошукові системи відповідають на заблокований вміст?

Robots

Фото: Мішель Кінсі Брунс (CC BY 2.0)

Для Google та інших пошукових систем, а також для будь-якого цільового бота та сканера, заблокований вміст нагадує знак зупинки. Вам не дозволено відвідувати ці сайти і не робити цього зазвичай. Таким чином, сторінки, заблоковані файлом robots.txt, більше не переглядаються Googlebot та іншими сканерами та роботами.

Тим не менш, robots.txt скоріше слід розуміти як особливо важливу примітку для будь-якого типу робота і сканера. Хоча великі провайдери, такі як Google, дотримуються правил дорожнього руху (емблематичний знак зупинки), інші дрібні хулігани не роблять це автоматично.

Крім того, блокування вмісту не є гарантією невключення в індекс пошукових систем. Якщо сторінка пов'язана внутрішньо, пошукові системи користуються текстом посилання як заголовком результату пошуку. Але оскільки сторінки не скануються, пошукові системи ігнорують вміст, подібний до noindex. Детальніше про це можна дізнатися в статті → Тест SEO: чи читає Google заблокований вміст за допомогою robots.txt?

Тим не менш, основні і основні пошукові системи дотримуються його.

SEO: Що робити, якщо вміст вже входить до індексу Google?

Якщо сторінки знаходяться в індексі Google, який ви б не хотіли мати в індексі, не слід заблокувати файли і каталоги відразу robots.txt. Оскільки виключення роботів і сканерів не означає, що пошукові системи автоматично видаляють вміст з індексу.

Тоді краще виконувати наступну процедуру:

  • Крок 1. Встановіть потрібні сторінки в Noindex.
  • Крок 2. Повторно скануйте сторінки, які потрібно використовувати за допомогою Google Інструменти для веб-майстрівСкануванняВибрати як Google .
    • Необов'язковий крок: виконайте те ж саме через інструменти для веб-майстрів Bing
  • Крок 3. Вилучіть URL- адреси в Інструментах Google для веб-майстрів
  • Крок 4. Зачекайте, поки URL-адреси дійсно будуть видалені
  • Крок 5. Заблокуйте шляхи та файли за допомогою robots.txt

Що станеться, якщо виключити сторінки лише за допомогою robots.txt?

Результат пошуку може продовжувати з'являтися. Однак опис не видано, але примітка:

Завдяки файлу robots.txt на цьому веб-сайті немає опису цього результату. Додаткова інформація

Результат пошуку Google заблоковано файлом robots.txt

Чи є robots.txt гарантією того, що сторінки не потраплять до індексу Google?

Роботи та сканери не повинні дотримуватися інструкцій у файлі robots.txt. Вони схожі на знак зупинки, до якого дотримуються більшість ботів і сканерів. Це не дуже бар'єр.

Тим не менше: більшість великих інтернет-послуг дотримується цього Інтернет-StVO.

Інструменти Google для веб-майстрів: перевірити заблокований вміст

Щоб перевірити, чи Google правильно оцінює файл robots.txt та правильно оцінює збережений файл robots.txt, можна ознайомитися з Інструментами Google для веб-майстрів.

txt, можна ознайомитися з Інструментами Google для веб-майстрів

Інструменти для веб-майстрів Google: тестер robots.txt

У розділі Скануванняtester robots.txt є файл robots.txt, як останній раз Google. Якщо ви хочете внести нові зміни або вже зроблені, ви можете заповнити поле новими налаштуваннями.

Потім ви можете перевірити URL-адреси з різними роботами в Інструментах Google для веб-майстрів.

  • Якщо URL заблоковано, він також вказує, який рядок блокує його.
  • Якщо URL не заблоковано, кнопка "Тест" стане зеленою кнопкою "Затверджено".

посилання

Txt?
Txt?
Txt?
SEO: Що робити, якщо вміст вже входить до індексу Google?
Txt?
Txt гарантією того, що сторінки не потраплять до індексу Google?
Txt і що він робить для результатів пошуку?
Txt?
Txt?
Txt?
IRC (Internet Relay Chat)