yaponochka.com - разработка сайтов,  seo продвижение, нейминг
+38 (044) 237-45-90 seo-yaponochka Бесплатный расчет
Развитие бизнеса в интернете

Что такое robots.txt?

как настроить robots.txt

Robots.txt – это текстовый файл в корне сайта с инструкциями для поисковых роботов.

Он помогает роботам Google и Яндекс понять, какие страницы и файлы сканировать и отправлять в поиск, а какие – нет.

Например, с его помощью можно убрать из поиска дубли страниц или картинки. Это позволит ускорить сканирование нужных страниц и улучшить их позиции. При этом они останутся доступными для пользователей сайта. 

Как создать robots.txt?

  1. Создайте текстовый файл с именем “robots.txt”, например с помощью блокнота или NodePad++. Имя файла должно содержать только маленькие буквы.
  2. Внесите в него необходимые директивы. Подробно о директивах будет ниже. 
  3. Поместите файл в корень сайта. Будьте внимательны: указанные в robots.txt правила действуют только для того хоста и протокола, где размещен файл.
  4. Ограничения по размеру файла для Google – 500 кб, для Яндекса – 32 кб. Если файл больше, он будет обрабатываться некорректно.

Синтаксис robots.txt

Каждая директива состоит из указания, двоеточия и значения. Рекомендуем не набирать весь текст в файле капсом – файл robots  нечувствительный к регистру, но когда на сайте в URL есть разные регистры,  роботы могут некорректно обрабатывать инструкции. Page, page и PAGE – разные страницы для роботов поисковых систем.

* – любая последовательность символов

$ – конец строки

# – комментарий

Комментарии размещают после директивы либо с новой строки. Все содержание, расположенное после этого знака на текущей строке, расценивается как комментарий и игнорируется. Пробелы в начале и конце записи роботы игнорируют.

Директивы robots.txt

User-agent: робот/роботы, для которых задаем правила

Disallow: запретить страницу/страницы к индексации

Allow: разрешить индексацию страницы/страниц

Crawl-delay: ограничить скорость обхода сайта

Host: определить основное зеркало сайта (только для Яндекса)

Как заполнять robots.txt?

Файл robots состоит из указаний, для каких роботов используются правила, и самих правил. Сначала указываем робота, потом правила для него. Между правилами нет пустых строк. Перед новым роботом – пустая строка.

Пример:

User-agent: Googlebot

# указываем, что все правила ниже для Googlebot

Disallow: /*sort=*

# закрыли сортировки

User-agent: Yandex

# указываем, что все правила ниже для Yandex

Disallow: *search

# закрыли страницы поиска по сайту

Часто используемые директивы robots.txt

ЗАПРЕТИТЬ РОБОТАМ ИНДЕКСИРОВАТЬ САЙТ

User-agent: *
Disallow: /

РАЗРЕШИТЬ РОБОТАМ ИНДЕКСИРОВАТЬ САЙТ 

User-agent: *
Disallow:

Если файл robots.txt пустой – индексация всего сайта разрешена по умолчанию.

ЗАКРЫТЬ ОТ ИНДЕКСАЦИИ ФАЙЛ

Disallow: /private

ЗАКРЫТЬ ОТ ИНДЕКСАЦИИ КАТАЛОГ

Disallow: /private/

ЗАКРЫТЬ ОТ ИНДЕКСАЦИИ ТОЛЬКО НЕСКОЛЬКО КАТАЛОГОВ

User-agent: *
Disallow: /user/
Disallow: /admin/
Disallow: /private/

ЗАПРЕТИТЬ ИНДЕКСАЦИЮ САЙТА ТОЛЬКО ДЛЯ ОДНОГО РОБОТА

User-agent: Yandex
Disallow: /

РАЗРЕШИТЬ ИНДЕКСАЦИЮ САЙТА ОДНОМУ РОБОТУ И ЗАПРЕТИТЬ ВСЕМ ОСТАЛЬНЫМ

User-agent: Googlebot
Disallow:
 
User-agent: *
Disallow: /

Порядок user-agent внутри файла не важен. Если какой-то user-agent не указан – используется запись для ближайшего к нему по смыслу. В примере выше googlebot-images будет использовать правила для googlebot, потому что отдельных правил для него нет.

ЗАПРЕТИТЬ К ИНДЕКСАЦИИ ВСЕ ФАЙЛЫ, КРОМЕ ОДНОГО

User-agent: *
Disallow: /
Allow: document

ЗАПРЕТИТЬ К ИНДЕКСАЦИИ ВСЕ ФАЙЛЫ С РАСШИРЕНИЕМ

User-agent: *
Disallow: /*.png$

РАЗРЕШИТЬ К ИНДЕКСАЦИИ ФАЙЛЫ, В НАЗВАНИИ КОТОРЫХ ЕСТЬ “ID=” И ЗАПРЕТИТЬ ОСТАЛЬНОЕ

User-agent: *
Allow: *id=*
Disallow: /

ДИРЕКТИВА HOST

User-agent: Yandex
Disallow:
Host: site.com

Эту директиву использует только Яндекс, и она указывает, какую версию домена использовать для индексации.

Если сайт на http-протоколе, то протокол не указываем, если на https – указываем.

ДИРЕКТИВА SITEMAP

User-agent: Googlebot
Disallow:
Sitemap: http://site.com/sitemap.xml

Указывает полный путь к карте сайта в формате “XML”.

ДИРЕКТИВА CRAWL-DELAY

User-agent: Googlebot
Disallow:
Crawl-delay: 10 

Эта директива указывает на задержку при загрузке страниц роботом. Это может помочь, если сервер слабый, а роботы создают на него большую нагрузку.

Стандартный robots.txt для популярных CMS

Для популярных CMS «из коробки» есть стандартные конфигурации robots.txt, которые позволяют закрыть ненужные для seo страницы от индексации.

Robots.txt для Wordpress

User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /tag
Disallow: /category
Disallow: /archive
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Host: site.com
Sitemap: http://site.com/sitemap.xml

Robots.txt для OpenCart

User-agent: *
Disallow: /*route=account/
Disallow: /*route=affiliate/
Disallow: /*route=checkout/
Disallow: /*route=product/search
Disallow: /index.php?route=product/product*&manufacturer_id=
Disallow: /admin
Disallow: /catalog
Disallow: /download
Disallow: /export
Disallow: /system
Disallow: /*?sort=
Disallow: /*&sort=
Disallow: /*?order=
Disallow: /*&order=
Disallow: /*?limit=
Disallow: /*&limit=
Disallow: /*?filter_name=
Disallow: /*&filter_name=
Disallow: /*?filter_sub_category=
Disallow: /*&filter_sub_category=
Disallow: /*?filter_description=
Disallow: /*&filter_description=
Disallow: /*?tracking=
Disallow: /*&tracking=
Disallow: /*?page=
Disallow: /*&page=
Disallow: /wishlist
Disallow: /login
Disallow: /index.php?route=product/manufacturer
Disallow: /index.php?route=product/compare
Disallow: /index.php?route=product/category
Host: site.com
Sitemap: http://site.com/sitemap.xml 

Robots.txt для Joomla 

User-agent: * 
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Host: site.com
Sitemap: http://site.com/sitemap.xml

Robots.txt для поддоменов и подпапок

Файл robots.txt, размещенный на поддомене, действителен только для этого поддомена.

http://www.site.com/robots.txt  http://site.com/robots.txt

http://en.site.com/robots.txt

В примере выше – три файла robots для различных поддоменов, каждый из них будет работать только для своего поддомена.

http://site.com/folder/robots.txt

Такой файл не учитывает поисковые системы – роботы не ищут файлы robots.txt в подкаталогах.

Частые ошибки в robots.txt

ОТСУТСТВИЕ ИНСТРУКЦИИ DISALLOW

Даже если мы хотим просто использовать дополнительную директиву и не хотим ничего запрещать, лучше всего указать пустой Disallow. По стандарту инструкция Disallow является обязательной, и робот может «неправильно вас понять».
 
Так неправильно:
 
User-agent: Yandex
Host: site.com
 
Так правильно:
 
User-agent: Yandex
Disallow:
Host: site.com 

ОТСУТСТВИЕ СЛЕШЕЙ ПРИ УКАЗАНИИ ДИРЕКТОРИИ
 
User-agent: *
Disallow: private

При таком указании робот не будет индексировать файл с именем “private” и директорию с именем “private”.

Для указания только директории надо писать так:

User-agent: *
Disallow: /private/

Как проверить robots.txt?

Проверить правильность robots.txt можно с помощью вебмастеров Яндекс и Google.

Search Console – для Google.

Для проверки войдите в аккаунт, к которому привязан сайт, для какого создан robots.txt, и перейдите на “Сканирование → Инструмент проверки файла robots.txt”.
проверка robots.txt

Позволяет проверить файл на ошибки + проверить, разрешен ли к индексации конкретный URL.

Анализ robots.txt в Яндекс.Вебмастер

https://webmaster.yandex.ru/tools/robotstxt/ 
как проверить robots.txt

Возможности:

  • не нужно авторизироваться;
  • можно проверить сайт, не привязанный к вашему аккаунту;
  • можно проверить файл,  невылитый в сеть;
  • можно проверить список URL на разрешение к индексу.

ВЫВОДЫ:

Robots позволяет оптимизаторам указать важную для индексации информацию, но помните, что robots.txt – это рекомендации, а не указания для поисковых роботов, и они не всегда следуют им. Всегда проверяйте настройки robots с помощью вебмастеров. Следите, чтобы инструкции, указанные в robots, не вступали в конфликт или не дублировались с мета-тегами “noindex, nofollow” и мета-тегом “robots” на сайте, так как это может привести к некорректной обработке правил.

Автор статьи: Заяц Евгений

Получай свежие статьи первым по E-mail

Интересное

  • Что такое robots.txt?
  • Книги для бизнеса, сервиса, онлайн торговли
  • Как продавать самым жадным покупателям?