Использование файла robots.txt


Robots.txt - это текстовый файл, в котором находятся очень важные параметры для индексирования вашего сайта роботами поисковых систем. Этот файл размещается в корневой папке веб-сайта, на вашем хостинге.
Пример корневой папки на хостинге:
/public_html
В зависимости от хостинг компании, корневые папки сайта могут иметь разные имена.
Как правило, хостинг компании предоставляют своим клиентам полную информацию о расположении корневой папки и других параметрах.
Robots.txt файл можно создать в обычном блокноте в формате .txt (код., UTF-8).
Например, нужно указать в robots.txt такие параметры
1) Установить правила для всех роботов:
User-agent: *
2) Запретить индексацию страницы not-found.html - страница ошибки 404
Disallow: /not-found.html
3) Запретить индексацию страницы okey.html (успешная отправка формы):
Disallow: /okey.html
4) Запретить индексацию страницы error.html (ошибка при отправки формы):
Disallow: /error.html
5) Указать для Яндекс Бота главное зеркало сайта в протоколе http// без www
Host: http://site.ru
6) Указать поисковым ботам ссылку на карту сайта в формате xml (sitemap.xml):
Sitemap: http://site.ru/sitemap.xml
Пример файла robots.txt используя вышеуказанные параметры:
User-agent: *
Disallow:
/not-found.html
Disallow:
/okey.html
Disallow:
/error.html
Host:
http://site.ru
Sitemap:
http://site.ru/sitemap.xml
User-agent - это самая главная директива, прописывается в самом верху.
Использование кириллицы запрещено в файле robots.txt и HTTP-заголовках сервера. Для указания имён доменов используйте Punycode. Адреса страниц указывайте в кодировке, соответствующей кодировке текущей структуры сайта.

Источник: Яндекс помощь вебмастеру

Директива Crawl-delay


При помощи директивы Crawl-delay, поисковому роботу можно указать паузу во времени для загрузки следующей страницы сайта, тем самым уменьшить нагрузку на сервер.
Crawl-delay необходимо добавить после User-agent и директив Disallow и Allow.
Время указывается в секундах, также поддерживаются и дробные значения.
Примеры Crawl-delay в robots.txt
User-agent: *
Crawl-delay: 3 # пауза в 3 секунды
User-agent: *
Disallow: /404.html
Crawl-delay: 5.5 # пауза в 5.5 секунды