В этой статье мы будем разбирать что свойственно robots.txt, его особенности, как его составить для отдельного поисковика, для чего он вообще нужен, что он умеет и многое другое.
Для начала немного материала с wikipedia:
robots.txt — файл ограничения доступа к содержимому роботам на http-сервере. Файл должен находиться в корне сайта (то есть иметь путь относительно имени сайта /robots.txt). При наличии нескольких поддоменов файл должен располагаться в корневом каталоге каждого из них. Данный файл дополняет стандарт Sitemaps, который служит прямо противоположной цели: облегчать роботам доступ к содержимому.
Рассмотрим простую схему, чтобы нам было еще лучше понятнее:
Создание robots.txt:
Создается он достаточно просто, открываем любой текстовый редактор, заполняем его нужной информацией и сохраняем под именем robots.txt, ну а дальше заливаем к себе на сайт.
Рассмотрим примитивный robots.txt:
User-Agent: *Disallow: /cgi-bin/Disallow: /user/
Disallow: /tmp/
Тут мы видим, что поисковик будет заблокирован при попытке получить доступ к папкам cgi-bin, user, tmp
Хочу обратить ваше внимание на то, что если после названия папки вы не указали слэш «/«, к примеру сделали примерно следующее: /tmp , то будет блокироваться не только папка но и все файлы в tmpтак же можно создать robots.txt с определенными закрытыми путями для какого-либо поисковика например яндекс. User-Agent: *Disallow: /cgi-bin/Disallow: /user/Disallow: /tmp/User-Agent: YandexDisallow: /cgi-bin/Disallow: /user/Disallow: /tmp/Disallow: /yandex/
так же в любом нормальном robots.txt, необходимо указать Host, никогда не задумывался зачем он , но пусть будет нам он не помешает
User-Agent: *Disallow: /cgi-bin/Disallow: /user/Disallow: /tmp/
Host: www.d-ragon.ru
Как сказал мне один знакомый, который очень хорошо разбирается в seo, что в host нету разницы между _www.site.ru и _site.ru, тут он лишь указывает на адрес сайта.
Ну и думаю финальным этапом для нас будет — это просто указать в нашем robots.txt нашу карту (sitemap)
User-Agent: *Disallow: /cgi-bin/Disallow: /user/Disallow: /tmp/Host: www.d-ragon.ru
Sitemap: http://d-ragon.ru/sitemap.xml
С вами был DragoN
Источник: http://d-ragon.ru/
Теги: robots.txt