Вновь хочу вам отрекомендовать блог Владимира Чернышова, который, на мой взгляд, очень интересен “практическими” публикациями. На сей раз, Владимир поделился с нами вопросами, а вернее ответами, каковы же приоритеты обработки файла robots.txt, когда в нём прописаны разные инструкции для разных роботов (поисковых пауков):
Вопрос заключался в том, какими директивами в данном случае будет руководствоваться робот Google, что для него будет запрещено? Можно подумать, что робот наткнется в первую очередь на секцию для всех роботов и именно ее правила примет к рассмотрению. Это неверное предположение. Робот при парсинге файла работает примерно по следующему алгоритму:
- Полностью получает файл robots.txt
- Выделяет в файле корректные секции
- Ищет “свою” секцию
- Если своя секция найдена принимает к руководству ее инструкции
- Если своей секции не обнаружено, то …
- …
В общем, рекомендую, разбор алгоритма обработки robots.txt
Ну и сюда же немного полезных ссылок по теме:
- Использование файла robots.txt - Справочный центр Google
- Как работает робот Яндекса - Справочный центр Яндекса
- Скрипт анализа robots.txt - сообщит, какие документы вы запретили
для индексации роботом Яндекса - Robotstxt.org - The Web Robots Pages
- …

