Запрет индексации https с помощью .htaccess
25 May 2007 9 Comments
in Полезные инструменты, Практика
И так, в этот раз хотел бы рассказать о небольшой проблемке, возникшей на одном из моих сайтов. А случилось следующее, Google умудрился “съесть” https-версию сайта, мало того, он выбрал основным зеркалом https-морду. Стоит ли говорить, что позиции сайта после такого нежелательного увеличения дублей (а https версия сайта была точной копией http версии, и собственно не предназначалась для поисковых ботов) просели.
Первым делом иду смотреть что посоветует сам Google… google.com/support/webmasters
Для каждого порта должен быть создан собственный файл robots.txt. В частности, если используются протоколы http и https, для каждого из них потребуются отдельные файлы robots.txt. Например, чтобы разрешить поисковому роботу Google индексировать все страницы http и запретить сканировать https, файлы robots.txt должны выглядеть так, как описано ниже.
Для протокола http (http://server.ru/robots.txt):
User-agent: * Allow: /
Для протокола https (https://server.ru/robots.txt):
User-agent: * Disallow: /
Но что делать если http и https-файлы сайта лежат в одной папке?
В данной ситуации на помощь придет файл .htaccess – создаем для сайта два файла robots.txt, первый файл будет содержать все необходимые для нормальной индексации сайта инструкции, а второй будет полностью запрещать индексацию – Disallow: / – как и рекомендует Google. Второй файл мы назовем robots-https.txt, а в .htaccess запишем такие строки:
RewriteEngine on
RewriteCond %{HTTPS} on
RewriteRule ^robots\.txt$ robots-https.txt
Что это значит на практике? При обращении поискового робота к сайту через http паук получает стандартный файл robots.txt, а при обращении через https-порт поисковый бот получит файл robots-https.txt в котором полностью запрещена индексация сайта.
После проведения описанной выше процедуры на третьи сутки все https-страницы моего сайта из базы Google исчезли. Надеюсь кому-нибудь пригодится этот небольшой опыт
| Tweet |
|
|
9 Comments (+add yours?)
Leave a Reply
RSS
May 25, 2007 @ 04:40:46
Спасибо, очень вовремя эта публикация, у меня на одном из интернет магазинов аналогичная проблема была
May 30, 2007 @ 01:00:23
Весьма актуально..правда, для тех, кто в основном создаёт сайты “вручную”, без помощи скажем конструкторов сайтов.
May 30, 2007 @ 05:50:05
Семен, а позиции сразу вернулись?
May 30, 2007 @ 06:08:58
2 Kostya, вернулись на третий день, но весь этот процесс совпал с апдейтом Гугла и поэтому точно оценить момент возврата позиций сложно, вполне возможно, что без апдейта пришлось бы дольше ждать возврата позиций, но https-страницы исчезли из индекса действительно на третий день
Aug 15, 2007 @ 18:42:17
спасибо, не могли бы Вы написать статью как скрывать счетчики от индексации, чтобы меньше было исходящих ссылок. Мне рекомендовали через js, только как
Aug 15, 2007 @ 18:48:04
>написать статью как скрывать счетчики от индексации
В этом нет никакой необходимости, так как “утекание” веса по исходящим ссылкам пренебрежительно мало…
Oct 31, 2007 @ 18:44:29
Ребята подскажите пожалуйста. Сайт новый – гугл сожрал две версии с www и без, я хотел бы что бы в индексе странички были без www, как запретить индексацию всех страниц с www ?
Oct 31, 2007 @ 18:56:37
Редирект сделать со страниц с www на станицы без www (301-й редирект)
Oct 31, 2007 @ 21:45:30
Сделал и разобрался, большое спасибо