Запрет индексации https с помощью .htaccess
И так, в этот раз хотел бы рассказать о небольшой проблемке, возникшей на одном из моих сайтов. А случилось следующее, Google умудрился “съесть” https-версию сайта, мало того, он выбрал основным зеркалом https-морду. Стоит ли говорить, что позиции сайта после такого нежелательного увеличения дублей (а https версия сайта была точной копией http версии, и собственно не предназначалась для поисковых ботов) просели.
Первым делом иду смотреть что посоветует сам Google… google.com/support/webmasters
Для каждого порта должен быть создан собственный файл robots.txt. В частности, если используются протоколы http и https, для каждого из них потребуются отдельные файлы robots.txt. Например, чтобы разрешить поисковому роботу Google индексировать все страницы http и запретить сканировать https, файлы robots.txt должны выглядеть так, как описано ниже.
Для протокола http (http://server.ru/robots.txt):
User-agent: * Allow: /
Для протокола https (https://server.ru/robots.txt):
User-agent: * Disallow: /
Но что делать если http и https-файлы сайта лежат в одной папке?
В данной ситуации на помощь придет файл .htaccess – создаем для сайта два файла robots.txt, первый файл будет содержать все необходимые для нормальной индексации сайта инструкции, а второй будет полностью запрещать индексацию – Disallow: / – как и рекомендует Google. Второй файл мы назовем robots-https.txt, а в .htaccess запишем такие строки:
RewriteEngine on
RewriteCond %{HTTPS} on
RewriteRule ^robots\.txt$ robots-https.txt
Что это значит на практике? При обращении поискового робота к сайту через http паук получает стандартный файл robots.txt, а при обращении через https-порт поисковый бот получит файл robots-https.txt в котором полностью запрещена индексация сайта.
После проведения описанной выше процедуры на третьи сутки все https-страницы моего сайта из базы Google исчезли. Надеюсь кому-нибудь пригодится этот небольшой опыт
Смотрите также:
9 Comments
Natali on May 30th, 2007
Весьма актуально..правда, для тех, кто в основном создаёт сайты “вручную”, без помощи скажем конструкторов сайтов.
Kostya on May 30th, 2007
Семен, а позиции сразу вернулись?
Svift on May 30th, 2007
2 Kostya, вернулись на третий день, но весь этот процесс совпал с апдейтом Гугла и поэтому точно оценить момент возврата позиций сложно, вполне возможно, что без апдейта пришлось бы дольше ждать возврата позиций, но https-страницы исчезли из индекса действительно на третий день
PROKOP on August 15th, 2007
спасибо, не могли бы Вы написать статью как скрывать счетчики от индексации, чтобы меньше было исходящих ссылок. Мне рекомендовали через js, только как
Svift on August 15th, 2007
>написать статью как скрывать счетчики от индексации
В этом нет никакой необходимости, так как “утекание” веса по исходящим ссылкам пренебрежительно мало…
Serg on October 31st, 2007
Ребята подскажите пожалуйста. Сайт новый – гугл сожрал две версии с www и без, я хотел бы что бы в индексе странички были без www, как запретить индексацию всех страниц с www ?
Svift on October 31st, 2007
Редирект сделать со страниц с www на станицы без www (301-й редирект)
Serg on October 31st, 2007
Сделал и разобрался, большое спасибо



Наталья on May 25th, 2007
Спасибо, очень вовремя эта публикация, у меня на одном из интернет магазинов аналогичная проблема была