Запрет индексации https с помощью .htaccess

И так, в этот раз хотел бы рассказать о небольшой проблемке, возникшей на одном из моих сайтов. А случилось следующее, Google умудрился “съесть” https-версию сайта, мало того, он выбрал основным зеркалом https-морду. Стоит ли говорить, что позиции сайта после такого нежелательного увеличения дублей (а https версия сайта была точной копией http версии, и собственно не предназначалась для поисковых ботов) просели.

Первым делом иду смотреть что посоветует сам Google… google.com/support/webmasters

Для каждого порта должен быть создан собственный файл robots.txt. В частности, если используются протоколы http и https, для каждого из них потребуются отдельные файлы robots.txt. Например, чтобы разрешить поисковому роботу Google индексировать все страницы http и запретить сканировать https, файлы robots.txt должны выглядеть так, как описано ниже.

Для протокола http (http://server.ru/robots.txt):

User-agent: * Allow: /

Для протокола https (https://server.ru/robots.txt):

User-agent: * Disallow: /

Но что делать если http и https-файлы сайта лежат в одной папке?

В данной ситуации на помощь придет файл .htaccess – создаем для сайта два файла robots.txt, первый файл будет содержать все необходимые для нормальной индексации сайта инструкции, а второй будет полностью запрещать индексацию – Disallow: / – как и рекомендует Google. Второй файл мы назовем robots-https.txt, а в .htaccess запишем такие строки:

RewriteEngine on

RewriteCond %{HTTPS} on
RewriteRule ^robots\.txt$ robots-https.txt

Что это значит на практике? При обращении поискового робота к сайту через http паук получает стандартный файл robots.txt, а при обращении через https-порт поисковый бот получит файл robots-https.txt в котором полностью запрещена индексация сайта.

После проведения описанной выше процедуры на третьи сутки все https-страницы моего сайта из базы Google исчезли. Надеюсь кому-нибудь пригодится этот небольшой опыт


Смотрите также:

9 Comments

Наталья  on May 25th, 2007

Спасибо, очень вовремя эта публикация, у меня на одном из интернет магазинов аналогичная проблема была

Natali  on May 30th, 2007

Весьма актуально..правда, для тех, кто в основном создаёт сайты “вручную”, без помощи скажем конструкторов сайтов.

Kostya  on May 30th, 2007

Семен, а позиции сразу вернулись?

Svift  on May 30th, 2007

2 Kostya, вернулись на третий день, но весь этот процесс совпал с апдейтом Гугла и поэтому точно оценить момент возврата позиций сложно, вполне возможно, что без апдейта пришлось бы дольше ждать возврата позиций, но https-страницы исчезли из индекса действительно на третий день

PROKOP  on August 15th, 2007

спасибо, не могли бы Вы написать статью как скрывать счетчики от индексации, чтобы меньше было исходящих ссылок. Мне рекомендовали через js, только как

Svift  on August 15th, 2007

>написать статью как скрывать счетчики от индексации

В этом нет никакой необходимости, так как “утекание” веса по исходящим ссылкам пренебрежительно мало…

Serg  on October 31st, 2007

Ребята подскажите пожалуйста. Сайт новый – гугл сожрал две версии с www и без, я хотел бы что бы в индексе странички были без www, как запретить индексацию всех страниц с www ?

Svift  on October 31st, 2007

Редирект сделать со страниц с www на станицы без www (301-й редирект)

Serg  on October 31st, 2007

Сделал и разобрался, большое спасибо :)

Leave a Comment