И так, в этот раз хотел бы рассказать о небольшой проблемке, возникшей на одном из моих сайтов. А случилось следующее, Google умудрился “съесть” https-версию сайта, мало того, он выбрал основным зеркалом https-морду. Стоит ли говорить, что позиции сайта после такого нежелательного увеличения дублей (а https версия сайта была точной копией http версии, и собственно не предназначалась для поисковых ботов) просели.
Первым делом иду смотреть что посоветует сам Google… google.com/support/webmasters
Для каждого порта должен быть создан собственный файл robots.txt. В частности, если используются протоколы http и https, для каждого из них потребуются отдельные файлы robots.txt. Например, чтобы разрешить поисковому роботу Google индексировать все страницы http и запретить сканировать https, файлы robots.txt должны выглядеть так, как описано ниже.
Для протокола http (http://server.ru/robots.txt):
User-agent: * Allow: /
Для протокола https (https://server.ru/robots.txt):
User-agent: * Disallow: /
Но что делать если http и https-файлы сайта лежат в одной папке?
В данной ситуации на помощь придет файл .htaccess - создаем для сайта два файла robots.txt, первый файл будет содержать все необходимые для нормальной индексации сайта инструкции, а второй будет полностью запрещать индексацию - Disallow: / - как и рекомендует Google. Второй файл мы назовем robots-https.txt, а в .htaccess запишем такие строки:
RewriteEngine on
RewriteCond %{HTTPS} on
RewriteRule ^robots\.txt$ robots-https.txt
Что это значит на практике? При обращении поискового робота к сайту через http паук получает стандартный файл robots.txt, а при обращении через https-порт поисковый бот получит файл robots-https.txt в котором полностью запрещена индексация сайта.
После проведения описанной выше процедуры на третьи сутки все https-страницы моего сайта из базы Google исчезли. Надеюсь кому-нибудь пригодится этот небольшой опыт


May 25th, 2007 at 04:40
Спасибо, очень вовремя эта публикация, у меня на одном из интернет магазинов аналогичная проблема была
May 30th, 2007 at 01:00
Весьма актуально..правда, для тех, кто в основном создаёт сайты “вручную”, без помощи скажем конструкторов сайтов.
May 30th, 2007 at 05:50
Семен, а позиции сразу вернулись?
May 30th, 2007 at 06:08
2 Kostya, вернулись на третий день, но весь этот процесс совпал с апдейтом Гугла и поэтому точно оценить момент возврата позиций сложно, вполне возможно, что без апдейта пришлось бы дольше ждать возврата позиций, но https-страницы исчезли из индекса действительно на третий день
August 15th, 2007 at 18:42
спасибо, не могли бы Вы написать статью как скрывать счетчики от индексации, чтобы меньше было исходящих ссылок. Мне рекомендовали через js, только как
August 15th, 2007 at 18:48
>написать статью как скрывать счетчики от индексации
В этом нет никакой необходимости, так как “утекание” веса по исходящим ссылкам пренебрежительно мало…
October 31st, 2007 at 18:44
Ребята подскажите пожалуйста. Сайт новый - гугл сожрал две версии с www и без, я хотел бы что бы в индексе странички были без www, как запретить индексацию всех страниц с www ?
October 31st, 2007 at 18:56
Редирект сделать со страниц с www на станицы без www (301-й редирект)
October 31st, 2007 at 21:45
Сделал и разобрался, большое спасибо
April 22nd, 2008 at 11:57
Интерестно, что будет с яндексом когда он будет индексировати еще и англискую версию сайта, снова будет почет и уважуха seo специалистам.