May 25

И так, в этот раз хотел бы рассказать о небольшой проблемке, возникшей на одном из моих сайтов. А случилось следующее, Google умудрился “съесть” https-версию сайта, мало того, он выбрал основным зеркалом https-морду. Стоит ли говорить, что позиции сайта после такого нежелательного увеличения дублей (а https версия сайта была точной копией http версии, и собственно не предназначалась для поисковых ботов) просели.

Первым делом иду смотреть что посоветует сам Google… google.com/support/webmasters

Для каждого порта должен быть создан собственный файл robots.txt. В частности, если используются протоколы http и https, для каждого из них потребуются отдельные файлы robots.txt. Например, чтобы разрешить поисковому роботу Google индексировать все страницы http и запретить сканировать https, файлы robots.txt должны выглядеть так, как описано ниже.

Для протокола http (http://server.ru/robots.txt):

User-agent: * Allow: /

Для протокола https (https://server.ru/robots.txt):

User-agent: * Disallow: /

Но что делать если http и https-файлы сайта лежат в одной папке?

В данной ситуации на помощь придет файл .htaccess - создаем для сайта два файла robots.txt, первый файл будет содержать все необходимые для нормальной индексации сайта инструкции, а второй будет полностью запрещать индексацию - Disallow: / - как и рекомендует Google. Второй файл мы назовем robots-https.txt, а в .htaccess запишем такие строки:

RewriteEngine on

RewriteCond %{HTTPS} on
RewriteRule ^robots\.txt$ robots-https.txt

Что это значит на практике? При обращении поискового робота к сайту через http паук получает стандартный файл robots.txt, а при обращении через https-порт поисковый бот получит файл robots-https.txt в котором полностью запрещена индексация сайта.

После проведения описанной выше процедуры на третьи сутки все https-страницы моего сайта из базы Google исчезли. Надеюсь кому-нибудь пригодится этот небольшой опыт

Google Bookmarks del.icio.us News2.ru БобрДобр.ru RUmarkz Ваау! Memori.ru rucity.com МоёМесто.ru

10 Responses to “Запрет индексации https с помощью .htaccess”

  1. Наталья Says:

    Спасибо, очень вовремя эта публикация, у меня на одном из интернет магазинов аналогичная проблема была

  2. Natali Says:

    Весьма актуально..правда, для тех, кто в основном создаёт сайты “вручную”, без помощи скажем конструкторов сайтов.

  3. Kostya Says:

    Семен, а позиции сразу вернулись?

  4. Svift Says:

    2 Kostya, вернулись на третий день, но весь этот процесс совпал с апдейтом Гугла и поэтому точно оценить момент возврата позиций сложно, вполне возможно, что без апдейта пришлось бы дольше ждать возврата позиций, но https-страницы исчезли из индекса действительно на третий день

  5. PROKOP Says:

    спасибо, не могли бы Вы написать статью как скрывать счетчики от индексации, чтобы меньше было исходящих ссылок. Мне рекомендовали через js, только как

  6. Svift Says:

    >написать статью как скрывать счетчики от индексации

    В этом нет никакой необходимости, так как “утекание” веса по исходящим ссылкам пренебрежительно мало…

  7. Serg Says:

    Ребята подскажите пожалуйста. Сайт новый - гугл сожрал две версии с www и без, я хотел бы что бы в индексе странички были без www, как запретить индексацию всех страниц с www ?

  8. Svift Says:

    Редирект сделать со страниц с www на станицы без www (301-й редирект)

  9. Serg Says:

    Сделал и разобрался, большое спасибо :)

  10. 1dam Says:

    Интерестно, что будет с яндексом когда он будет индексировати еще и англискую версию сайта, снова будет почет и уважуха seo специалистам.

Leave a Reply