Запрет индексации https страниц с помощью .htaccess

16
1178

И так, в этот раз хотел бы рассказать о небольшой проблемке, возникшей на одном из моих сайтов. А случилось следующее, Google умудрился «съесть» https-версию сайта, мало того, он выбрал основным зеркалом https-морду. Стоит ли говорить, что позиции сайта после такого нежелательного увеличения дублей (а https версия сайта была точной копией http версии, и собственно не предназначалась для поисковых ботов) просели.

Первым делом иду смотреть что посоветует сам Google… google.com/support/webmasters

Для каждого порта должен быть создан собственный файл robots.txt. В частности, если используются протоколы http и https, для каждого из них потребуются отдельные файлы robots.txt. Например, чтобы разрешить поисковому роботу Google индексировать все страницы http и запретить сканировать https, файлы robots.txt должны выглядеть так, как описано ниже.

Для протокола http (http://server.ru/robots.txt):

User-agent: * Allow: /

Для протокола https (https://server.ru/robots.txt):

User-agent: * Disallow: /

Но что делать если http и https-файлы сайта лежат в одной папке?

Запрещаем индексацию https версии сайта с помощью .htaccess

В данной ситуации на помощь придет файл .htaccess — создаем для сайта два файла robots.txt, первый файл будет содержать все необходимые для нормальной индексации сайта инструкции, а второй будет полностью запрещать индексацию — Disallow: / — как и рекомендует Google. Второй файл мы назовем robots-https.txt, а в .htaccess запишем такие строки:

RewriteEngine on

RewriteCond %{HTTPS} on
RewriteRule ^robots\.txt$ robots-https.txt

Что это значит на практике? При обращении поискового робота к сайту через http паук получает стандартный файл robots.txt, а при обращении через https-порт поисковый бот получит файл robots-https.txt в котором полностью запрещена индексация сайта.

.htaccess - запрещаем индексацию https страниц

После проведения описанной выше процедуры на третьи сутки все https-страницы моего сайта из базы Google исчезли. Надеюсь кому-нибудь пригодится этот небольшой опыт

(1 оценок, среднее: 5,00 из 5)
Загрузка...

16 КОММЕНТАРИИ

  1. Весьма актуально..правда, для тех, кто в основном создаёт сайты «вручную», без помощи скажем конструкторов сайтов.

  2. 2 Kostya, вернулись на третий день, но весь этот процесс совпал с апдейтом Гугла и поэтому точно оценить момент возврата позиций сложно, вполне возможно, что без апдейта пришлось бы дольше ждать возврата позиций, но https-страницы исчезли из индекса действительно на третий день

  3. спасибо, не могли бы Вы написать статью как скрывать счетчики от индексации, чтобы меньше было исходящих ссылок. Мне рекомендовали через js, только как

  4. >написать статью как скрывать счетчики от индексации

    В этом нет никакой необходимости, так как «утекание» веса по исходящим ссылкам пренебрежительно мало…

  5. Ребята подскажите пожалуйста. Сайт новый — гугл сожрал две версии с www и без, я хотел бы что бы в индексе странички были без www, как запретить индексацию всех страниц с www ?

  6. RewriteRule ^robots.txt$ robots-https.txt

    В данной строке нужен символ «»? Просто сделал все как написано без него (советовали на форуме), https страницы все еще в индексе у гугла. Может быть причина в этом?

  7. 2Vasiliy111 проверяется всё очень просто — попробуйте открыть ваш файл robots.txt через https соединение, например вот так https://www.google.ru/robots.txt и если вы видите, что при таком обращении роботс открывается запрещающий — значит всё правильно сделано!

  8. Вы знаете проверил, открывается страница:
    404 File not found.

    А должно же быть:
    User-agent: * Disallow: /

  9. У меня есть другие редиректы, работающие, — проблема в хостинге отпадает!
    наверное ошибки в .htaccess!?

  10. Тогда только в нём, может где-то, что-то конфликтует, если есть другие редиректы, я не силён в модреврайте, так что советовать не стану

ОСТАВЬТЕ ОТВЕТ

Please enter your comment!
Please enter your name here