Сайт закрыт от индексации

Сайт закрыт от индексации

Практические решения закрытия сайта или его части от индексации

Есть проблемы с ранжированием, проект не растет, хотите проверить работу своих специалистов по продвижению? Закажите профессиональный аудит в Семантике Мы выпустили новую книгу «Контент-маркетинг в социальных сетях: Как засесть в голову подписчиков и влюбить их в свой бренд». Подпишись на рассылку и получи книгу в подарок!

Зачем закрывают сайт или какие-то его части от индексации поисковых систем? Ответов несколько

  • Нужно скрыть от общего доступа какую то секретную информацию.
  • В целях создания релевантного контента: бывают случаи, когда хочется донести до пользователей больше информации, но она размывает текстовую релевантность.
  • Закрыть дублированный контент.
  • Скрыть мусорную информацию: поисковые системы очень не любят контент, который не несет или имеет устаревший смысл, например, календарь в афише.

Вся статья будет неким хелпом по закрытию от индексации для различных ситуаций:

Запрет индексации всего сайта с помощью robots.txt
Запрет индексации всего сайта с помощью .htaccess
Запрет индексации поддомена
Запрет индексации части текста
Запрет индексации блока на сайте
Запрет индексации счетчика или кода
Запрет индексации картинок
Запрет индексации отдельную страницу
Запрет индексации ссылок
Запрет индексации раздела
Запрет индексации папки
Запрет индексации дублей

Закрыть сайт от индексации в файле .htaccess

Способ первый

В файл .htaccess вписываем следующий код:

SetEnvIfNoCase User-Agent «^Googlebot» search_bot SetEnvIfNoCase User-Agent «^Yandex» search_bot SetEnvIfNoCase User-Agent «^Yahoo» search_bot SetEnvIfNoCase User-Agent «^Aport» search_bot SetEnvIfNoCase User-Agent «^msnbot» search_bot SetEnvIfNoCase User-Agent «^spider» search_bot SetEnvIfNoCase User-Agent «^Robot» search_bot SetEnvIfNoCase User-Agent «^php» search_bot SetEnvIfNoCase User-Agent «^Mail» search_bot SetEnvIfNoCase User-Agent «^bot» search_bot SetEnvIfNoCase User-Agent «^igdeSpyder» search_bot SetEnvIfNoCase User-Agent «^Snapbot» search_bot SetEnvIfNoCase User-Agent «^WordPress» search_bot SetEnvIfNoCase User-Agent «^BlogPulseLive» search_bot SetEnvIfNoCase User-Agent «^Parser» search_bot

Каждая строчка для отдельной поисковой системы

Способ второй и третий

Для всех страниц на сайте подойдет любой из вариантов — в файле .htaccess прописываем любой из ответов сервера для страницы, которую нужно закрыть.

  • Ответ сервера — 403 Доступ к ресурсу запрещен -код 403 Forbidden
  • Ответ сервера — 410 Ресурс недоступен — окончательно удален

Способ четвертый

Запретить индексацию с помощью доступа к сайту только по паролю

В файл .htaccess, добавляем такой код:

AuthType Basic AuthName «Password Protected Area» AuthUserFile /home/user/www-auth/.htpasswd Require valid-user home/user/www-auth/.htpasswd — файл с паролем — пароль задаете Вы сами.

Авторизацию уже увидите, но она пока еще не работает

Теперь необходимо добавить пользователя в файл паролей:

htpasswd -c /home/user/www-auth/.htpasswd USERNAME

USERNAME это имя пользователя для авторизации. Укажите свой вариант.

Закрываем блок на сайте от индекса

Довольно часто требуется закрыть от индексации определенный блок: меню, счетчик, текст или какой-нибудь код.

Когда был популярен в основном Яндекс, а Google все само как то в топ выходило, все использовали вариант Тег «noindex»

<noindex>Все что угодно тут — ссылки или текст или код</noindex>

Но потом Яндекс все чаще и чаще стал не обращать внимания на такой технический прием, а Google вообще не понимает такой комбинации и все стали использовать другую схему для скрытия от индексации части текста на странице — с помощью javascript:

Текст или любой блок — кодируется в javascript , а потом сам скрипт закрывается от индексации в robots.txt

Как это реализовать?

Нам понадобится:

  • Файл BASE64.js для декодирования того, что нужно скрыть.
  • Алгоритм SEOhide.js.
  • Jquery.
  • Robots.txt (чтобы скрыть от индексации сам файл SEOhide.js)
  • HTML код

Рассмотрим подробнее:

BASE64.js. Здесь я его приводить не буду, в данном контексте он нам не так интересен.

</pre> <pre class=»html»>$(function(){ var seoContent = {«de96dd3df7c0a4db1f8d5612546acdbb»:»0JHQu9C+0LMgU0VPINC80LDRgNC60LXRgtC+0LvQvtCz0LAgLSDQn9Cw0LLQu9CwINCc0LDQu9GM0YbQtdCy0LAu», «54cdc704188eee4573d9e6cafe5f708a»:»0JfQsNGF0L7QtNC40YLQtSwg0YfQuNGC0LDQudGC0LUsINC/0L7QtNC/0LjRgdGL0LLQsNC50YLQtdGB0YwsINGA0LDRgdGB0LrQsNC30YvQstCw0LnRgtC1INC00YDRg9C30YzRj9C8ICk=»}; var seoHrefs = {«43b7c3097587757d49558bdff19a8fcb»:»aHR0cDovL2luZXRydS5ydQ==»}; var $elements = $(«»); for(var i = 0, count = $elements.length; i < count; i++) { var $element = $elements.eq(i); var key = $element.data(«key»); switch($element.data(«type»)) { case «href»: $element.attr(«href», Base64.decode(seoHrefs)); break; case «content»: $element.replaceWith(Base64.decode(seoContent)); break; } } $(document).trigger( «renderpage.finish»); });</pre> <pre>

Переменные seoContent и seoHrefs. В одну записываем html код, в другую ссылки.

    • de96dd3df7c0a4db1f8d5612546acdbb — это идентификатор, по которому будет осуществляться замена.
    • 0JHQu9C+0LMgU0VPINC80LDRgNC60LXRgtC+0LvQvtCz0LAgLSDQn9Cw0LLQu9CwINCc0LDQu9GM0YbQtdCy0LAu— html, который будет отображаться для объявленного идентификатора.

И сам HTML файл:

</pre> <pre class=»html»><span data-key=»de96dd3df7c0a4db1f8d5612546acdbb» data-type=»content»></span><br /> <span data-key=»54cdc704188eee4573d9e6cafe5f708a» data-type=»content»></span><br /> <a href=»#» data-key=»43b7c3097587757d49558bdff19a8fcb» data-type=»href»>Перейти</a></pre> &nbsp; <pre>

В robots.txt обязательно скрываем от индексации файл SEOhide.js.

Как закрыть весь сайт от индексации в Robots.txt, оставив только главную страницу — и зачем так делать?

Прячем в роботс.тхт всё, кроме главной

Нередко возникает необходимость скрыть в файле Robots.txt разделы или отдельные страницы сайта от «глаз» поисковых роботов. Это дело известное и причины для него могут быть разные: удаление дублей контента из индекса, выкидывание «застрявших» в индексе несуществующих страниц и т.д.

Однако при создании нового сайта бывает полезным закрыть от индексации всё, кроме главной страницы.

Например, вы создаёте интернет-магазин и дальше главной роботу лучше не ходить — чтобы не индексировать пока ещё «кривые» страницы (иначе в дальнейшем могут быть торможения при продвижении..).

Почему лучше оставить главную? В этом случае ПС узнает о существовании нового сайта и начнётся т.н. увеличение траста вашего ресурса (а иначе бы поисковик узнал о вашем проекте только при его полном запуске).

Так что если вам нужно оставить сайт открытым для пользователей, но закрыть всё «нутро» от поисковых систем и в то же время — заявить о себе поисковикам, то можно применить файл Robots.txt для этих целей. Как это делается — написано дальше.

Как закрыть сайт от индексации в Robots.txt, оставив поисковикам главную страницу?

Недавно у меня возникла такая задача, пришлось немного подумать. Как оказалось, всё очень просто — составляем такой Robots.txt:

User-agent: *
Disallow: /
Allow: /$

Вот и всё. Эффект от этого можно проверить инструментом Яндекса для анализа robots.txt.

Как закрыть сайт от индексации с помощью Robots.txt полностью:

Если вообще весь ресурс нужно спрятать от поисковиков, то это совсем просто:

User-agent: *
Disallow: /

Таким образом, если на период разработки сайта вы не желаете «отдавать» ПС внутренние недоделанные страницы, но хотите уже пустить туда пользователей — закрывайте в robots.txt от индексации всё, кроме главной. И не забудьте отредактировать данный файл, когда решите пустить и роботов


Loading… Случайные публикации:

  • Что такое feedproxy.google.com в ссылках на Feedburner и как это убрать?…у адресу добавляются т.н. utm-метки, сообщающие об источнике перехода — так
  • Что такое виджет? WordPress виджеты, скачивание, установка, настройка…азархивированную папку с виджетом. После установки — активируем. Если всё прошло
  • Ретаргетинг в Яндекс.Директе для продвижения контентных сайтов. Эксперимент…икаких ключевых фраз вводить не нужно). Условие — это то, из-за чего объявление с рекламой
  • Как сделать favicon для сайта, чтоб он отображался в Яндексе?Эта статья — в продолжение темы увеличения CTR сайта в поисковой выдач…
  • Скидка 30% к пополнению баланса в СерпхантПришло время новогодних распродаж, бонусов и прочей халявы)). В…

Приветствую вас, посетители сайта Impuls-Web!

Когда вы только приступили к созданию сайта и не хотите, что бы поисковые системы индексировали его до завершения работ, вы может закрыть сайт от индексации в поисковых системах.

Так же такая необходимость может возникнуть для тестового сайта, или для сайта, который предназначен для закрытого пользования определенной группой лиц, и вам не нужно, чтобы внутренние ссылки попали в выдачу поисковиков.

Я хочу вам сегодня показать несколько достаточно простых способов, как можно закрыть сайт от индексации.

Как закрыть сайт от индексации в robots.txt?

Показанные выше варианты закрытия сайта от индексации работают для всех поисковиков, а это бывает не всегда нужно. Так же, предыдущий способ достаточно неудобен в случае, если ваш ресурс состоит из большого количества страниц, и каждую из них нужно закрыть от индексации.

В этом случае лучше воспользоваться еще одним способом закрытия сайта от индексации. Данный вариант дает нам возможность более гибко закрывать от индексации не только сайт в целом, но и отдельные страницы, медиафайлы и папки.

Для полного закрытия от индексации вам нужно создать в редакторе кода NotePad++ файл с названием robots.txt и разместить в нем такую запись:

PHP

1 2 User-agent: * Disallow: /

User-agent со значением * означает, что данное правило предназначено для всех поисковых роботов. Так же вы можете запретить индексацию для какой-то поисковой системы в отдельности. Для этого в User-agent указываем имя конкретного поискового робота. Например:

PHP

1 User-agent: Yandex

В этом случае запись будет работать только для Яндекса.

Обратите внимание. В строке User-agent может быть указан только один поисковый робот, и соответственно директивы Disallow, указанные ниже будут работать только для него. Если вам нужно запретить от индексацию в нескольких ПС, то вам нужно это сделать по отдельность для каждой. Например:
PHP

1 2 3 4 5 User-agent: Googlebot Disallow: / User-agent: Yandex Disallow: /

Так же, директива Disallow позволяет закрывать отдельные элементы. Данная директива указывается отдельно для каждого закрываемого элемента. Например:

PHP

1 2 3 User-agent: Yandex Disallow: *.jpg Disallow: /about-us.php

Здесь для поискового робота Yandex закрыты для индексации все изображение с расширением .jpg и страница /about-us.php.

Каждый из показанных приемов удобен по своему в зависимости от сложившейся ситуации. Надеюсь у меня получилось достаточно подробно рассказать вам о способах закрытия сайта от индексации, и данный вопрос у вас не вызовет трудностей в будущем.


Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *