Хочу рассказать Вам все о сайтах, что узнал сам за 10 лет.
Блог Виталия Жукова Vitalik.WS Свой сайт с нуля - легко!
Обо мне, как об авторе блога.
Подробнее
Vitalik.WSЗаметки → Как закрыть сайт от индексации? (запретить в robots.txt)

Как закрыть сайт от индексации? (запретить в robots.txt)
Заметка на тему: SEO

Иногда требуется создать сайты, которые нужны лишь для внутреннего пользования и их обязательно частично или полностью закрыть от индексации в поисковых системах. Так же это полезно и на время разработки будущего публичного сайта, ведь во время тестирования создаётся большое количество ненужной информации, разделов и прочего, что может попасть в поисковые системы. Лучше на это время запретить индексацию сайта в robots.txt.

Как полностью закрыть сайт от индексации в robots.txt?


Полностью закрытый файл robots.txt - это самый быстрый и надежный вариант, который используется, когда необходимо полностью запретить индексацию сайта. Для этого необходимо в корне сайта создать файл robots.txt и прописать в нём всего две строчки:
User-agent: *
Disallow: /

где User-agent: * - дает установку, что правила запрета или разрешения индексирования действуют для всех поисковых ботов (Яндекс, Google и так далее),
Disallow: / - говорит от том, что нужно запретить переход по всем ссылкам относительно корня сайта /. То есть, фактически, данное правило позволяет полностью закрыть сайт от индексации.

Как запретить индексацию страницы или папки в robots.txt?


Для того, что бы закрыть от индексации только лишь одну страницу или какой-то раздел (папку) сайта, нужно немного доработать написанное выше правило.

Предположим, что я захотел запретить индексацию некого раздела или папки /testing/ на своём сайте https://vitalik.ws/. Остальные же разделы сайта, включая главную, должны индексироваться.

Стандартное правило для индексации сайта всеми поисковыми системами в robots.txt выглядит так:
User-agent: *
Disallow: 

где Disallow: с пустым назначением говорит нам "на данном сайте ничего не запрещено к индексации". То есть можно индексировать всё.

Но Вы же помните, что нам нужно добавить папку /testing/ в запрет к индексированию. Для этого мы просто пишем после Disallow: с новой строки дополнительное правило:
Disallow: /testing/*

где знак * - это любые значения. То есть дословно звучит как "запретить переходы по любым страницам, файлам, подкатегориям и пр. в папке /testing/"
В итоге robots.txt будет выглядеть вот так:
User-agent: *
Disallow:
Disallow: /testing/*


Если Вы хотите добавить в запрет какой-то файл или запрос, то сделать это можно тем же способом, используя параметр Disallow и звездочку (*). Например, я хочу запретить к индексации на всём сайте GET запрос ?source=test и файл index.php в корне сайта. Я делаю это следующим образом:
User-agent: *
Disallow:
Disallow: /testing/*
Disallow: /?source=*
Disallow: /index.php

Да, я просто добавил ещё две новые строки:
Disallow: /?source=*
Disallow: /index.php

В первой Disallow: /?source=* - я запретил любой GET source запрос, о чем говорит звёздочка. Указано это от корня сайта (/), поэтому правило распространится на весь сайт.

Когда пишите такие сложные условия, то обязательно проверьте их. Как это сделать - написано ниже. Иначе, если допустите ошибку, может случайно выпасть из индексации часть сайта.


Как лучше всего проверять, закрыт ли сайт от индексации и что именно запрещено к индексированию?


Для того, что бы быть уверенным, что запрет индексации на определенные страницы или на весь сайт действует именно так, как Вы задумали, я рекомендую воспользоваться инструментами от поисковых систем. Например, это панель вебмастера от Яндекс (инструмент называется анализ robots.txt).

В данном инструменте проверки robots.txt Вы можете загрузить вписанные вами правила с работающего сайта и проверить, попадают ли определенные страницы сайт под эти правила запрета. Это нужно и полезно, что бы быть точно уверенным, что Вы закрыли от индексации именно те разделы сайта, которые и планировали.

Теперь у Вас есть все необходимые знания и инструменты для того, что бы закрыть сайт от индексации или запретить какие-то разделы сайта в robots.txt. Удачного создания новых web-проектов!

Все комментарии к заметке "Как закрыть сайт от индексации? (запретить в robots.txt)"

  • Комментариев еще нет.
    Оставьте свой комментарий первым!
Написать свой комментарий:
Отправить
ВНИМАНИЕ! Пожалуйста НЕ пишите в комментариях рекламу, оскорбления, бессмыслицу и прочие проявления интернет-нечисти, так как эти сообщения всеравно не будут опубликованы. Пишите исключительно по теме и ваш комментарий обязательно будет опубликован, а возможно и прокомментирован.
 Подписывайтесь на мой блог
Хотите первыми узнавать о самом интересном? Тогда подпишитесь на рассылку новостей.
Подписаться
Подписавшись на рассылку, Вы всегда будете в первую очередь узнавать о самой важной и полезной для блоггеров и веб-мастеров информации.