Как полностью закрыть сайт от индексации в robots.txt?
Полностью закрытый файл robots.txt - это самый быстрый и надежный вариант, который используется, когда необходимо полностью запретить индексацию сайта. Для этого необходимо в корне сайта создать файл robots.txt и прописать в нём всего две строчки:
User-agent: * Disallow: /
где User-agent: * - дает установку, что правила запрета или разрешения индексирования действуют для всех поисковых ботов (Яндекс, Google и так далее),
Disallow: / - говорит от том, что нужно запретить переход по всем ссылкам относительно корня сайта /. То есть, фактически, данное правило позволяет полностью закрыть сайт от индексации.
Как запретить индексацию страницы или папки в robots.txt?
Для того, что бы закрыть от индексации только лишь одну страницу или какой-то раздел (папку) сайта, нужно немного доработать написанное выше правило.
Предположим, что я захотел запретить индексацию некого раздела или папки /testing/ на своём сайте https://vitalik.ws/. Остальные же разделы сайта, включая главную, должны индексироваться.
Стандартное правило для индексации сайта всеми поисковыми системами в robots.txt выглядит так:
User-agent: * Disallow:
где Disallow: с пустым назначением говорит нам "на данном сайте ничего не запрещено к индексации". То есть можно индексировать всё.
Но Вы же помните, что нам нужно добавить папку /testing/ в запрет к индексированию. Для этого мы просто пишем после Disallow: с новой строки дополнительное правило:
Disallow: /testing/*
где знак * - это любые значения. То есть дословно звучит как "запретить переходы по любым страницам, файлам, подкатегориям и пр. в папке /testing/"
В итоге robots.txt будет выглядеть вот так:
User-agent: * Disallow: Disallow: /testing/*
Если Вы хотите добавить в запрет какой-то файл или запрос, то сделать это можно тем же способом, используя параметр Disallow и звездочку (*). Например, я хочу запретить к индексации на всём сайте GET запрос ?source=test и файл index.php в корне сайта. Я делаю это следующим образом:
User-agent: * Disallow: Disallow: /testing/* Disallow: /?source=* Disallow: /index.php
Да, я просто добавил ещё две новые строки:
Disallow: /?source=* Disallow: /index.php
В первой Disallow: /?source=* - я запретил любой GET source запрос, о чем говорит звёздочка. Указано это от корня сайта (/), поэтому правило распространится на весь сайт.
Когда пишите такие сложные условия, то обязательно проверьте их. Как это сделать - написано ниже. Иначе, если допустите ошибку, может случайно выпасть из индексации часть сайта.
Как лучше всего проверять, закрыт ли сайт от индексации и что именно запрещено к индексированию?
Для того, что бы быть уверенным, что запрет индексации на определенные страницы или на весь сайт действует именно так, как Вы задумали, я рекомендую воспользоваться инструментами от поисковых систем. Например, это панель вебмастера от Яндекс (инструмент называется анализ robots.txt).
В данном инструменте проверки robots.txt Вы можете загрузить вписанные вами правила с работающего сайта и проверить, попадают ли определенные страницы сайт под эти правила запрета. Это нужно и полезно, что бы быть точно уверенным, что Вы закрыли от индексации именно те разделы сайта, которые и планировали.
Теперь у Вас есть все необходимые знания и инструменты для того, что бы закрыть сайт от индексации или запретить какие-то разделы сайта в robots.txt. Удачного создания новых web-проектов!
Все комментарии к заметке "Как закрыть сайт от индексации? (запретить в robots.txt)"
Оставьте свой комментарий первым!