Продвижение сайтов в Москве и регионах
8-800-777-42-50
8-977-388-9-345
Написать директору

Этот загадочный robots.txt

Если вам нравится наш жираф, нажмите:
Автор статьи: Юрий Васильчиков
Файл robots.txt не случайно можно назвать загадочным. Небольшой и с виду ничем не примечательный, он играет большую роль в продвижении и предназначен для поисковых роботов. А с роботами, как известно, не шутят...
Подробнее о том, что такое файл robots.txt
Чтобы понять, что такое файл robots.txt, нужно представить, как работают поисковые системы.
Индексирующие роботы запускают скрипты — определённые программы, которые обходят сайты и анализируют, что на них есть, что изменилось. У Яндекса таких машин с десяток, если не больше. Файл robots.txt содержит инструкции для роботов, то есть прописывает, что делать, куда смотреть, куда не смотреть и т. д.
Это своего рода руководство к действию для поискового робота. Поэтому важно понять следующее:
файл robots.txt должен быть обязательно, даже если вы не хотите ничего закрывать и ничего не хотите сообщать поисковым роботам;
в файле robots.txt необходимо прописать несколько ключевых моментов — несколько директив по умолчанию;
все продвигаемые страницы сайта в robots.txt должны быть открыты.
Почему файл robots.txt важен?
Тому, у кого-то есть сомнения в важности файла robots.txt, настоятельно рекомендуем прочитать всю документацию поисковой системы Яндекс по этому файлу. Почему файл robots.txt важен?
Если написать в robots.txt что-нибудь не то, можно получить большой негативный эффект.
Если что-нибудь не дописать, можно многое потерять.
В robots.txt прописывается, что мы закрываем, что открываем, и делается это по определённым маскам, поэтому неподготовленному пользователю или владельцу сайта далеко не всегда всё в robots.txt понятно.
К robots.txt нужно относиться с большим вниманием!
Иногда клиенты приходят в панике и просят помочь: сайт провалился. После детального анализа выясняется, что веб-мастер, с которым они поссорились, закрыл в файле robots.txt полсайта или весь сайт. А бывает, что файл удаляют по незнанию или по неосторожности.
Помните, что с роботами не шутят!
Что нужно обязательно прописать в файле robots.txt?
1) Директиву Host
Эта директива определяет главное зеркало сайта.
Поясню на примере нашего ресурса, что это такое. Формально www.eggo.ru и eggo.ru — два разных сайта. И поисковая система изначально понятия не имеет, что это одно и то же.
Поисковой системе нужно как-то сказать, что на www.eggo.ru и на eggo.ru находится один сайт. Для этого мы определённым образом прописываем директиву Host, и делаем это для обоих вариантов.
Теперь, куда бы ни зашли роботы поисковой системы: на www.eggo.ru или на вариант сайта без www, — они видят нашу директиву Host и понимают, находясь на странице без www, что это зеркальная копия сайта, который находится по адресу www.eggo.ru. Поэтому в индексе поисковой системы есть только страницы нашего сайта с www — зеркала там нет.
Почему важно определить главное зеркало сайта?
Для начала ответим на такой вопрос: нужно ли и можно ли в качестве главного сайта указывать вариант без www?
Если сайт молодой, владелец сайта выбирает тот вариант, который ему больше нравится. Для продвижения в этом случае не имеет значения, с каким сайтом работать. Нет правила, что сайт с тремя www продвигать легче.
Но если сайт Яндексом проиндексирован и уже присутствует в поисковой системе, выбор «нравится/не нравится» не подходит. В этом случае нужно смотреть, какой из вариантов присутствует в выдаче и как его поисковая система ранжирует.
Сайт, который находится выше в поисковой выдаче, и берётся для дальнейшего продвижения. Если взять другой сайт, возможны неприятные вещи, связанные с переклейкой: например, сайт может на какое-то время провалиться или же совсем исчезнуть.
Работая с клиентскими сайтами в определённых трудных ситуациях, нам иногда приходится идти по пути наибольшего сопротивления. Поэтому мы знаем, как это сложно, и рекомендуем этого избегать.
Если у вас директива Host в robots.txt не прописана, заходите в Яндекс и смотрите по какому-нибудь запросу, где ваш сайт присутствует в выдаче. Тот вариант, который стоит в выдаче, и нужно внести в директиву Host.
2) Директиву Disallow
В директиве Disallow перечисляются страницы, которые мы хотим закрыть от индексации поисковыми системами. Не случайно в переводе с английского disallow значит «запретить».
Что обычно запрещают в директиве Disallow?
Какие-то повторяющиеся страницы
Иногда на сайте встречаются повторяющиеся страницы, которые по какой-либо причине удалить нельзя. Тогда достаточно включить все такие страницы, кроме одной, в директиву Disallow.
Почему иногда трудно удалить продублированные страницы? Такое случается, если у вас типовые продуктовые страницы, а движок сайта и система управления ресурсом не позволяют их сделать разными в силу каких-то обстоятельств.
И если на данный момент нет возможности и желания глобально перерабатывать сайт, одинаковые страницы лучше временно закрыть — до тех пор, пока сайт не будет поставлен на другую систему управления.
Результаты поиска
Если на сайте есть внутренний поиск по материалам сайта, результат этого поиска желательно тоже закрыть от индексации.
Неуникальные документы
Неуникальные документы в формате doc, xls, то есть Word, Excel, PDF, желательно закрывать от индексации. Чем сайт уникальнее с точки зрения поисковой системы, тем лучше.
Иногда с помощью директивы Disallow закрывают и административный раздел сайта. Однако делать этого не стоит.
Robots.txt открыт для просмотра любому пользователю. Если прописать в файле административный раздел, злоумышленники могут легко и просто через robots.txt получить доступ к системе управления сайтом.
При желании закрыть административный отдел можно с помощью специальных мета-тег robots noindex. Но это уже обязанность технических специалистов, которые должны быть в курсе таких вещей и грамотно, правильно их применять.
3) Директиву Sitemap
Директива Sitemap по умолчанию обязательно прописывается в файле robots.txt. Здесь достаточно указать просто адрес, где лежит карта сайта, в формате Google Sitemap, который, кстати, умеет распознавать и Яндекс.




Возврат к списку