SeoMack

Яндекс всеми доступными способами твердит нам про улучшение качества и белые методы. Сегодня я предлагаю заняться одним из методов улучшения качества представления сайта в индексе – написания правильного robots.txt, который позволит выкинуть из индекса те страницы, которые не должны там быть.

Что такое robots txt?

Robots.txt – маленький текстовый файл в корне сайта с большими возможностями. Он служит для передачи служебной информации поисковым роботам. Здесь можно указать какое из зеркал сайта главное для робота-зеркальщика или запретить ходить на те или иные страницы. Это-то нам и нужно.

Синтаксис robots txt

Вот пример скелета robots.txt

User-agent: *

Disallow:

Host: yusia.ru

Разберем каждую строчку файла и поймем зачем она нам нужна.

User-agent – параметр, передающий имя робота, которых захочет залезть в ваш файл. Для Яндекса это «User-agent: Yandex». По умолчанию * подразумевает, что такие указания мы дадим любому роботу.

Disallow позволяет нам закрыть от индексации страницу. Сюда мы должны вписать те разделы, которые не хотим иметь в поиске. Например, «Disallow: /wp-admin/» закроет от индексации админку блога на Вордпресс. Самое важное: перечисление разделов, подлежащих закрытию от индексации нужно начинать каждый с новой строки

Disallow: /wp-admin/

Disallow: /?s=*

И, наконец, Host расскажет какое зеркало считать главным. А теперь самое интересное.

Какие именно страницы нужно закрывать в robots txt?

В первую очередь зайдите в расширенный поиск Яндекса введите в поле «На сайте» имя своего домена и нажмите кнопку Найти. В результатах поиска много узнать много чего нового, но здесь поговорим именно про ненужные страницы. Прежде всего стоит обратить внимание на служебные страницы, которые не несут практической пользы. Или страницы дублирующие содержание какой-то другой. В большинстве случаев, это страницы со входом в администраторскую часть сайта, пустой профиль админа (именно пустой, при отсутствии адекватного текста о себе), версии для печатей, страницы с результатами поиска или просто страницы с ошибками кода, которые давно не работают. Такие страницы можно легко распознать по непонятным заголовкам title, адресу страницы или набором символов в сниппете.

Не стоит забывать про различные фильтры и сортировки, это касается интернет магазинов. В robots.txt можно закрыть не только целый раздел или конкретную страницу, но и страницы, содержащие кусок url. Реализуется это так:

Disallow: /*sort

Вывод: Ненужные страницы закрывать в robots.txt нужно обязательно. Это позволит поисковой системе избавиться от ненужных страниц, что косвенно повысит доверие к Вашему сайту. Даже если сейчас какая-то из этих страниц не индексируется, лучше запретить ее прямо сейчас, пока ПС ее случайно не нашел.

Сделать бесплатный сайт с uCoz