12 января 2016 г.

Robots.txt и sitemap.xml в блоге Blogspot

Всем привет!

Одна из первых вещей, с которой сталкивается любой, кто начинает изучать тему продвижения сайтов и поисковой оптимизации - это индексация сайта поисковыми роботами или ботами. Т.е. когда мы вводим запрос в поисковике, поиск происходит не по самим сайтам, размещенным в интернете, а по их данным, хранящимся в индексе.

Соответственно, задачи хозяина блога или вебмастера следующие: запретить роботу шариться там где не нужно и сделать его кратковременное пребывание на сайте продуктивным, направив его туда, где лежит контент.

Зачем запрещать индексацию страниц? Ну, например, чтобы в результаты поиска не попали, например, конфиденциальные или служебные данные. Часто, разнообразные "утечки" персональных данных типа номеров карт или СМС-ок происходят именно по причине того, что поисковый робот проиндексировал страницу, которую индексировать не нужно.

Так вот, за политику индексирования сайта или блога отвечает файл robots.txt. Движок Blogspot хранит его по адресу http://адрес_блога/robots.txt. Однако, кроме просмотра, доступно редактирование этого файла. Находится оно в разделе Настройки -> Настройки поиска -> Поисковые роботы и индексация.


Исчерпывающая информация об использовании директив файла содержится, например, в помощи по Яндекс.Вебмастеру. Покажу вариант, на котором остановился я:

User-agent: Mediapartners-Google
Disallow:
User-agent: Yandex
Disallow: /search
Disallow: /p/search.html
Allow: /
User-agent: *
Disallow: /search
Disallow: /p/search.html
Allow: /
Sitemap: http://www.u-ned.ru/sitemap.xml

В двух словах: файл разделен на три секции, начинающиеся с User-agent. В них прописаны прописаны два робота - Яндекс и Гугловский партнерский робот, который присутствовал там изначально (обратите внимание, директива Disallow должна присутствовать в каждой секции). Для первого добавлено два ограничения и явно указана область индексации под директивой Allow. В последней секции настройки указаны как для робота Яндекса, а в конце файла явно прописан путь к файлу sitemap.xml, чтобы робот не метался хаотически по блогу, а шел к содержательным записям.

О назначении последнего чуть подробнее. К карте сайта, какой видит ее пользователь, этот файл не имеет никакого отношения. Sitemap.xml представляет из себя обычный текстовый файл, данные в котором особым образом структурированы с помощью тегов. Нужен он для того, чтобы явно указать поисковикам какие страницы нужно индексировать в первую очередь. Если страниц у сайта достаточно много, этот файл можно разбить на несколько, чтобы за отведенное на индексацию время робот загрузил максимальное количество страниц.



На платформе Blogspot sitemap.xml лежит по адресу http://адрес_блога/sitemap.xml и какой-либо корректировке, на первый взгляд, не поддается. Впрочем, это не слишком большая проблема: что в Google Search console, что в Яндекс.Вебмастере можно указать путь к файлам sitemap.xml:




Комментариев нет:

Отправить комментарий

Related Posts Plugin for WordPress, Blogger...