SEO - Устранение ошибок в sitemap.xml

Если основное предназначение robots.txt – это запрет индексации, то карта сайта sitemap.xml выполняет прямо противоположные задачи. Она отвечает за ускорение индексации сайта и полноту индексации сайта.

Sitemap.xml указывает поисковой системе частоту, с которой возникает необходимость в переиндексации страниц. В этом плане инструкция особенно важна для сайтов с регулярно обновляющимся контентом (новостные порталы и т. п.). Кроме того, sitemap.xml содержит все важные страницы сайта с указанием их приоритета.

Общее число sitemap.xml на сайте не должно превышать 1000, при этом число записей (урлов) в каждом не должно превышать 50 000 штук. Объем каждого сайтмапа – не более 10мегабайт Кодировка должна быть UTF-8.

Инструкции sitemap.xml и robots.txt при правильном их использовании должны дополнять друг друга. Существуют три важнейших правила взаимодействия этих инструкций:

  • sitemap.xml и robots.txt не должны противоречить друг другу;
  • все страницы, исключенные (заблокированные) в robots.txt, должны быть исключены также из sitemap.xml;
  • все индексируемые страницы, разрешенные в robots.txt, должны содержаться в sitemap.xml

При выполнении аудитов сторонних сайтов, мне наиболее часто встречались следующие ошибки.

Несоответствие sitemap.xml страницам сайта, устаревший сайтмап. Эта проблема возникает, когда сайтмап генерируется не динамически, а эпизодически, запуском какой то службы в CMS, а то и сторонними сервисами. При этом возникает масса мертвых страниц, отдающих 404 ошибку (это если страницу физически удалили или перенесли в другое место, сменили адрес URL). Кроме того, новые страницы индексируются значительно медленнее, ибо не находятся в sitemap.xml.

Следующая ошибка – неверная структура sitemap.xml. Эта ошибка возникает, как правило, на «самописных» CMS или при использовании неверных плагинов к популярной CMS.

Вот верная структура https://www.sitemaps.org/ru/protocol.html

Модификация этой ошибки – неверная работа с датой изменения записи – поле < lastmod >. Необходимо или вовсе не использовать её (что плохо), либо ставить дату последнего значимого изменения страницы, например, когда поменялась цена или товар закончился или изменилось описание.

Никак нельзя выставлять одинаковую дату изменения у всех записей – это грубейшая ошибка, вводящая в ступор краулер ПС. Представьте себе, что у 50 000 страниц одновременно поменялась дата модификации, что делать роботу ? Пересканировать урлы ? а по факту контент страниц не изменился – незадача для робота. Словите при этом фильтр краулера и новые страницы будут попадать в индекс спустя недели после их появления.

Третья группа встречаемых ошибок – логические, вызваны нарушением трех правил о сочетании robots.txt и sitemap.xml.

Обязательно добавляйте сайтмапы в вебмастера и проверяйте их на серьезные ошибки.



Copyright 2018 SEO-MOB.ru