Индексация

@traffic_lead Телеграм-канал - "Траффик"

1. Проверка индексации каждой страницы сайта

Индексация особенно важна для больших проектов. Если в индекс попадают мусорные страницы (дубликаты, страницы с ошибками, пустые страницы), важные страницы (продвигаемые) получают меньше статического веса. Если в индекс не попадают важные страницы, сайт недополучает трафик.

- Составление списка всех важных страниц сайта (выгрузка из БД, ручное составление, Screaming Frog)

- Составить список всех страниц сайта (программы page-weight или xenu, Screaming Frog)

- Проверить все ссылки с помощью запросов url:http://www.site.ru/page/ и url:http://site.ru/page/, используя автоматический парсер ПС (программа a-parser, https://www.rush-analytics.ru/)

- Составить 4 списка: все проиндексированные важные страницы, все проиндексированные мусорные страницы, все непроиндексированные важные страницы, все непроиндексированные мусорные страницы

2. Составление списка непроиндексированных страниц, посещенных роботом

В некоторых случаях, после посещения робота, страница не попадает в индекс. Важно отличать такие страницы, от страниц, которые не в индексе и робот их не посещал, поскольку технология индексации таких страниц отличается.

- При помощь анализа логов составляется список страниц, которые посещал робот

- Получить список важных непроиндексированных страниц, не посещенных роботом и список важных непроиндексированных страниц, посещенных роботом

- Изучить список непроиндексированных страниц, которые не посещал робот ПС, это будет список страниц, на которые необходимо привести робота, чтобы они попали в индекс

- Изучить список непроиндексированных страниц, которые посетил робот ПС, это будут страницы, которые имеют проблему с дублями или статическим весом

3. Проверка возможности индексации важных областей на flash и ajax сайтах

При продвижении творческих проектов важно изучить индексацию областей, при написании которых использовались технологии Flash, Ajax или другие, с индексацией которых могут возникнуть проблемы.

- Необходимо по матрице сайта открыть текстовую сохраненную копию всех типов страниц и найти там тексты, выложенные с помощью этих технологий, если текст найти удалось – значит блок индексируется

- В редких случаях даже при отсутствии flash и ajax, на сайте может быть настолько кривая верстка, что текст не попадет в текстовый индекс

4. Проверка возможности индексации всех страниц сайта при текущих инструкциях robots.txt

После корректировки robots.txt необходимо проверить, что все важные доступны для индексации.

- Проверка осуществляется сервисом http://webmaster.yandex.ru/robots.xml;

Посмотреть в Screaming Frog блокировку cтраниц

5. Проверка целесообразности использования <noindex>, nofollow, meta noindex, meta nofollow, SEOHide

Ошибки в инструкциях индексации могут привести к выпадению важных страниц из индекса и существенным потерям трафика.

- По матрице сайта делается проверка (сервисы RDS-bar, СайтРепорт)

- Необходимо найти не закрытые <noindex> <!—noindex à <!—/noindex à

- Необходимо изучить, какие внутренние ссылки закрыты в nofollow

- Необходимо изучить, какие внешние ссылки закрыты в nofollow

- Необходимо изучить, какие страницы закрыты в meta noindex

- Необходимо изучить, какие страницы закрыты в meta nofollow

- Необходимо изучить, есть ли на сайте SEOHide и корректно ли он внедрен

6. Проверка корректности использования <noindex>, nofollow, SEOHide

После составления списка страниц, на которых используются инструкции по скрытию индексации, необходимо изучить списки на предмет ошибок. Контрольные точки:

- Не закрытый <noindex> - RDS Bar

- Индексируемый SEOHide – Проверка по сохраненной копии сайта

- Проверка корректности SEOHide с помощью плагина FireBug

- Важные страницы с meta nofollow, meta noindex – Screamig Frog -> Directives

- Rel=»Nofollow» на внутренних ссылках

7. Поиск ошибок (сравнение индексов по категориям и типам страниц)

Необходимо подробно изучить сайт на предмет ошибок. Один из способов это сделать – сравнить списки проиндексированных страниц в разных поисковых системах по тем разделам и типам страниц, где их количество в индексе различается.

- Изучаются области сайта, где в одной ПС страниц меньше, чем в другой

- Открываются страницы из списка проиндексированных, изучаются

- Изучаются те страницы, которых нет в индексе одной из поисковых систем, но есть в другой поисковой системе

- Изучаются страницы в Google, помеченные как supplemental – показать скрытые результаты

8. Поиск в индексе технических страниц

Приведены популярные типы технических страниц, которые рекомендуется закрывать от индексации, а так же некоторые варианты идентификации их через оператор inurl:

§ Файлы статистики /*_openstat

§ Страницы контекстной рекламы или меток /*from=adwords, /*utm_source=, /*utm_campaign=, /*utm_content=, /*utm_term=, /*utm_medium=

§ Корзина /cart/, /order/

§ Страницы сортировки /*sort, asc, desc, list=*

§ Страницы поиска /search/

§ Страницы авторизации /auth/

§ Версия для печати /*printable, /print

§ Напоминание пароля /remind_password/

§ Регистрация /register/

§ Административный раздел - /administrator/

§ Кэш страниц /cache/

§ Модули, подгружаемые на страницы /components/, /plugins/

§ Файлы инсталяции CMS /installation/, /installer/

§ Логи /logs/

§ Файлы /files/

§ Скрипты, таблицы стилей /ajax/, /java/, /css/

Аккаунты пользователей /user/

9. Анализ динамики индексации сайта

Динамика индексации сайта может указать на слабые места и проблемы проекта.

- Сведение статистики по списку проиндексированных страниц, собранных с параметром &how=tm позволяет нам узнать возраст страниц и изучить динамику индексации сайта

10. Проверка robots.txt на ошибки

Из-за ошибки в robots.txt весь сайт может быть исключен из индекса.

- С помощью сервиса http://webmaster.yandex.ru/robots.xml проверяем закрывает ли robots все ненужные страницы и не находит ли валидатор ошибок

- Проверяем, что robots.txt соответствует правилам http://help.yandex.ru/webmaster/?id=996567

11. Проверка robots.txt на наличие директив для всех поисковых систем

Яндекс и Google используют различные директивы в robots.txt, инструкции для них следует писать отдельными.

- User-Agent: Yandex + User-Agent: * обязательно, опционально User-Agent: Google

12. Проверка sitemap.xml на ошибки

С помощью sitemap.xml можно управлять индексацией своего сайта. Для того, чтобы поисковые системы доверяли рекомендациям и корректно обрабатывали их, необходимо исправить ошибки.

- Ссылка на sitemap.xml есть в robots.txt

- Атрибуты дат страниц расставлены корректно

- Приоритеты расставлены правильно

- Исключены уже проиндексированные страницы

- Нет страниц, закрытых от индексации в robots.txt

- Нет нарушений валидности составления sitemap.xml (сервис http://webmaster.yandex.ru/sitemaptest.xml)
- Дополнительная информация по sitemap.xml - http://www.sitemaps.org/ru/faq.html#faq_xml_schema

Для ускорения индексации страниц сайта поисковыми системами, необходимо создать файл карты сайта sitemap.xml. Общие рекомендации по созданию файла Sitemap:

Файл Sitemap необходимо составлять в виде XML файла, который должен соответствовать стандарту разметки XML тегов (http://www.sitemaps.org/ru/protocol.php), а так же ряду требований:

Данный файл должен содержать ссылки на главную страницу, страницы категорий, подкатегорий, страницы вида категория+бренд, теговые страницы, страницы пагинации, а так же на страницы товаров;
Файл не должен содержать URL-адреса, ответ сервера которых отличен от HTTP/1.1 200 OK;
Файл не должен содержать URL-адреса, закрытые от индексации в файле robots.txt директивами Disallow и Clean-param и закрывающие Meta name;
URL адреса страниц необходимо указывать полностью, включая префикс «http://» и включая префикс «www», если в качестве главного зеркала выбран домен с www;
В файле необходимо использовать кодировку UTF-8;
Каждый файл может содержать не более 50 000 URL, и его размер не должен превышать 10 МБ (10 485 760 байт). Если сайт включает более 50 000 URL, его можно разделить на список на несколько файлов и передать каждый файл отдельно;
Файл должен автоматически обновляться не реже чем 2 раза в месяц;
Должны быть прописаны следующие приоритеты: Главная=1; Страницы категорий, подкатегорий и тегов=0,6; Страницы товаров=0,4; Страницы пагинации=0,2;
Для всех новых страниц прописывать приоритет = 0,8 (Раз в месяц приоритеты 0,8 должны обновляться согласно правилам по типам страницДля добавления в карту сайта страниц мобильной версии сайта требуется использование тега alternate, если мобильная версия на субдомене типа m.site.ru

Индексация

Report Page