Возможные причины, если сайт не индексируется

В случае, если проиндексировать Ваш сайт не удалось, робот попытается показать сообщение с описанием причины. Чтобы у нашего робота не возникло проблем с индексацией Вашего сайта, пожалуйста, ознакомьтесь с приведенным ниже списком основных ошибок, которые могут помешать индексации.

1. Проверьте Ваш файл robots.txt

Файл robots.txt, который содержит ошибки или составлен не правильно, может ограничить или вовсе запретить индексирование Вашего сайта для всех роботов, в том числе сканерам поисковых систем и нашему роботу.

Возможная ошибка – наличие такой инструкции в файле robots.txt:

User-agent: *
Disallow: /

Если Вы намерено запрещаете индексирование сайта поисковыми системами с помощью файла robots.txt, но хотите чтобы робот MySitemapGenerator проиндексировал его – снимите отметку "Учитывать инструкции robots.txt".

2. Убедитесь, что страницы Вашего сайта возвращает статус "HTTP 200 Ok"

"HTTP 200 Ok" означает успешный запрос ресурса. Любой другой ответ Вашего сервера означает ошибку.

Так же робот поддерживает обработку серверных редиректов 301, 302, 303 и 307.

3. Проверьте значение "Content-Type", который возвращают страницы Вашего сайта

MySitemapGenerator производит поиск URL только на страницах, которые формируют HTML-код, соответственно должны возвращать заголовок «Content-Type» со значением «Text/HTML».

Пример правильного заголовка в ответе, который должна возвращать HTML-страница:

Content-Type: text/html; charset=utf-8

Робот, производящий индексацию мобильных сайтов (сервис Sitemap Mobile), также обеспечивают поддержку WML и cHTML-контента.

Пример правильного заголовка в ответе, который должна возвращать WML-страница:

Content-Type: text/vnd.wap.wml

В случае, если iMode-страница не формирует WML/XHTML - заголовок, в коде должен быть правильно объявлен тип текущего документа. Пример:

<!DOCTYPE html PUBLIC "-//WAPFORUM//DTD XHTML Mobile 1.0//EN" "http://www.wapforum.org/DTD/xhtml-mobile10.dtd">

4. Размер и время загрузки страницы

Наш робот не ограничивает допустимые размеры сканируемых страниц, но любая страница Вашего сайта обязана быть сформирована в пределах 30 секунд, иначе статус URL приравнивается к "недоступен".

5. Важно, чтобы Вы понимали: робот учитывает только локальные ссылки в зоне индексируемого домена

При этом домен с www и без считаются зеркалом. Любые другие сабдомены или URL вне зоны домена не учитываются.

Например, если Вы индексируете http://website.tld, то в случае обнаружения ссылок с абсолютным URL вида http://www.website.tld/page, они так же будут учтены. Соответственно, если Вы вводите URL сайта как http://www.website.tld, то будут учитываться ссылки вида http://website.tld/page. Но ссылки вида http://subdomain.website.tld учитываться как локальные не будут.

6. Для веб-сайтов, работающих на CMS со встроенными системами ограничения доступа

Обратите внимание на то, что в процессе индексации, робот может отправлять большое количество запросов на Ваш веб-сайт. Некоторые веб-серверы или CMS, при соответствующих настройках, могут блокировать запросы нашего робота из соображений безопасности либо распределения нагрузки на веб-сервер. Рекомендуем снимать подобную защиту на время индексации сайта.

7. Не поддерживаемые методы сжатия данных

Робот может не поддерживать метод сжатия данных, используемый на Вашем сайте. В этом случае, робот отправляет HTTP-запрос с явным указанием необходимости ответа в несжатом виде (Content-Encoding: identity). Ваш сервер должен правильно обрабатывать такие запросы согласно RFC и возвращать данные без сжатия. Хотя на уровне веб-сервера такие ошибки маловероятны, встречаются случаи, когда сжатие данных происходит принудительно на уровне ПО, которое непосредственно формирует HTML-код (CMS, скрипты, аддоны). В этом случае проверьте, чтобы Ваш алгоритм обработки HTTP-запросов учитывал спецификации протокола.