XML Generator Sitemap Генератор
Рус Eng
(499) 403-36-10  Москва
  • (499) 403-36-10  Москва
  • (044) 362-20-12  Киев
Пн—Пт, 11:00—19:00
Индексация кириллических доменов

Частые вопросы по работе генератора Sitemap

Список Частых Вопросов и Ответов по работе генератора (Sitemap FAQ)

Порядок предоставляемых услуг и объем выделения технических ресурсов регламентируется Публичной офертой.

Пожалуйста, ознакомьтесь с этой информацией

Посмотрите ознакомительную видео-инструкция видео-инструкцию по работе с нашим сервисом.

Если у Вас возникают проблемы с индексацией сайта:
Почему не индексируется сайт: возможные причины
Для пользователей услуги «Обновляемый Sitemap»
Подключение шлюза на Ваш веб-сайт
Если у Вас возникли вопросы по оплате:
Оплата средствами WebMoney
Оплата через платежную систему QIWI
Оплата банковской картой

Содержание справки

Каким требованиям должна отвечать главная страница домена, чтобы сканер мог проиндексировать мой сайт?
Страница должна быть доступна, возвращать HTML-код и содержать ссылки на внутренние страницы. Дальнейшее сканирование сайта происходит на основе ссылок, которые будут найдены на главной странице. Главная страница так же может содержать внутрихостовый серверный редирект, который будет обработан.

Какие виды URL сайтов понимает робот?

  • Международные домены (gTLD)
  • Интернационализованные домены (IDN)
  • Национальные домены (ccTLD)
При запуске, сервис принимает в обработку только такие формы URL, которые представляют собой доменное имя. При этом домен может быть любого уровня. Наш сервис позволяет индексировать кириллические домены, включая зоны .РФ, .РУС, .МОСКВА, .УКР, .БЕЛ, .СРБ, .БГ.
Примеры URL:
  • http://mydomain.com
  • http://sub.mydomain.ru
  • http://ваш-домен.рф

Какие протоколы передачи данных поддерживаются роботом?
Mysitemapgenerator поддерживает протоколы HTTP и HTTPS.
Обратите внимание на то, что согласно спецификации протокола XML Sitemaps, индексация сайта и формирование данных проводятся только в указаном протоколе передачи данных.

Какие форматы документов обрабатывает робот?
Поддерживаются следующие типы документов:

  • Обработка и индексация: HTML (основной робот), WAP WML/xHTML (мобильный робот)
  • Обработка: Adobe PDF, Microsoft office DOC/DOCX, RTF, TXT.

Какие кодировки веб-страниц поддерживаются роботом?
Список поддерживаемых кодировок: windows-1251, uft-8, koi8-r. В режиме турбо так же поддерживаются: utf-16, utf-32.
Кроме того, в большинстве случаев наш робот сумеет автоматически определить кодировку, даже если Ваш сервер не выдает соответствующую информацию или выдает ее не правильно.

Какой лимит на кол-во индексируемых страниц в бесплатном генераторе Sitemap?
В бесплатной версии генератора будет проиндексировано 500 страниц сайта.
Редиректы и "битые" ссылки не учитываются.

Будут ли учтены запреты индексации, прописанные в robots.txt?
Опционально. При отмеченной опции робот учитывает инструкции Allow и Disallow общей секции User-agent: *
Так же, Вы можете создать отдельную секцию для нашего робота:

    User-agent: Mysitemapgenerator

«Персональные» секции (User-agent: Googlebot или User-agent: Yandex) учитываются только при выборе соответствующего варианта идентификации краулера в качестве поискового робота.
Ниже приведен пример файла robots.txt с использованием различных секций:
    #Запрещает всем роботам индексацию директории
    User-agent: *
    Disallow: /noindex-directory/
    
    #Запрещает роботу Google индексацию отдельной страницы
    User-agent: Googlebot
    Disallow: /noindex-directory/disallow-google.html
    
    #Запрещает роботу Яндекса индексацию директории
    #Но разрешает индексацию отдельной страницы
    User-agent: Yandex
    Disallow: /noindex-directory/
    Allow: /noindex-directory/allow-yandex.html
    
    #Запрещает роботу Mysitemapgenerator индексацию директории
    #Но разрешает индексацию всех страниц из этой директории
    #с расширением .html
    User-agent: Mysitemapgenerator
    Disallow: /noindex-directory/
    Allow: /noindex-directory/*.html

Индексация скрытых страниц (Deep Web)
Deep Web («невидимая паутина» - рус.) – веб-страницы, неиндексируемые поисковыми системами по причине отсутствия на них гиперссылок с доступных страниц. Например – это страницы, генерируемые через интерфейсы HTML-форм или содержимое фреймов.
Если Вы хотите обнаружить и включить такие страницы в Sitemap, отметьте нужные опции:

  • «индексировать формы» (сабмит происходит без заполнения);
  • «индексировать фреймы» (содержимое <frameset> и <iframe>).

Что будет с ссылками, заключенными в теги <noindex> или которые содержат атрибут nofollow?
При включенной соответствующей опции такие ссылки индексироваться не будут.
Кроме того, при необходимости, Вы всегда можете применить обработку только noindex или только nofollow независимо друг от друга.

Как будут обработаны веб-страницы, на которых используються метатеги robots?
При активных соответствующих опциях страницы будут обработаны в соответствии с установленными значениями метатегов robots (noindex, nofollow).
При необходимости, Вы всегда можете применить обработку только noindex или только nofollow независимо друг от друга.
Теги, предназначенные для определенных поисковых роботов (Googlebot или Yandex) учитываются при выборе соответствующего варианта идентификации краулера в качестве поискового робота.
Так же, Вы можете использовать на веб-страницах метатеги для робота Mysitemapgenerator, которые будет учитываться при выборе прямой идентификации наших роботов.
Примеры использования метатегов robots:

    <meta name="robots" content="noindex" />
    //для всех поисковых роботов сообщается, что страницу не следует
    //индексировать, но разрешается следовать по размещенным на ней ссылкам
    
    <meta name="robots" content="nofollow" />
    //для всех поисковых роботов запрещена только индексация ссылок,
    //которые размещены на веб-странице
    
    <meta name="robots" content="noindex,nofollow" />
    //для всех поисковых роботов запрещена индексация страницы и ссылок,
    //которые на ней могут быть размещены

Как робот обрабатывает внутрихостовые серверные редиректы?
Обработка редиректов доступна, как в платной версии Sitemap Pro, так и при генерации Sitemap бесплатно.
Робот распознает следующие стандартные коды состояния HTTP:

  • 301 Moved Permanently (Перемещено окончательно)
  • 302 Found (Временное перенаправление).
  • 303 See Other (Смотрите другой ресурс).
  • 307 (Временное перенаправление)
Если на странице Вашего сайта будет обнаружен редирект в пределах одного домена, то сканер проиндексирует страницу указанную в адресе перенаправления.
Робот не обрабатывает: перенаправление страницы на саму себя, цепь перенаправлений, перенаправление на внешний url.

Обрабатывает ли робот канонические ссылки (rel=canonical)?
Да, для этого достаточно отметить соответствующую опцию «обрабатывать канонические ссылки». При включении соответствующей опции робот будет учитывать указания канонических ссылок, а неканонические ссылки будут исключены из результатов индексации.
Робот MySitemapGenerator одинаково обрабатывает* инструкции в HTML-коде, а так же HTTP-заголовки. Пример указания канонической ссылки в HTML (помещается в раздел <head> неканонических версий страницы):

    <link rel="canonical" href="http://www.site.com/canonical_page.html"/>
Пример указания канонической ссылки с помощью HTTP-заголовка:
    Link: <http://www.site.com/canonical_page.html>; rel="canonical"
*Обратите внимание на техническую особенность обработки канонических ссылок нашим роботом: указание на каноническую страницу приравнивается к серверному редиректу (HTTP 303 See Other) и обрабатывается в соответствии с общими правилами обработки редиректа.

Обрабатывает ли робот AJAX-ссылки (hashbang)
Да, для этого достаточно отметить соответствующую опцию «индексировать AJAX-ссылки».
Каждая индексируемая AJAX-ссылка должна иметь HTML-версию, которая доступна по адресу, в котором сочетание «#!» заменено на параметр «?_escaped_fragment_=».
В AJAX-ссылках робот заменяет сочетание #! на параметр ?_escaped_fragment_= и обращается к странице по измененному URL.
Cсылки, содержащие hashbang (#!), используются при создании Sitemap в исходном виде.

Формирование даты документов из ответа сервера (аттрибут lastmod)
Для того чтобы значение даты и времени документов в Sitemap соответствовало фактическому значению, возвращаемому Вашим сервером (Last-Modified), в опции формирования lastmod выберите параметр «по времени ответа сервера».
Наш робот обрабатывает три допустимых в HTTP-протоколе формата для представления метки времени и даты: RFC-822, RFC-850 и ANSI.
Обратите внимание на то, что робот не производит проверку и/или актуализацию даты в ответе Вашего сервера, используя ее так, как она была возвращена.

Обработка и удаление phpsessid и sessionID (идентификаторы сессий PHP- и ASP-приложений)
В процессе индексации Ваш сайт может формировать идентификаторы сессий. Наш сканер обрабатывает и удаляет идентификаторы сессий. В файл Sitemap ссылки будут занесены "чистыми", без идентификаторов передаваемых в URL - phpsessid (для PHP) или объектов sessionID (для ASP). Это позволяет избежать попадания в Sitemap дубликатов ссылок, когда робот получает одну и ту же страницу под различными URL.

Пример идентификатора сессии в PHP:

    http://site.com/page.html?PHPSESSID=123456session6789
Пример идентификатора сессии в ASP:
    http://site.com/(S(123456session6789))/page.html
В результате URL будет приведен к базовой форме:
    http://site.com/page.html

Как происходит добавление изображений в Sitemap?
Генератор позволяет собрать и добавить в создаваемый файл Sitemap информацию об изображениях*, расположенных на страницах Вашего сайта. Для URL-секции каждой страницы, на которой будут обнаружены изображения, будет добавлена соответствующая информация, согласно протоколу Google Sitemap-Image.
Следующий пример показывает фрагмент записи в файле Sitemap для URL http://site.ru/sample.html, на котором имеется два изображения:

 <url>
   <loc>http://site.ru/sample.html</loc>
   <image:image>
     <image:loc>http://site.ru/logo.jpg</image:loc>
   </image:image>
   <image:image>
     <image:loc>http://site.ru/photo.jpg</image:loc>
   </image:image>
 </url>

* В Sitemap заносится информация только об изображениях, расположенных на индексируемом сайте. Изображения, вставленные на страницы с внешних серверов, учитываться не будут.

Как работает фильтрация разнородного содержимого?
В отличие от бесплатной версии, где проверка доступности ссылок завершается одновременно с окончанием процесса индексации (до нахождения 500 URL), в платной версии генератора проверка продолжается до последней ссылки, даже если индексация завершена. Это гарантирует, что в Sitemap не попадут битые ссылки или редиректы.
Хотя это не противоречит протоколу Sitemaps и не является ошибкой, возможное наличие ссылок, например, на редирект может вызвать соответствующее замечание Google Webmaster Tools о наличии не прямых ссылок в карте сайта.

Какую информацию содержит отчет, создаваемый при обходе веб-сайта сканером?
В случае, если наш сканер столкнется с затруднениями или препятствиями в процессе индексации Вашего веб-сайта, для Вас будет сформирован подробный отчет. В отчете Вы сможете увидеть сгруппированные списки страниц с описанием ошибок, среди которых – «Страница не найдена», внутренние ошибки сервера и др.
Помимо ошибок, в отчете будут предоставлены сведения о всех обнаруженных серверных редиректах.
Формирование отчета доступно в платной версии генератора.

У меня очень большой сайт, что будет когда количество проиндексированных страниц превысит максимально допустимый размер файла XML Sitemap в 50 000 URL?
По умолчанию большой Сайтмап разбивается в соответствии с требованиями протокола Sitemap и поисковых систем – Вы получите несколько файлов Sitemap по 50 000 URL каждый.
Так же Вы можете выбрать удобное количество URL для одного файла самостоятельно.

Как использовать Фильтры данных?
Фильтр данных – удобный инструмент в процессе создания карты сайта, который позволяет кроме URL страницы указать поисковым системам такие важные данные: приоритет определенных страниц относительно к другим страницам сайта и режим обновления.
Кроме того, маска позволяет исключать из индекса определенные страницы, которые не нужны в файле Sitemap.
Фильтры данных можно применять как к отдельным страницам (для этого нужно ввести URI страницы полностью), так и к группам страниц (для этого нужно ввести фрагмент URL, который соответствует всем подобным страницам. Например: «.jpg» или «/directory/files»).
Обратите внимание на то, что Фильтры данных чувствительны к регистру!

Как работает функция «Получить на e-mail»?
Рекомендуем пользоваться этой опцией, в случае если у Вас большой сайт и его сканирование может занять продолжительное время. Данная опция позволяет Вам не дожидаться завершения работы сканера и получить результат работы генератора прямо на E-mail. Функция доступна как в платной (на указанный адрес Вы получаете готовый* файл Sitemap), так и в бесплатной версии генератора (Вы получаете ссылку на скачивание готового файла на нашем сервере).

* Если общий объем созданных файлов Sitemap превышает 10Мб - Вам будет отправлена ссылка на скачивание с нашего сервера.

Сколько времени созданные файлы Sitemaps доступны для скачивания по отправленным ссылкам?
Гарантированный срок хранения созданных файлов Sitemaps на нашем сервере составляет:

  • для файлов, созданных по бесплатным тарифам - 2 дня,
  • для файлов, созданных по платным тарифам - 7 дней.

Как проверить текущее состояние обработки сайта?
У зарегистрированных пользователей информация о всех индексациях, а так же сайтах, которые в данный момент индексируются, доступна в персональном аккаунте.
Если Вы не регистрировались, то можете отслеживать состояние процесса индексации через форму экспресс-проверки, которая доступна в нижней части главной страницы mysitemapgenerator.com.

От чего зависит скорость индексации моего сайта?
Скорость индексации зависит от многих динамически колеблемых факторов, как то скорость ответа Вашего сервера и размер загружаемых страниц. Именно поэтому вычислить ее невозможно.
Кроме того, большое влияние на время обхода веб-сайта имеет структура перелинковки его внутренних страниц.

Могу ли я преждевременно остановить процесс индексации сайта?
Такая возможность есть у зарегистрированных пользователей. В персональном аккаунте зайдите в раздел «Сгенерированные карты». В таблице будет отображена информация обо всех Ваших созданных Sitemaps, а так же информация о веб-сайтах, которые индексируются в данный момент. Для того, чтобы прервать процесс индексации, не дожидаясь завершения обхода всего сайта, нажмите кнопку «Остановить». В этом случае Вы получите Sitemap, сгенерированный только на основе страниц, которые были проиндексированы на момент остановки.

Как сообщить поисковым системам о моем файле Sitemap?
Лучший способ сообщить о Вашей карте сайта поисковым системам - зарегистрировать сайт в сервисах вебмастеров, которые предоставляют поисковые системы (например: webmaster.yandex.ru у Яндекс или www.google.com/webmasters у Google). После регистрации Вы сможете отправить файлы Sitemap из своего аккаунта.
Другой универсальный способ - в файле robots.txt допишите такую строку:

Sitemap: http://mysite.ru/mysitemapfile.xml
Если Вам нужно сообщить сразу о нескольких файлах Сайтмап, допишите по такой же строке для каждого файла:
Sitemap: http://mysite.ru/mysitemapfile1.xml
Sitemap: http://mysite.ru/mysitemapfile2.xml
Sitemap: http://mysite.ru/mysitemapfile3.xml

Выбор оптимальной скорости индексации и уровня нагрузки на Ваш веб-сервер
В опциях сканера доступны три уровня скорости индексации, создающие соответствующие уровни нагрузки на индексируемый сервер:

  • Максимум - Если у Вас качественный платный хостинг, скорее всего, Вам незачем беспокоится о создаваемой нагрузке в процессе индексации Вашего сайта. Рекомендуем использовать именно это значение нагрузки, которое позволяет проиндексировать Ваш сайт на максимально быстро.
  • Средняя – Данный уровень нагрузки используется по умолчанию и подходит для большиства современных веб-серверов и хостинг-провайдеров.
  • Минимум – Уровень нагрузки, который позволяет проиндексировать Ваш сайт, создавая минимальную нагрузку на сервер. Данный уровень нагрузки рекомендуем использовать для индексации сайтов, расположенных на бесплатном хостинге или для сайтов, требующих значительных ограничений к входящему трафику. Однако обратите внимание, что данный уровень может значительно замедлить процесс индексации Вашего сайта.

Рекомендуем выбирать наиболее подходящий режим скорости индексации, учитывая особенности Вашего хостинг-сервера.

Индексация сайта глазами поискового робота
Вы можете выбрать один из вариантов идентификации нашего краулера, производящего индексацию сайта:

  • Стандартный браузер – данный способ используется по умолчанию и является рекомендуемым. Ваш сайт будет загружаться в том же виде, что и обычными посетителям
  • YandexBot – данный способ позволяет индексировать Ваш сайт «глазами поискового робота» Яндекс. Наш Краулер будет обозначен как основной индексирующий робот Яндекса (YandexBot/3.0)
  • Googlebot – данный способ позволяет индексировать Ваш сайт «глазами поискового робота» Google. Краулер будет обозначен как робот веб-поиска Google (Googlebot/2.1)
  • Mysitemapgenerator – используйте прямой способ идентификации нашего робота если Вам требуются особые настройки контроля и управления доступом к веб-сайту
Обратите внимание на особенности обработки файла robotx.txt при выборе различных способов идентификации:
  • При выборе опций «YandexBot», «GoogleBot» или «Mysitemapgenerator» в файле robots.txt производится поиск наиболее релевантной секции. Если в файле присутствует секция, предназначенная для определенного робота - учитываются только директивы, соответствующие конкретному роботу (User-agent: Yandex, User-agent: Googlebot или User-agent: Mysitemapgenerator – соответственно).
    Общие директивы секции User-agent: * будут использованы только в случае отсутствия «персональных».
  • Если Вы используете опцию «Стандартный браузер» - робот будет учитывать только инструкции секции Mysitemapgenerator, а при ее отсутствии - общей секции User-agent: *. «Персональные» секции User-agent: Yandex, User-agent: Googlebot и др. в этом случае не учитываются.

Отзывы пользователей генератора SitemapОтзывы все отзывы →
добавить +
Назад
  • Александр, mywcat.ru

    Спасибо за ваш сервис пользуюсь на протяжении месяца без каких либо проблем.

  • Московский центр автоматических трансмиссий, akppcenter-moskva.ru

    Быстрое и достоверное создание карты сайта, ни каких ошибок. Спасибо за сервис.

Вперед

Подпишитесь на нашу страницу в Facebook, чтобы быть в курсе всех новостей!

Москва: +7 (499) 403-36-10     Киев: +38 (044) 362-20-12 Поделиться сервисом!
©Sitemap Generator - онлайн генератор
VisaMasterCard Secure