Sitemaps FAQ

Які базові вимоги для успішного сканування веб-сайту?

Веб-сайт має бути загальнодоступним, відповідати розпізнаваним вихідним кодом HTML і містити посилання на внутрішні сторінки з домашньої сторінки. Процес сканування веб-сайту відбувається на основі посилань, які будуть знайдені на головній сторінці. Домашня сторінка може містити переспрямування в межах поточного імені хоста, яке можна обробити.

Що таке коренева URL-адреса веб-сайту?

Коренева URL-адреса — це базова адреса для доступу до вашого домену на веб-сервері. Він складається з двох обов’язкових компонентів – схеми протоколу (зазвичай https://) і доменного імені (наприклад, website.tld). Приклади кореневої URL-адреси: https://website.tld, http://subdomain.website.tld.
Ми підтримуємо будь-які існуючі типи доменів, такі як домени верхнього рівня (TLD), домени для окремих країн (ccTLD), а також субдомени будь-якого рівня. Ми також підтримуємо інтернаціоналізовані домени (IDN) для більшості мов, таких як арабські, індійські та кириличні домени. Зауважте, що вам не потрібно перетворювати ім’я хосту на Punycode, просто введіть оригінальну URL-адресу своєю мовою.

Які форми кореневих URL припустимі для мовних версій сайту?

Підтримується лише один формат мовної версії, який є еквівалентом кореневої папки веб-сайту і може складатися з одного або, опціонально, двох значень, розділених дефісом. Перший - двозначний код мови у форматі ISO 639-1, за яким може йти необов'язковий другий код, що представляє код регіону у форматі ISO 3166-1 Alpha 2. Приклади допустимих URL для мовних версій:

http://mydomain.com/en
http://mydomain.com/en-US

Які протоколи HTTP підтримуються?

Mysitemapgenerator підтримує HTTP та HTTPS.
Зверніть увагу, що згідно зі специфікацією протоколу XML Sitemaps, сканування сайту та генерація даних здійснюються лише для зазначеного протоколу передачі даних.

Який ліміт безкоштовного тарифу?

Безкоштовний тариф дозволяє запускати до 3 запитів на генерацію на день.

Чи враховуються обмеження, зазначені в файлі robots.txt, під час сканування?

Це необов’язково, але ввімкнено за умовчанням. Якщо цей параметр позначено, наш бот дотримуватиметься правил дозволу та заборони в загальному розділі User-Agent.
«Персональні» розділи User-Agent (наприклад, Google або Yandex) враховуються при виборі відповідного режиму сканера, в якості пошукового бота.
Крім того, ви можете створити окремий розділ спеціально для Mysitemapgenerator:

    User-agent: Mysitemapgenerator

Нижче наведено приклад файлу robots.txt:

    #Всі роботи не повинні відвідувати будь-які URL-адреси, що починаються з /noindex-directory/
    User-agent: *
    Disallow: /noindex-directory/
    
    #Роботу Google не потрібно відвідувати певну URL-адресу
    User-agent: Googlebot
    Disallow: /noindex-directory/disallow-google.html
    
    #Роботу Яндекс не потрібно відвідувати URL, що починається з /noindex-directory/
    #Але дозволяє сканувати певну сторінку
    User-agent: Yandex
    Disallow: /noindex-directory/
    Allow: /noindex-directory/allow-yandex.html
    
    #Mysitemapgenerator не повинен відвідувати URL-адреси, що починається з /noindex-directory/
    #Але дозволяє сканувати веб-сторінки з певним розширенням
    User-agent: Mysitemapgenerator
    Disallow: /noindex-directory/
    Allow: /noindex-directory/*.html

Що таке приховані сторінки (Deep Web) і як включити їх у карту сайту?

Deep Web (також відомий як Deepnet, Invisible Web, Undernet або прихований Web) – веб-сторінки, які не індексуються пошуковими системами, оскільки такі сторінки не мають гіперпосилань з інших доступних сторінок. Наприклад – це сторінки, згенеровані через інтерфейс HTML-форм або вміст фрейму.
Якщо ви бажаєте виявити та включити такі сторінки до Sitemap, позначте відповідні параметри:

«Сканувати веб-форми» (відправлення відбувається без заповнення форми);
«Сканувати фрейми» (вміст <frameset> та <iframe>).

Що станеться з посиланнями nofollow?

Якщо опція включена (увімкнено за замовчуванням) – вони не розглядатимуться.
Крім того, за потреби ви завжди можете вказати ігнорування лише noindex (сторінки, позначені як noindex) або лише nofollow посилань окремо одне від одного.
Типи посилань Nofollow:

HTML-посилання, що містять атрибут nofollow
URL-адреси, заборонені у файлі robots.txt
Розташовані на веб-сторінцках, позначених мета-тегом або HTTP-хідером nofollow

Як обробляються веб-сторінки, які використовують метатег robots або HTTP-заголовок X-Robots-Tag?

Якщо відповідні параметри активні, сторінки будуть оброблятися відповідно до заданих значень (noindex, nofollow).
При необхідності ви завжди можете застосувати обробку тільки noindex або тільки nofollow незалежно один від одного.
Теги, призначені для певних пошукових роботів (наприклад, Googlebot), враховуються під час вибору відповідного параметра ідентифікації сканера в якості пошукового робота.
Крім того, ви можете використовувати мета-теги на веб-сторінках для нашого робота, що буде враховано при виборі прямої ідентифікації нашого бота.
Приклади використання метатегу robots:

    <meta name="robots" content="noindex" />
    
    <meta name="robots" content="nofollow" />
    
    <meta name="robots" content="noindex,nofollow" />

Приклади використання HTTP-заголовків X-Robots-Tag:

    X-Robots-Tag: noindex
    
    X-Robots-Tag: nofollow
    
    X-Robots-Tag: noindex, nofollow

Як сканер обробляє внутрішні серверні переспрямування?

Наш робот обробляє наступні стандартні коди стану HTTP:

301 Moved Permanently
302 Found
303 See Other
307

Якщо сторінка вашого веб-сайту буде містити редирект на те саме доменне ім'я, то сканер просканує сторінку, зазначену в цій адресі.

Чи обробляє робот канонічні посилання (rel=canonical)?

Так, для цього достатньо позначити відповідну опцію «Слідувати та консолідувати канонічні URL». Якщо відповідну опцію активовано, робот враховуватиме наявність канонічних посилань, а неканонічні посилання буде виключено з результатів сканування.
Наш робот однаково обробляє інструкції в коді HTML, а також заголовки HTTP. Приклад зазначення канонічного посилання в HTML (розміщеного в розділі <head> неканонічної версії сторінки): Приклад канонічного метатегу:

    <link rel="canonical" href="http://www.website.tld/canonical_page.html"/>

Приклад зазначення канонічного посилання за допомогою заголовка HTTP:

    Link: <http://www.website.tld/canonical_page.html>; rel="canonical"

Зверніть увагу на технічний аспект обробки канонічних посилань нашим роботом: посилання на канонічну сторінку прирівнюється до серверного редиректу (HTTP 303 See other) і обробляється відповідно до загальних правил обробки редиректів.

Чи обробляє робот AJAX-посилання (хешбанг)?

Так, для цього достатньо позначити відповідну опцію «Опрацьовувати AJAX-взаємодії для URL-адрес з хеш-бенгом».
Кожне проіндексоване AJAX-посилання повинно мати HTML-версію, яка доступна за адресою, використовуючи комбінацію "#!", що замінюється параметром "?_escaped_fragment_=".
При скануванні AJAX-посилань робот замінює комбінацію #! з параметром ?_escaped_fragment_= і отримує доступ до сторінки за зміненою URL-адресою.
Під час створення Sitemap посилання, що містять hashbang (#!), використовуються в оригінальній формі.

Обробка та видалення phpsessid і sessionID (ідентифікатори сесії в PHP- та ASP-додатках)

Під час сканування ваш сайт може формувати ідентифікатори сеансу. Наш робот обробляє та видаляє ідентифікатори сеансу. У файл Sitemap всі посилання будуть введені «чистими», без ідентифікаторів, доданими в URL - phpsessid (для PHP) або об'єктах sessionID (для ASP). Це допомагає уникнути додавання повторюваних посилань у Sitemap, коли бот отримує ту саму сторінку з різними URL-адресами.

Приклад ідентифікатора сесії в PHP:

    http://website.tld/page.html?PHPSESSID=123456session6789

Приклад ідентифікатора сесії в ASP:

    http://website.tld/(S(123456session6789))/page.html

Нарешті URL-адресу буде перетворено до базової форми:

    http://website.tld/page.html

Як зображення додаються до мапи сайту?

Генератор дозволяє зібрати та додати до файлу Sitemap інформацію про зображення, розміщені на сторінках вашого сайту. Для URL кожної сторінки, на яких будуть знаходитися зображення, буде додана відповідна інформація, згідно з протоколом Google Sitemap-Image.
Наступний приклад показує частину запису у файлі мапи сайту для веб-сторінки http://website.tld/sample.html, яка містить два зображення:

 <url>
   <loc>http://website.tld/sample.html</loc>
   <image:image>
     <image:loc>http://website.tld/logo.jpg</image:loc>
   </image:image>
   <image:image>
     <image:loc>http://website.tld/photo.jpg</image:loc>
   </image:image>
 </url>

Як багатомовні сторінки позначаються у мапі сайту?

Mysitemapgenerator може знайти локалізовані версії сторінок, орієнтовані на різні мови та/або країни.
Наш робот обробляє теги HTML і заголовки HTTP.
Приклад зазначення URL-адреси альтернативної сторінки за допомогою метатега HTML (розміщеного в розділі <head> веб-сторінки):

    <link rel="alternate" href="http://www.website.tld/alternate_page.html" hreflang="en-GB" />

Приклад зазначення URL-адреси альтернативної сторінки через заголовки HTTP:

    Link: <http://www.website.tld/alternate_page.html>; rel="alternate"; hreflang="en-GB"

Допустимі значення
Значення атрибута hreflang має вказувати код мови у форматі ISO 639-1. Додатково, за бажанням, може бути вказаний код країни у форматі ISO 3166-1 Alpha 2 для альтернативної URL-адреси.

How does filtering of unsupported content work?

Unlike the free version, where check of the links availability ends simultaneously with the end of the crawl process (when 500 URL were found), in the paid version of the generator check proceeds to the last link, even if the crawl is already completed. This guarantees that redirects or dead links will not be included into Sitemap.
Although this is in agreement with the Sitemaps protocol and is not an error, the possible presence of links, for example, redirect can cause a redirect corresponding warnings in Google Webmaster Tools on the presence of non-direct links in the website map.

What data is contained in error report, generated after crawling the website?

In the event that our crawler will face difficulties or obstacles in the process of crawl your website, a detailed report will be created. In a report you will be able to see grouped pages lists describing errors, among them - "Page not found", internal server errors, etc. Besides the errors, the report will contain information about all the detected server redirects.
Error reports are available in paid versions.

I have a very large website, what happens when number of scanned pages will go beyond the maximum allowed number of 50,000 URL?

By default large sitemap is broken down in accordance with the sitemap protocol and search engines recommendations – you will get several Sitemap files, containing no more than 50,000 URL each.
Also you may choose the number of URLs per file by yourself.

How to use data filters?

Data filter – convenient tool used dudring the creation of sitemap, which allows along with page URL to specify the following important data for search engines: priority of particular pages in relation to other website pages and updating mode.
Additionally, filter allows excluding particular pages from the crawl process, which are not needed in the Sitemap file.
Data filters can be applied either for separate pages (for this you need to input full URI of the pages), or for groups of the pages (for this you need to input a part of URL, which corresponds to all similar pages. For example: ".jpg" or "/directory/files").

How does function "Get on email" work?

We recommend using this function if you have a large website and its crawling may take a long time. With this option, you don’t have to wait when crawler finishes its work – you can get the results to your email. This feature is available both in paid version (you will get ready* file to the specified email address), and in free version of the generator (you get the link to download ready file from our server).

* If total size of created Sitemap files exceeds allowed size – you will get a link to download it from our server.

For how many does are created files available for download at sent links?

Guaranteed time of storage on our server is:

For files created with free version - 7 days,
For files created with paid version - 14 days.

How to check the website crawl status?

All registered users may get information on every crawling and on websites, which are currently being crawled, in their personal account.

What determines the speed of my website indexing?

Indexing speed is dependent on the variability of many dynamic factors, such as the responsiveness of your server and the size of the loaded pages. That is why it is impossible to calculate beforehand.
Also, a large impact on the time for website crawling has its structure of internal pages relinking.

Can I stop the website crawling before it is finished?

Such an opportunity is provided for registered users. In the personal account displays information about all of your created files, as well as information about Websites, which are being indexed at the moment. In order to interrupt the process of indexing, without waiting for the crawler to scan the entire website, click the "Stop" button. In this case, you will receive file, generated only on the basis of pages that have been indexed at the time of the stop.

How do I let search engines know about my Sitemap?

To do it – register your website in webmaster services, provided by search engines (for example: www.google.com/webmasters for Google or webmaster.yandex.ru for Yandex). After registration, you will be able to submit Sitemaps directly in your account.
Another common way – include in robots.txt the following line:

Sitemap: http://website.tld/mysitemapfile.xml

If you need to provide several Sitemaps, please add the same line for each file:

Sitemap: http://website.tld/mysitemapfile1.xml
Sitemap: http://website.tld/mysitemapfile2.xml
Sitemap: http://website.tld/mysitemapfile3.xml

Choosing optimal crawl speed and load capacity on your web server

In the options of the crawler there are three levels of crawl speed, creating appropriate load capacities on the server being indexed:

Maximum - this load capacity is used by default. If you have a quality paid hosting, most likely you do not need to worry about creating a load while crawling your site. We recommend using this load value, which allows the crawler to index your website at top speed.
Average – choose this load capacity, if your server requires a gentle mode of indexation.
Low – level of load capacity, which allows crawl your site, creating a minimum load on the server. This load level is recommended for websites, located on a free hosting or for sites that require limited flow of traffic.
We recommend that you select this mode when crawling sites located on free hosting servers.
However, note that this level slows down the process of crawl your site.

How to simulate crawls by search engines robots?

You may choose one of the identification options for our Web-crawler* (Search Engine Bot), which does crawling of your website:

Standard browser – crawler uses this option by default and is a recommended one. Your website will load the same way your regular visitors see it.
YandexBot – this option is used to crawl your website as Yandex search bot sees it. Our crawler will be signed as the main Yandex bot (YandexBot/3.0)
Googlebot – this option is used to crawl your website as Google search bot sees it. Crawler will be signed as Google's web search bot (Googlebot/2.1)
Baiduspider - Baidu Web Search Bot
Mysitemapgenerator – use direct identification of our crawler if you need separate control settings and an ability to manage website access

Pay attention to the features of robots.txt file processing when choosing different identification ways:

When choosing YandexBot, GoogleBot, Baiduspider or Mysitemapgenerator options only instructions for a particular robot are considered (User-agent: Yandex, User-agent: Googlebot, User-agent: Mysitemapgenerator – respectively). General instructions of User-agent: * sections will be used only when "personal" ones are missing.
If you are using Standard Browser or Mysitemapgenerator - crawler will consider only instructions in Mysitemapgenerator section or general section of User-agent: *. "Personal" sections of User-agent: Yandex or User-agent: Googlebot and others are not considered.

Обмеження щодо вмісту, який динамічно формується за допомогою JavaScript

Якщо ваш веб-сайт використовує JavaScript для генерації основної частини вмісту (що також називається візуалізацією на стороні клієнта), наш краулер спробує обробити динамічно-згенерований вміст веб-сторінки (якщо така потреба буде виявлена автоматично або коли у налаштуваннях ввімкнено опцію обробки Javascript), однак багато алгоритмів JavaScript можуть не оброблятися.
Обмеження щодо обробки JavaScript:

Зверніть увагу, що наш веб-краулер не завантажує та не обробляє код Javascript із зовнішніх джерел, чиє ім’я хоста (домен) відрізняється від домену веб-сайту, наприклад ресурси, які завантажуються з серверів CDN або API, включно з субдоменами веб-сайту.
Наш краулер не обробляє вміст, який динамічно генерується в результаті будь-якої конкретної дії користувача, наприклад при скролінгу сторінки або кліку на елементі.
Враховуйте, що краулер MySitemapGenerator сканує лише посилання, які являють собою HTML-тег <a> з атрибутом "href". Це також стосується вмісту, який динамічно формується за допомогою JavaScript. Наші алгоритми не розпізнають і не обробляють будь-які інші елементи чи події, які функціонують як посилання, але не є відповідним HTML-тегом <a>. Це означає, що будь-які інші формати навігації не оброблятимуться, а відповідно й вміст, на який вони вказують.