MySitemapGenerator
Розділ допомоги
Сканування сайтів

Сканування сайтів

Які базові вимоги для успішного сканування веб-сайту?

Для успішного сканування веб-сайту мають бути виконані такі умови:

Веб-сайт є загальнодоступним (немає авторизації або обмежень за IP)
Сервер повертає коректний і розпізнаваний HTML-контент
Домашня сторінка містить посилання на внутрішні сторінки
Веб-сайт дозволяє доступ краулеру (не заблокований через robots.txt або правила брандмауера)

Сканування починається з домашньої сторінки. Краулер виявляє і обробляє внутрішні посилання на ній і продовжує навігацію по структурі сайту на основі знайдених посилань.

Домашня сторінка може включати перенаправлення в межах одного хосту (наприклад, з http://example.com на https://example.com), це буде оброблено коректно.

Що таке кореневий URL веб-сайту?

Кореневий URL - це базова адреса для доступу до вашого веб-сайту на веб-сервері. Він складається з двох необхідних компонентів:

Схема протоколу (зазвичай https:// або http://)
Доменне ім'я (наприклад, website.tld)

Приклади допустимих кореневих URL:

https://website.tld
http://subdomain.website.tld

Ми підтримуємо:

всі типи доменів (TLD, ccTLD і поддомени будь-якого рівня)
Інтернаціоналізовані доменні імена (IDN) для більшості мов, включаючи арабські, індійські та кириличні домени

Вам не потрібно перетворювати IDN на Punycode - просто введіть URL у його оригінальній мовній формі.

При необхідності кореневий URL може включати мовний індикатор. Це застосовується тільки до генератора товарного фіду.

Які формати кореневого URL підтримуються для мовних версій? (тільки генератор товарного фіду)

Підтримується лише один формат мовної версії. Він повинен відповідати кореневій папці і містити:

двобуквенний код мови (ISO 639-1)
опціонально, за яким слідує код регіону (ISO 3166-1 Alpha-2), розділений дефісом

Приклади допустимих мовних URL:

https://mydomain.com/uk
https://mydomain.com/uk-UA

Які протоколи HTTP підтримуються?

MySitemapGenerator підтримує HTTP та HTTPS.

Зауважте: згідно зі специфікацією протоколу XML Sitemaps, сканування та генерація даних здійснюються лише для протоколу, зазначеного в кореневому URL.

Чи дотримується краулер правил з robots.txt?

Так. Це поведінка опціональна, але увімкнена за замовчуванням.

При увімкненні краулер дотримується правил Allow і Disallow, визначених у:

загальному розділі User-agent: *
або в розділі для конкретного краулера, якщо застосовано

«Персональні» розділи user-agent (такі як Googlebot або Yandex) враховуються при виборі режиму ідентифікації краулера.

Ви також можете визначити правила спеціально для нашого краулера:

    User-agent: Mysitemapgenerator

Приклад robots.txt:

    #Заборонити всім роботам сканувати певну директорію
    User-agent: *
    Disallow: /noindex-directory/
    
    #Правило для Google
    User-agent: Googlebot
    Disallow: /noindex-directory/disallow-google.html
    
    #Правила для Yandex
    User-agent: Yandex
    Disallow: /noindex-directory/
    Allow: /noindex-directory/allow-yandex.html
    
    #Правила для Mysitemapgenerator
    User-agent: Mysitemapgenerator
    Disallow: /noindex-directory/
    Allow: /noindex-directory/*.html

Що таке приховані сторінки (Deep Web) і як їх додати?

Deep Web (також відомий як Invisible Web) включає сторінки, які не індексуються пошуковими системами, оскільки вони недоступні через стандартні гіперпосилання.

Приклади включають:

сторінки, створені через HTML-форми
контент, що завантажується всередині фреймів або iframe

Щоб виявити й включити такі сторінки, увімкніть такі параметри:

Сканувати HTML-форми (відправка форми без вводу)
Сканувати вміст фреймів (<frameset> та <iframe>)

Як обробляються посилання nofollow?

При увімкненні (поведінка за замовчуванням) посилання nofollow ігноруються.

Ви також можете вибрати:

ігнорувати лише noindex
ігнорувати лише nofollow
або обробляти обидва незалежно

Джерела посилань nofollow включають:

HTML-посилання з атрибутом rel="nofollow"
посилання, розміщені на сторінках, позначених директивою robots nofollow

Як обробляються мета-теги robots та заголовки X-Robots-Tag?

При увімкненні (за замовчуванням) сторінки обробляються відповідно до:

мета-тегів robots
заголовків HTTP X-Robots-Tag

Ви можете незалежно контролювати обробку noindex та nofollow.

Директиви мета-тегів для конкретних краулерів (наприклад, для Googlebot) враховуються при виборі режиму ідентифікації краулера.

Ви також можете використовувати мета-теги, призначені спеціально для MySitemapGenerator.

Приклади мета-тегів robots:

    <meta name="robots" content="noindex" />
    
    <meta name="robots" content="nofollow" />
    
    <meta name="robots" content="noindex,nofollow" />

Приклад заголовка HTTP X-Robots-Tag:

    X-Robots-Tag: noindex
    
    X-Robots-Tag: nofollow
    
    X-Robots-Tag: noindex, nofollow

Як обробляються перенаправлення?

Краулер розпізнає такі коди статусу HTTP:

301 Moved Permanently
302 Found
303 See Other
307 Temporary Redirect

Якщо сторінка перенаправляє в межах одного домену, краулер індексує цільовий URL.

Чи підтримує краулер канонічні URL?

Так - це увімкнено за замовчуванням.

При активації директиви canonical дотримуються і не-канонічні URL виключаються з результатів сканування.

Посилання canonical обробляються як:

в HTML (через тег <link rel="canonical">)
в заголовках HTTP (через заголовок Link)

Приклад HTML:

    <link rel="canonical" href="http://www.website.tld/canonical_page.html"/>

Приклад заголовка HTTP:

    Link: <http://www.website.tld/canonical_page.html>; rel="canonical"

Технічно посилання canonical обробляються подібно до перенаправлення на сервері (HTTP 303) і можуть з'явитися в звітах, позначені як «м'яке» перенаправлення.

Яка інформація включається в звіт про помилки сканування?

Якщо краулер зустрінеться з проблемами, буде створено докладний звіт про помилки.

Звіт включає:

згруповані списки помилок сканування (наприклад, "Сторінка не знайдена", помилки сервера)
виявлені перенаправлення

Примітка: Звіти про помилки доступні лише для зареєстрованих користувачів.

Що визначає швидкість сканування мого веб-сайту?

Швидкість сканування залежить від багатьох динамічних факторів, таких як потужність вашого веб-сервера і розмір завантажуваних сторінок. Тому це неможливо розрахувати наперед.

Також великий вплив на час сканування веб-сайту має структура внутрішніх посилань.

Контроль швидкості сканування

За замовчуванням краулер автоматично регулює швидкість на основі чутливості сервера.

Ви можете вручну встановити рівень навантаження сканування:

Максимум - рекомендується для стабільних платних середовищ розміщення.
Середній - підходить для серверів середньої потужності.
Низький - мінімальне навантаження на сервер, рекомендується для безкоштовного або обмеженого хостингу
(Примітка: це може значно сповільнити сканування).

Імітація різних краулерів та ботів

Ви можете вибрати, як краулер себе ідентифікує:

Стандартний браузер (за замовчуванням, рекомендується)
Googlebot (Googlebot/2.1)
YandexBot (YandexBot/3.0)
Baiduspider
Mysitemapgenerator (пряма ідентифікація)

Поведінка залежить від вибраної ідентифікації:

При використанні Googlebot, YandexBot, Baiduspider або Mysitemapgenerator застосовуються лише правила для цього конкретного user-agent
Загальні правила (User-agent: *) використовуються лише якщо не існує специфічних правил для краулера
При використанні Standard browser або Mysitemapgenerator враховується лише розділ Mysitemapgenerator або загальний розділ

Обробка вмісту, що генерується JavaScript

Якщо ваш сайт використовує рендеринг на стороні клієнта, краулер може спробувати обробити динамічно створений вміст, коли:

обробка JavaScript увімкнена
або автоматично виявлена як необхідна

Обмеження обробки JavaScript:

Зовнішні скрипти з інших доменів (CDN, API, поддомени) не виконуються
Взаємодії, ініційовані користувачем (прокручування, клік) не імітуються
Лише елементи HTML <a> з атрибутом href розглядаються як посилання
Навігація, реалізована з використанням нестандартних механізмів посилань, не буде просканована.

Не можете знайти відповіді, які шукаєте? Ми тут, щоб допомогти.

Зв'язок зі службою підтримки