- MySitemapGenerator
- Розділ допомоги
- Сканування сайтів
Сканування сайтів
Для успішного сканування веб-сайту мають бути виконані такі умови:
- Веб-сайт є загальнодоступним (немає авторизації або обмежень за IP)
- Сервер повертає коректний і розпізнаваний HTML-контент
- Домашня сторінка містить посилання на внутрішні сторінки
- Веб-сайт дозволяє доступ краулеру (не заблокований через robots.txt або правила брандмауера)
Сканування починається з домашньої сторінки. Краулер виявляє і обробляє внутрішні посилання на ній і продовжує навігацію по структурі сайту на основі знайдених посилань.
Домашня сторінка може включати перенаправлення в межах одного хосту (наприклад, з http://example.com на https://example.com), це буде оброблено коректно.
Кореневий URL - це базова адреса для доступу до вашого веб-сайту на веб-сервері. Він складається з двох необхідних компонентів:
- Схема протоколу (зазвичай https:// або http://)
- Доменне ім'я (наприклад, website.tld)
Приклади допустимих кореневих URL:
- https://website.tld
- http://subdomain.website.tld
Ми підтримуємо:
- всі типи доменів (TLD, ccTLD і поддомени будь-якого рівня)
- Інтернаціоналізовані доменні імена (IDN) для більшості мов, включаючи арабські, індійські та кириличні домени
Вам не потрібно перетворювати IDN на Punycode - просто введіть URL у його оригінальній мовній формі.
При необхідності кореневий URL може включати мовний індикатор. Це застосовується тільки до генератора товарного фіду.
Підтримується лише один формат мовної версії. Він повинен відповідати кореневій папці і містити:
- двобуквенний код мови (ISO 639-1)
- опціонально, за яким слідує код регіону (ISO 3166-1 Alpha-2), розділений дефісом
Приклади допустимих мовних URL:
- https://mydomain.com/uk
- https://mydomain.com/uk-UA
MySitemapGenerator підтримує HTTP та HTTPS.
Зауважте: згідно зі специфікацією протоколу XML Sitemaps, сканування та генерація даних здійснюються лише для протоколу, зазначеного в кореневому URL.
Так. Це поведінка опціональна, але увімкнена за замовчуванням.
При увімкненні краулер дотримується правил Allow і Disallow, визначених у:
- загальному розділі User-agent: *
- або в розділі для конкретного краулера, якщо застосовано
«Персональні» розділи user-agent (такі як Googlebot або Yandex) враховуються при виборі режиму ідентифікації краулера.
Ви також можете визначити правила спеціально для нашого краулера:
User-agent: Mysitemapgenerator
Приклад robots.txt:
#Заборонити всім роботам сканувати певну директорію
User-agent: *
Disallow: /noindex-directory/
#Правило для Google
User-agent: Googlebot
Disallow: /noindex-directory/disallow-google.html
#Правила для Yandex
User-agent: Yandex
Disallow: /noindex-directory/
Allow: /noindex-directory/allow-yandex.html
#Правила для Mysitemapgenerator
User-agent: Mysitemapgenerator
Disallow: /noindex-directory/
Allow: /noindex-directory/*.html
Deep Web (також відомий як Invisible Web) включає сторінки, які не індексуються пошуковими системами, оскільки вони недоступні через стандартні гіперпосилання.
Приклади включають:
- сторінки, створені через HTML-форми
- контент, що завантажується всередині фреймів або iframe
Щоб виявити й включити такі сторінки, увімкніть такі параметри:
- Сканувати HTML-форми (відправка форми без вводу)
- Сканувати вміст фреймів (<frameset> та <iframe>)
При увімкненні (поведінка за замовчуванням) посилання nofollow ігноруються.
Ви також можете вибрати:
- ігнорувати лише noindex
- ігнорувати лише nofollow
- або обробляти обидва незалежно
Джерела посилань nofollow включають:
- HTML-посилання з атрибутом rel="nofollow"
- посилання, розміщені на сторінках, позначених директивою robots nofollow
При увімкненні (за замовчуванням) сторінки обробляються відповідно до:
- мета-тегів robots
- заголовків HTTP X-Robots-Tag
Ви можете незалежно контролювати обробку noindex та nofollow.
Директиви мета-тегів для конкретних краулерів (наприклад, для Googlebot) враховуються при виборі режиму ідентифікації краулера.
Ви також можете використовувати мета-теги, призначені спеціально для MySitemapGenerator.
Приклади мета-тегів robots:
<meta name="robots" content="noindex" />
<meta name="robots" content="nofollow" />
<meta name="robots" content="noindex,nofollow" />
Приклад заголовка HTTP X-Robots-Tag:
X-Robots-Tag: noindex
X-Robots-Tag: nofollow
X-Robots-Tag: noindex, nofollow
Краулер розпізнає такі коди статусу HTTP:
- 301 Moved Permanently
- 302 Found
- 303 See Other
- 307 Temporary Redirect
Якщо сторінка перенаправляє в межах одного домену, краулер індексує цільовий URL.
Так - це увімкнено за замовчуванням.
При активації директиви canonical дотримуються і не-канонічні URL виключаються з результатів сканування.
Посилання canonical обробляються як:
- в HTML (через тег <link rel="canonical">)
- в заголовках HTTP (через заголовок Link)
Приклад HTML:
<link rel="canonical" href="http://www.website.tld/canonical_page.html"/>
Link: <http://www.website.tld/canonical_page.html>; rel="canonical"
Технічно посилання canonical обробляються подібно до перенаправлення на сервері (HTTP 303) і можуть з'явитися в звітах, позначені як «м'яке» перенаправлення.
Якщо краулер зустрінеться з проблемами, буде створено докладний звіт про помилки.
Звіт включає:
- згруповані списки помилок сканування (наприклад, "Сторінка не знайдена", помилки сервера)
- виявлені перенаправлення
Примітка: Звіти про помилки доступні лише для зареєстрованих користувачів.
Швидкість сканування залежить від багатьох динамічних факторів, таких як потужність вашого веб-сервера і розмір завантажуваних сторінок. Тому це неможливо розрахувати наперед.
Також великий вплив на час сканування веб-сайту має структура внутрішніх посилань.
За замовчуванням краулер автоматично регулює швидкість на основі чутливості сервера.
Ви можете вручну встановити рівень навантаження сканування:
- Максимум - рекомендується для стабільних платних середовищ розміщення.
- Середній - підходить для серверів середньої потужності.
- Низький - мінімальне навантаження на сервер, рекомендується для безкоштовного або обмеженого хостингу
(Примітка: це може значно сповільнити сканування).
Ви можете вибрати, як краулер себе ідентифікує:
- Стандартний браузер (за замовчуванням, рекомендується)
- Googlebot (Googlebot/2.1)
- YandexBot (YandexBot/3.0)
- Baiduspider
- Mysitemapgenerator (пряма ідентифікація)
Поведінка залежить від вибраної ідентифікації:
- При використанні Googlebot, YandexBot, Baiduspider або Mysitemapgenerator застосовуються лише правила для цього конкретного user-agent
- Загальні правила (User-agent: *) використовуються лише якщо не існує специфічних правил для краулера
- При використанні Standard browser або Mysitemapgenerator враховується лише розділ Mysitemapgenerator або загальний розділ
Якщо ваш сайт використовує рендеринг на стороні клієнта, краулер може спробувати обробити динамічно створений вміст, коли:
- обробка JavaScript увімкнена
- або автоматично виявлена як необхідна
Обмеження обробки JavaScript:
- Зовнішні скрипти з інших доменів (CDN, API, поддомени) не виконуються
- Взаємодії, ініційовані користувачем (прокручування, клік) не імітуються
- Лише елементи HTML <a> з атрибутом href розглядаються як посилання
- Навігація, реалізована з використанням нестандартних механізмів посилань, не буде просканована.
Не можете знайти відповіді, які шукаєте? Ми тут, щоб допомогти.
Зв'язок зі службою підтримки