Чи враховуються обмеження, зазначені в файлі robots.txt, під час сканування?
Це необов’язково, але ввімкнено за умовчанням. Якщо цей параметр позначено, наш бот дотримуватиметься правил дозволу та заборони в загальному розділі User-Agent.
«Персональні» розділи User-Agent (наприклад, Google або Yandex) враховуються при виборі відповідного режиму сканера, в якості пошукового бота.
Крім того, ви можете створити окремий розділ спеціально для Mysitemapgenerator:
User-agent: Mysitemapgenerator
Нижче наведено приклад файлу robots.txt:
#Всі роботи не повинні відвідувати будь-які URL-адреси, що починаються з /noindex-directory/ User-agent: * Disallow: /noindex-directory/ #Роботу Google не потрібно відвідувати певну URL-адресу User-agent: Googlebot Disallow: /noindex-directory/disallow-google.html #Роботу Яндекс не потрібно відвідувати URL, що починається з /noindex-directory/ #Але дозволяє сканувати певну сторінку User-agent: Yandex Disallow: /noindex-directory/ Allow: /noindex-directory/allow-yandex.html #Mysitemapgenerator не повинен відвідувати URL-адреси, що починається з /noindex-directory/ #Але дозволяє сканувати веб-сторінки з певним розширенням User-agent: Mysitemapgenerator Disallow: /noindex-directory/ Allow: /noindex-directory/*.html