Чи враховуються обмеження, зазначені в файлі robots.txt, під час сканування?


Це необов’язково, але ввімкнено за умовчанням. Якщо цей параметр позначено, наш бот дотримуватиметься правил дозволу та заборони в загальному розділі User-Agent.
«Персональні» розділи User-Agent (наприклад, Google або Yandex) враховуються при виборі відповідного режиму сканера, в якості пошукового бота.
Крім того, ви можете створити окремий розділ спеціально для Mysitemapgenerator:
    User-agent: Mysitemapgenerator

Нижче наведено приклад файлу robots.txt:
    #Всі роботи не повинні відвідувати будь-які URL-адреси, що починаються з /noindex-directory/
    User-agent: *
    Disallow: /noindex-directory/
    
    #Роботу Google не потрібно відвідувати певну URL-адресу
    User-agent: Googlebot
    Disallow: /noindex-directory/disallow-google.html
    
    #Роботу Яндекс не потрібно відвідувати URL, що починається з /noindex-directory/
    #Але дозволяє сканувати певну сторінку
    User-agent: Yandex
    Disallow: /noindex-directory/
    Allow: /noindex-directory/allow-yandex.html
    
    #Mysitemapgenerator не повинен відвідувати URL-адреси, що починається з /noindex-directory/
    #Але дозволяє сканувати веб-сторінки з певним розширенням
    User-agent: Mysitemapgenerator
    Disallow: /noindex-directory/
    Allow: /noindex-directory/*.html