Будут ли учтены запреты индексации, прописанные в robots.txt?


Опционально, по умолчанию эта опция активна. При отмеченной опции робот учитывает инструкции Allow и Disallow общей секции User-agent: *
Так же, Вы можете создать отдельную секцию для нашего робота:
    User-agent: Mysitemapgenerator

«Персональные» секции (User-agent: Googlebot или User-agent: Yandex) учитываются только при выборе соответствующего варианта идентификации краулера в качестве поискового робота.
Ниже приведен пример файла robots.txt с использованием различных секций:
    #Запрещает всем роботам индексацию директории
    User-agent: *
    Disallow: /noindex-directory/
    
    #Запрещает роботу Google индексацию отдельной страницы
    User-agent: Googlebot
    Disallow: /noindex-directory/disallow-google.html
    
    #Запрещает роботу Яндекса индексацию директории
    #Но разрешает индексацию отдельной страницы
    User-agent: Yandex
    Disallow: /noindex-directory/
    Allow: /noindex-directory/allow-yandex.html
    
    #Запрещает роботу Mysitemapgenerator индексацию директории
    #Но разрешает индексацию всех страниц из этой директории
    #с расширением .html
    User-agent: Mysitemapgenerator
    Disallow: /noindex-directory/
    Allow: /noindex-directory/*.html