robots.txt

Robots.txt История и развитие robots.txt Стандарт robots.txt был предложен Мартином Костером в 1994 году.   Первоначально назывался RobotsNotWanted.txt и позволял веб-разработчикам […]

Robots.txt

  • История и развитие robots.txt

    • Стандарт robots.txt был предложен Мартином Костером в 1994 году.  
    • Первоначально назывался RobotsNotWanted.txt и позволял веб-разработчикам указывать, какие боты не должны посещать их сайт.  
    • В 2019 году Google предложила протокол исключения роботов как официальный стандарт.  
  • Назначение и использование

    • Файл robots.txt содержит инструкции для веб-роботов, указывающие, какие страницы они могут посещать.  
    • Роботы следуют инструкциям, если файл существует, и игнорируют его, если нет.  
    • Файл важен для веб-сканеров, таких как Google, и поисковых систем.  
  • Соответствие и применение

    • Протокол robots.txt широко применяется операторами ботов, включая крупные поисковые системы.  
    • Некоторые архивные сайты игнорируют robots.txt, так как он не обеспечивает зеркального отображения.  
    • В 2020-х годах веб-операторы начали использовать robots.txt для запрета доступа ботам, собирающим данные для ИИ.  
  • Безопасность и рекомендации

    • Протокол носит рекомендательный характер и не обеспечивает соблюдение инструкций.  
    • Вредоносные боты могут использовать robots.txt для обхода запретов.  
    • Органы по стандартизации не рекомендуют использовать скрытность для защиты от вредоносных ботов.  
  • Альтернативы и расширения

    • Некоторые роботы передают специальный пользовательский агент при загрузке контента.  
    • Веб-администраторы могут настроить сервер на автоматическое возвращение сбоя при обнаружении соединения с роботом.  
    • На некоторых сайтах, таких как Google, размещен файл humans.txt для чтения людьми.  
  • Примеры и нестандартные расширения

    • Примеры включают инструкции для всех роботов, запрет на посещение определенных каталогов и файлов, а также использование комментариев и нескольких пользовательских агентов.  
    • Директива о задержке обхода и директива Sitemap также поддерживаются некоторыми поисковыми роботами.  
    • Мета-теги и заголовки могут применяться на более детальном уровне для файлов, отличных от HTML.  
  • Исключение страниц из robots.txt

    • Мета-теги robots и заголовки X-Robots игнорируются, если страница исключена из robots.txt.  
    • Поисковые роботы не видят эти теги, если страница исключена.  
  • Максимальный размер файла robots.txt

    • Протокол Robots Exclusion Protocol требует обработки файлов robots.txt размером не менее 500 кбайт.  
    • Google также ограничивает размер файлов robots.txt до 500 кбайт.  
  • Другие файлы и протоколы

    • ads.txt: стандарт для списка авторизованных продавцов рекламы.  
    • security.txt: файл для описания процесса исследования безопасности.  
  • Примеры и исключения

    • eBay против: протокол автоматического доступа к контенту.  
    • BotSeer: поисковая система для файлов robots.txt, сейчас неактивна.  
    • Распределенный веб-обход: сфокусированный поисковый робот.  
    • Интернет-архив: мета-элементы для поисковых систем.  
    • Национальная программа электронных библиотек (NDLP).  
    • Национальная программа развития цифровой информационной инфраструктуры и ее сохранения (NDIIPP).  
    • не следовать за мной: отсутствие индекса.  
    • Perma.cc: карты сайта.  
    • Ловушка для пауков: веб-архивирование.  
    • Веб-сканер: рекомендации.  
    • Дальнейшее чтение: внешние ссылки.  
    • Официальный веб-сайт.  

Полный текст статьи:

robots.txt

Оставьте комментарий

Прокрутить вверх