Robots.txt
-
История и развитие robots.txt
- Стандарт robots.txt был предложен Мартином Костером в 1994 году.
- Первоначально назывался RobotsNotWanted.txt и позволял веб-разработчикам указывать, какие боты не должны посещать их сайт.
- В 2019 году Google предложила протокол исключения роботов как официальный стандарт.
-
Назначение и использование
- Файл robots.txt содержит инструкции для веб-роботов, указывающие, какие страницы они могут посещать.
- Роботы следуют инструкциям, если файл существует, и игнорируют его, если нет.
- Файл важен для веб-сканеров, таких как Google, и поисковых систем.
-
Соответствие и применение
- Протокол robots.txt широко применяется операторами ботов, включая крупные поисковые системы.
- Некоторые архивные сайты игнорируют robots.txt, так как он не обеспечивает зеркального отображения.
- В 2020-х годах веб-операторы начали использовать robots.txt для запрета доступа ботам, собирающим данные для ИИ.
-
Безопасность и рекомендации
- Протокол носит рекомендательный характер и не обеспечивает соблюдение инструкций.
- Вредоносные боты могут использовать robots.txt для обхода запретов.
- Органы по стандартизации не рекомендуют использовать скрытность для защиты от вредоносных ботов.
-
Альтернативы и расширения
- Некоторые роботы передают специальный пользовательский агент при загрузке контента.
- Веб-администраторы могут настроить сервер на автоматическое возвращение сбоя при обнаружении соединения с роботом.
- На некоторых сайтах, таких как Google, размещен файл humans.txt для чтения людьми.
-
Примеры и нестандартные расширения
- Примеры включают инструкции для всех роботов, запрет на посещение определенных каталогов и файлов, а также использование комментариев и нескольких пользовательских агентов.
- Директива о задержке обхода и директива Sitemap также поддерживаются некоторыми поисковыми роботами.
- Мета-теги и заголовки могут применяться на более детальном уровне для файлов, отличных от HTML.
-
Исключение страниц из robots.txt
- Мета-теги robots и заголовки X-Robots игнорируются, если страница исключена из robots.txt.
- Поисковые роботы не видят эти теги, если страница исключена.
-
Максимальный размер файла robots.txt
- Протокол Robots Exclusion Protocol требует обработки файлов robots.txt размером не менее 500 кбайт.
- Google также ограничивает размер файлов robots.txt до 500 кбайт.
-
Другие файлы и протоколы
- ads.txt: стандарт для списка авторизованных продавцов рекламы.
- security.txt: файл для описания процесса исследования безопасности.
-
Примеры и исключения
- eBay против: протокол автоматического доступа к контенту.
- BotSeer: поисковая система для файлов robots.txt, сейчас неактивна.
- Распределенный веб-обход: сфокусированный поисковый робот.
- Интернет-архив: мета-элементы для поисковых систем.
- Национальная программа электронных библиотек (NDLP).
- Национальная программа развития цифровой информационной инфраструктуры и ее сохранения (NDIIPP).
- не следовать за мной: отсутствие индекса.
- Perma.cc: карты сайта.
- Ловушка для пауков: веб-архивирование.
- Веб-сканер: рекомендации.
- Дальнейшее чтение: внешние ссылки.
- Официальный веб-сайт.