Наследница
-
Описание Heritrix
- Веб-поисковик для веб-архивирования
- Разработан Интернет-архивом и национальными библиотеками Северных стран
- Доступен по лицензии свободного программного обеспечения на Java
-
История и развитие
- Первый релиз в январе 2004 года
- Постоянно совершенствовался сотрудниками Internet Archive и другими заинтересованными сторонами
- В 2008 году Internet Archive начал повышать производительность для собственного широкомасштабного поиска
-
Использование и проекты
- Используется рядом организаций и национальных библиотек
- Примеры: Австрийская национальная библиотека, Интернет-архив Александрийской библиотеки, Национальная библиотека Франции
-
Формат файлов Arc
- Файлы Arc хранят несколько архивных ресурсов в одном файле
- Размер файлов Arc составляет от 100 до 600 МБ
- Включает инструмент командной строки arcreader для извлечения содержимого
-
Инструменты командной строки
- htmlextractor: отображает ссылки, извлеченные Heritrix
- hoppath.pl: воссоздает путь перехода к указанному URL
- manifest_bundle.pl: объединяет ресурсы в tar-файл
- cmdline-jmxclient: управляет Heritrix из командной строки
-
Дополнительные инструменты
- Доступны в рамках проекта warctools Интернет-архива
-
Рекомендации
- Необходимо соблюдать все соответствующие условия лицензии