Херитрикс — Arc.Ask3.Ru

Наследница Описание Heritrix Веб-поисковик для веб-архивирования   Разработан Интернет-архивом и национальными библиотеками Северных стран   Доступен по лицензии свободного программного обеспечения на […]

Наследница

  • Описание Heritrix

    • Веб-поисковик для веб-архивирования  
    • Разработан Интернет-архивом и национальными библиотеками Северных стран  
    • Доступен по лицензии свободного программного обеспечения на Java  
  • История и развитие

    • Первый релиз в январе 2004 года  
    • Постоянно совершенствовался сотрудниками Internet Archive и другими заинтересованными сторонами  
    • В 2008 году Internet Archive начал повышать производительность для собственного широкомасштабного поиска  
  • Использование и проекты

    • Используется рядом организаций и национальных библиотек  
    • Примеры: Австрийская национальная библиотека, Интернет-архив Александрийской библиотеки, Национальная библиотека Франции  
  • Формат файлов Arc

    • Файлы Arc хранят несколько архивных ресурсов в одном файле  
    • Размер файлов Arc составляет от 100 до 600 МБ  
    • Включает инструмент командной строки arcreader для извлечения содержимого  
  • Инструменты командной строки

    • htmlextractor: отображает ссылки, извлеченные Heritrix  
    • hoppath.pl: воссоздает путь перехода к указанному URL  
    • manifest_bundle.pl: объединяет ресурсы в tar-файл  
    • cmdline-jmxclient: управляет Heritrix из командной строки  
  • Дополнительные инструменты

    • Доступны в рамках проекта warctools Интернет-архива  
  • Рекомендации

    • Необходимо соблюдать все соответствующие условия лицензии  

Полный текст статьи:

Херитрикс — Arc.Ask3.Ru

Оставьте комментарий

Прокрутить вверх