Обычный обход
-
Организация Common Crawl
- Некоммерческая организация, занимающаяся поиском в интернете и предоставляющая свои архивы и данные общественности.
- Основана Гилом Эльбазом, с консультациями от Питера Норвига и Джои Ито.
- Использует поисковые роботы, соблюдающие правила nofollow и robots.txt.
-
Открытый исходный код и авторские права
- Обработка данных Common Crawl доступна в открытом исходном коде.
- Общий набор данных включает работы, защищенные авторским правом, и распространяется в соответствии с требованиями добросовестного использования.
-
Использование данных
- Исследователи из других стран используют данные для обхода законодательства об авторском праве.
- На март 2023 года английский язык был основным в 46% документов, за ним следовали немецкий, русский, японский, французский, испанский и китайский.
-
История и развитие
- Amazon Web Services начали размещать архив Common Crawl в 2012 году.
- В июле 2012 года организация начала публиковать метаданные и текстовый вывод сканеров.
- В декабре 2012 года blekko передала метаданные Common Crawl, что улучшило поисковую систему.
- В 2013 году Common Crawl перешел на использование веб-сканера Nutch от Apache Software Foundation.
- Отфильтрованная версия данных использовалась для обучения языковой модели OpenAI GPT-3.
-
Награды и сотрудничество
- Common Crawl является спонсором премии Norvig Web Data Science Award.
- Google создал очищенный корпус просмотра, называемый Colossal Clean Crawled Corpus (C4).
-
Рекомендации и ресурсы
- Ссылки на внешние ресурсы, включая общий репозиторий обхода на GitHub и дискуссионную группу.
- Блог для обсуждения обхода.