Оглавление
Набор данных
-
Определение набора данных
- Набор данных представляет собой совокупность данных.
- В случае табличных данных, набор данных соответствует таблице базы данных с переменными и записями.
- Набор данных включает значения для каждой переменной, например, рост и вес.
-
Структура и свойства набора данных
- Набор данных характеризуется количеством и типами атрибутов, статистическими показателями.
- Значения могут быть числовыми или номинальными, а также любого другого типа.
- Могут присутствовать пропущенные значения, требующие заполнения.
- В статистике наборы данных основаны на выборках и наблюдениях.
-
Классические наборы данных
- Набор данных о цветке ириса, представленный Рональдом Фишером, используется в статистической литературе.
- База данных MNIST используется для тестирования алгоритмов классификации и обработки изображений.
- Категориальный анализ данных используется в книге UCLA Advanced Research Computing.
- Надежная статистика применяется для регрессии и обнаружения выбросов.
- Временные ряды используются в книге Чатфилда для анализа временных рядов.
- Экстремальные значения применяются для статистического моделирования экстремальных значений.
- Байесовский анализ данных используется в книге Эндрю Гельмана.
- Данные о печени Bupa применяются в машинном обучении.
- Квартет Энскомба иллюстрирует важность построения графиков данных.
-
Дополнительные ресурсы
- Ссылки на смешивание данных, отбор проб, хранилище данных, совместимость, систему сбора данных и рекомендации.
- Упомянуты Data.gov, GCMD, HDX, Open Data Нью-Йорка, StatLib-JASA, UCI, Public Data правительства Великобритании и Open Data Всемирного банка.
Полный текст статьи: