Оглавление
- 1 Перебранка данных
- 1.1 Определение и важность обработки данных
- 1.2 Фон и терминология
- 1.3 Применение в научных исследованиях и кинопроизводстве
- 1.4 Преимущества обработки данных
- 1.5 Этапы обработки данных
- 1.6 Типичное применение и способы действия
- 1.7 Пример использования обработки данных
- 1.8 Дополнительные термины и инструменты
- 1.9 Полный текст статьи:
- 2 Обмен данными — Википедия
Перебранка данных
-
Определение и важность обработки данных
- Обработка данных – это процесс преобразования необработанных данных в более полезный формат для анализа.
- Аналитики данных тратят большую часть времени на обработку данных, а не на их анализ.
- Обработка данных включает в себя извлечение, сортировку, разбор и передачу данных.
-
Фон и терминология
- Термин “data wrangling” возник из-за работы в области цифровой информации и метаархивов.
- “Манипулирование” происходит от жаргонного файла.
- Дональд Клайн ввел термин “data wrangler” для описания специалиста по обработке данных.
-
Применение в научных исследованиях и кинопроизводстве
- Обработка данных важна для передачи данных из приборов в хранилища и для анализа с помощью высокопроизводительных инструментов.
- С появлением искусственного интеллекта обработка данных требует строгих сдержек и противовесов.
-
Преимущества обработки данных
- Обработка данных улучшает качество и согласованность метаданных.
- Анализ данных позволяет получать более точные результаты и принимать более эффективные решения.
-
Этапы обработки данных
- Понимание данных: ознакомление с данными.
- Структурирование: систематизация данных.
- Уборка: очистка данных от ненужных или искаженных данных.
- Обогащение: добавление дополнительных данных, если они полезны.
- Подтверждение: проверка данных на точность и согласованность.
- Издательская подготовка: подготовка данных для использования другими.
-
Типичное применение и способы действия
- Преобразования данных применяются к отдельным объектам в наборе данных.
- Обработка данных традиционно выполнялась вручную или с помощью специализированных инструментов.
-
Пример использования обработки данных
- Пример использования обработки данных включает поиск корреляции между данными о пациентах и заболеванием.
- Процесс обработки данных начинается с определения структуры исхода и очистки данных.
- После очистки данных анализируются возможности добавления новых данных и проверки их достоверности.
-
Дополнительные термины и инструменты
- Другие термины для обработки данных включают “франчайзинг данных” и “подготовка данных”.
- Примеры инструментов визуального анализа данных включают OpenRefine и Trifacta.