Извлечение данных
-
Определение извлечения данных
- Извлечение данных — это процесс извлечения данных из неструктурированных источников для обработки или хранения.
- Импорт данных в систему промежуточного извлечения сопровождается преобразованием и добавлением метаданных перед экспортом.
-
Источники данных
- Неструктурированные данные могут быть получены из веб-страниц, электронных писем, документов и других источников.
- Извлечение данных из Интернета называется веб-очисткой.
-
Процесс структурирования данных
- Структурирование данных включает использование регулярных выражений и табличного подхода для идентификации и разделения информации.
- Текстовая аналитика применяется для понимания и связывания текста с другими данными.
-
Интеллектуальный анализ данных
- Интеллектуальный анализ данных включает обнаружение закономерностей в больших массивах данных с использованием статистики и машинного обучения.
-
ETL-процесс
- Извлечение, преобразование, загрузка (ETL) — это процесс копирования данных из одного или нескольких источников и преобразования их в целевой системе.
-
Автоматизированное извлечение информации
- Автоматизированное извлечение структурированной информации из неструктурированных данных возможно с использованием обработки естественного языка.