Оглавление
Очистка данных
-
Основы очистки данных
- Очистка данных – это процесс извлечения данных из выходных данных, предназначенных для отображения пользователю, а не для ввода в другую программу.
- Очистка данных отличается от обычного синтаксического анализа тем, что не документирована и не структурирована для удобства анализа.
- Очистка данных часто включает игнорирование двоичных данных и форматирование отображения.
-
Технические варианты очистки данных
- Очистка экрана – это процесс сбора визуальных данных из источника, а не синтаксического анализа данных.
- Изначально под сканированием экрана понималось считывание текстовых данных с экрана терминала.
- Очистка экрана может быть двунаправленной, например, управляющая программа может перемещаться по пользовательскому интерфейсу или вводить данные в интерфейс.
- Скрейперы экрана могут подключаться к устаревшим системам через Telnet и эмулировать нажатия клавиш.
-
Современные методы очистки экрана
- Современные методы включают захват растровых данных и их обработку с помощью распознавания текста или автоматизированных систем тестирования.
- В случае приложений с графическим интерфейсом, это может быть объединено с запросом графических элементов управления.
- Последовательность экранов автоматически фиксируется и преобразуется в базу данных.
-
Веб-скрейпинг
- Веб-скрейпинг – это извлечение данных с веб-сайтов с использованием API или инструментов.
- Новые формы веб-анализа включают компьютерное зрение и обработку естественного языка для имитации обработки человеком информации.
- Веб-скребки используют URL-адрес веб-сайта для извлечения данных и сохраняют эти данные для последующего анализа.
-
Интеллектуальный анализ отчетов
- Интеллектуальный анализ отчетов – это извлечение данных из удобочитаемых отчетов без необходимости подключения к исходной системе.
- Такой подход позволяет избежать интенсивной загрузки ЦП и минимизировать затраты на лицензирование.
- Интеллектуальный анализ отчетов предполагает извлечение данных из файлов в форматах HTML, PDF или текста.