Парсинг данных

Оглавление1 Очистка данных1.1 Основы очистки данных1.2 Технические варианты очистки данных1.3 Современные методы очистки экрана1.4 Веб-скрейпинг1.5 Интеллектуальный анализ отчетов1.6 Полный текст […]

Очистка данных

  • Основы очистки данных

    • Очистка данных – это процесс извлечения данных из выходных данных, предназначенных для отображения пользователю, а не для ввода в другую программу. 
    • Очистка данных отличается от обычного синтаксического анализа тем, что не документирована и не структурирована для удобства анализа. 
    • Очистка данных часто включает игнорирование двоичных данных и форматирование отображения. 
  • Технические варианты очистки данных

    • Очистка экрана – это процесс сбора визуальных данных из источника, а не синтаксического анализа данных. 
    • Изначально под сканированием экрана понималось считывание текстовых данных с экрана терминала. 
    • Очистка экрана может быть двунаправленной, например, управляющая программа может перемещаться по пользовательскому интерфейсу или вводить данные в интерфейс. 
    • Скрейперы экрана могут подключаться к устаревшим системам через Telnet и эмулировать нажатия клавиш. 
  • Современные методы очистки экрана

    • Современные методы включают захват растровых данных и их обработку с помощью распознавания текста или автоматизированных систем тестирования. 
    • В случае приложений с графическим интерфейсом, это может быть объединено с запросом графических элементов управления. 
    • Последовательность экранов автоматически фиксируется и преобразуется в базу данных. 
  • Веб-скрейпинг

    • Веб-скрейпинг – это извлечение данных с веб-сайтов с использованием API или инструментов. 
    • Новые формы веб-анализа включают компьютерное зрение и обработку естественного языка для имитации обработки человеком информации. 
    • Веб-скребки используют URL-адрес веб-сайта для извлечения данных и сохраняют эти данные для последующего анализа. 
  • Интеллектуальный анализ отчетов

    • Интеллектуальный анализ отчетов – это извлечение данных из удобочитаемых отчетов без необходимости подключения к исходной системе. 
    • Такой подход позволяет избежать интенсивной загрузки ЦП и минимизировать затраты на лицензирование. 
    • Интеллектуальный анализ отчетов предполагает извлечение данных из файлов в форматах HTML, PDF или текста. 

Полный текст статьи:

Парсинг данных — Википедия

Оставьте комментарий

Прокрутить вверх