Неструктурированные данные

Неструктурированные данные Определение и важность неструктурированных данных Неструктурированные данные — это информация без заранее определенной модели данных или организации.  Они […]

Неструктурированные данные

  • Определение и важность неструктурированных данных

    • Неструктурированные данные — это информация без заранее определенной модели данных или организации. 
    • Они содержат много текста, но также могут включать даты, числа и факты. 
    • Они затрудняют понимание данных по сравнению с базами данных или документами с аннотациями. 
  • Рост объема данных и его влияние

    • К 2020 году ожидается увеличение объема данных до 40 зеттабайт, что в 50 раз больше, чем в начале 2010 года. 
    • К 2025 году глобальная сфера данных может увеличиться до 163 зеттабайт, большая часть из которых будет неструктурированной. 
  • История и развитие анализа неструктурированных данных

    • Ранние исследования в области бизнес-аналитики фокусировались на текстовых данных, а не на числовых. 
    • В 2004 году SAS разработал SAS Text Miner для эффективного машинного анализа текста. 
    • С конца 2000-х годов анализ неструктурированных данных стал применяться в прогнозной аналитике и анализе первопричин. 
  • Проблемы с терминологией и методы обработки

    • Термин «неструктурированные данные» является неточным из-за различных форм структуры и способов обработки. 
    • Методы обработки включают интеллектуальный анализ данных, обработку естественного языка и текстовую аналитику. 
    • Стандарт архитектуры управления неструктурированной информацией (UIMA) предоставляет структуру для обработки данных. 
  • Примеры и управление неструктурированными данными

    • Примеры включают книги, журналы, документы, медицинские записи и другие. 
    • Управление документооборотом часто предпочтительнее передачи данных из документов. 
    • Поисковые системы, такие как Google, стали популярными инструментами для индексации и поиска по неструктурированным данным. 
  • Подходы к обработке естественного языка и биомедицинские исследования

    • Существуют специальные вычислительные рабочие процессы для обработки больших объемов текстовых документов. 
    • Биомедицинские исследования являются источником неструктурированных данных, и подходы к их структурированию включают самоорганизующиеся картографические подходы и универсальные неконтролируемые алгоритмы. 
  • Применение в правилах защиты персональных данных

    • В ЕС до 2018 года термин «неструктурированные данные» использовался для исключения из правил конфиденциальности данных. 
    • В GDPR термин «неструктурированные данные» не упоминается, и защита персональных данных распространяется на все данные, которые могут быть легко извлечены. 
  • Рекомендации и перспективы

    • В статье представлены рекомендации и перспективы обработки неструктурированных данных. 

Полный текст статьи:

Неструктурированные данные — Википедия

Оставьте комментарий

Прокрутить вверх