Оглавление
- 1 Неструктурированные данные
- 1.1 Определение и важность неструктурированных данных
- 1.2 Рост объема данных и его влияние
- 1.3 История и развитие анализа неструктурированных данных
- 1.4 Проблемы с терминологией и методы обработки
- 1.5 Примеры и управление неструктурированными данными
- 1.6 Подходы к обработке естественного языка и биомедицинские исследования
- 1.7 Применение в правилах защиты персональных данных
- 1.8 Рекомендации и перспективы
- 1.9 Полный текст статьи:
- 2 Неструктурированные данные — Википедия
Неструктурированные данные
-
Определение и важность неструктурированных данных
- Неструктурированные данные – это информация без заранее определенной модели данных или организации.
- Они содержат много текста, но также могут включать даты, числа и факты.
- Они затрудняют понимание данных по сравнению с базами данных или документами с аннотациями.
-
Рост объема данных и его влияние
- К 2020 году ожидается увеличение объема данных до 40 зеттабайт, что в 50 раз больше, чем в начале 2010 года.
- К 2025 году глобальная сфера данных может увеличиться до 163 зеттабайт, большая часть из которых будет неструктурированной.
-
История и развитие анализа неструктурированных данных
- Ранние исследования в области бизнес-аналитики фокусировались на текстовых данных, а не на числовых.
- В 2004 году SAS разработал SAS Text Miner для эффективного машинного анализа текста.
- С конца 2000-х годов анализ неструктурированных данных стал применяться в прогнозной аналитике и анализе первопричин.
-
Проблемы с терминологией и методы обработки
- Термин “неструктурированные данные” является неточным из-за различных форм структуры и способов обработки.
- Методы обработки включают интеллектуальный анализ данных, обработку естественного языка и текстовую аналитику.
- Стандарт архитектуры управления неструктурированной информацией (UIMA) предоставляет структуру для обработки данных.
-
Примеры и управление неструктурированными данными
- Примеры включают книги, журналы, документы, медицинские записи и другие.
- Управление документооборотом часто предпочтительнее передачи данных из документов.
- Поисковые системы, такие как Google, стали популярными инструментами для индексации и поиска по неструктурированным данным.
-
Подходы к обработке естественного языка и биомедицинские исследования
- Существуют специальные вычислительные рабочие процессы для обработки больших объемов текстовых документов.
- Биомедицинские исследования являются источником неструктурированных данных, и подходы к их структурированию включают самоорганизующиеся картографические подходы и универсальные неконтролируемые алгоритмы.
-
Применение в правилах защиты персональных данных
- В ЕС до 2018 года термин “неструктурированные данные” использовался для исключения из правил конфиденциальности данных.
- В GDPR термин “неструктурированные данные” не упоминается, и защита персональных данных распространяется на все данные, которые могут быть легко извлечены.
-
Рекомендации и перспективы
- В статье представлены рекомендации и перспективы обработки неструктурированных данных.