Оглавление
Происхождение данных
-
Основы Lineage Store
- Lineage store – это система, которая отслеживает происхождение данных в конвейерах больших данных.
- Она позволяет отслеживать изменения данных на каждом этапе обработки и обеспечивает возможность отладки.
-
Архитектура Lineage Store
- Системы больших данных масштабируются горизонтально, что требует горизонтального масштабирования и хранилища lineage.
- Распределенная система действует как единое целое, но требует горизонтального масштабирования хранилища lineage.
- Для масштабирования хранилища lineage используется локальное хранилище данных на каждой машине.
-
Восстановление потока данных
- Потоки данных восстанавливаются путем вычисления ассоциативных таблиц и ассоциативного графа.
- Топологическая сортировка ассоциативного графа определяет порядок изменений данных в конвейере.
-
Отслеживание и воспроизведение
- Отслеживание и воспроизведение потока данных помогают отлаживать большие данные и выявлять аномалии.
- Интеллектуальный анализ происхождения может помочь в обнаружении изменений в поведении субъектов.
-
Проблемы Lineage Store
- Проблемы включают масштабируемость хранилища lineage, отказоустойчивость, точный сбор данных о происхождении и другие.
- Необходимо тщательно оценивать компромиссы между различными аспектами для разработки реалистичного плана сбора данных о происхождении.
- Пересказана только часть статьи. Для продолжения перейдите к чтению оригинала.