Единый шаг (вычислительная техника)
-
Основы систем Lockstep
- Системы Lockstep выполняют операции параллельно и обеспечивают отказоустойчивость.
- Избыточность позволяет обнаруживать и исправлять ошибки, используя сравнение выходных данных.
- Двойное модульное резервирование (DMR) обеспечивает автоматическое исправление ошибок при наличии двух систем.
- Тройное модульное резервирование (TMR) требует совпадения выходных данных трех систем для подтверждения правильности.
-
Терминология и принципы работы
- Термин «шаг в ногу» происходит из армейского обихода и обозначает синхронную работу.
- Системы настраиваются на переход от одного состояния к другому при обработке новых данных.
- Изменения в системе рассматриваются как атомарные транзакции, которые либо происходят полностью, либо не происходят вовсе.
- Временной сдвиг между системами может увеличить вероятность обнаружения ошибок.
-
Применение в памяти
- Intel использует термин lockstep memory для многоканальной схемы расположения памяти.
- Сочетание функций коррекции ошибок и обнаружения двойных ошибок в двух модулях DIMM с поддержкой ECC обеспечивает защиту от сбоев.
- Недостатками схемы памяти Intel lockstep являются уменьшение объема оперативной памяти и снижение производительности.
-
Двойное модульное резервирование
- Системы DMR работают в конфигурации «ведущий/ведомый», где ведомый является «горячим резервом».
- Ведущий модуль копирует свое состояние на ведомый, чтобы обеспечить продолжение работы в случае сбоя.
- Системы DMR не защищают от программных ошибок, и при сбое ведущего из-за программного обеспечения ведомый может повторить ошибку.
-
Тройное модульное резервирование
- TMR рассматривает системы как «голосующие», где несовпадение данных трех систем указывает на сбой.
- Совпадение данных двух других систем считается правильным.
-
Дополнительные ресурсы
- Ссылки на статьи и рекомендации по обеспечению надежности памяти на серверах Dell PowerEdge и правильной архитектуре памяти Chipkill.