Локстеп (вычисления)

Единый шаг (вычислительная техника) Основы систем Lockstep Системы Lockstep выполняют операции параллельно и обеспечивают отказоустойчивость.  Избыточность позволяет обнаруживать и исправлять […]

Единый шаг (вычислительная техника)

  • Основы систем Lockstep

    • Системы Lockstep выполняют операции параллельно и обеспечивают отказоустойчивость. 
    • Избыточность позволяет обнаруживать и исправлять ошибки, используя сравнение выходных данных. 
    • Двойное модульное резервирование (DMR) обеспечивает автоматическое исправление ошибок при наличии двух систем. 
    • Тройное модульное резервирование (TMR) требует совпадения выходных данных трех систем для подтверждения правильности. 
  • Терминология и принципы работы

    • Термин «шаг в ногу» происходит из армейского обихода и обозначает синхронную работу. 
    • Системы настраиваются на переход от одного состояния к другому при обработке новых данных. 
    • Изменения в системе рассматриваются как атомарные транзакции, которые либо происходят полностью, либо не происходят вовсе. 
    • Временной сдвиг между системами может увеличить вероятность обнаружения ошибок. 
  • Применение в памяти

    • Intel использует термин lockstep memory для многоканальной схемы расположения памяти. 
    • Сочетание функций коррекции ошибок и обнаружения двойных ошибок в двух модулях DIMM с поддержкой ECC обеспечивает защиту от сбоев. 
    • Недостатками схемы памяти Intel lockstep являются уменьшение объема оперативной памяти и снижение производительности. 
  • Двойное модульное резервирование

    • Системы DMR работают в конфигурации «ведущий/ведомый», где ведомый является «горячим резервом». 
    • Ведущий модуль копирует свое состояние на ведомый, чтобы обеспечить продолжение работы в случае сбоя. 
    • Системы DMR не защищают от программных ошибок, и при сбое ведущего из-за программного обеспечения ведомый может повторить ошибку. 
  • Тройное модульное резервирование

    • TMR рассматривает системы как «голосующие», где несовпадение данных трех систем указывает на сбой. 
    • Совпадение данных двух других систем считается правильным. 
  • Дополнительные ресурсы

    • Ссылки на статьи и рекомендации по обеспечению надежности памяти на серверах Dell PowerEdge и правильной архитектуре памяти Chipkill. 

Полный текст статьи:

Локстеп (вычисления) — Википедия

Оставьте комментарий

Прокрутить вверх