Проектирование системы обеспечения надежности объекта
-
Определение и история SRE
- SRE — это набор принципов и практик для создания надежных и масштабируемых программных систем.
- Бен Трейнор Слосс основал команду по обеспечению надежности сайтов в Google в 2003 году.
- SRE распространилась на другие компании, включая Airbnb, Dropbox и LinkedIn.
- 22% организаций приняли модель SRE по данным DevOps Institute за 2021 год.
-
Определение и принципы SRE
- Инженеры по надежности объектов отвечают за доступность, задержку, производительность и другие аспекты систем.
- SRE фокусируется на автоматизации, системном проектировании и устойчивости систем.
- Принципы SRE включают автоматизацию, избегание избыточной надежности и определение необходимых функций.
-
Разработка системы обеспечения надежности сайта
- SRE отличается от DevOps, фокусируясь на создании надежных систем.
- Некоторые компании переименовали свои операционные группы в команды SRE.
-
Методы проектирования надежности сайта
- Управление тяжелым трудом, определение и измерение целей надежности, NALSD, управление инцидентами и планирование мощностей являются ключевыми методами.
-
Реализация SRE
- Команды SRE взаимодействуют с другими командами и применяют принципы SRE в различных формах.
- Примеры команд включают «Кухонную раковину», инфраструктуру, разработчиков платформы, продукт/область применения, встроенный и консультирование.
-
Промышленность и ресурсы
- USENIX проводит ежегодную конференцию SREcon для инженеров по надежности объектов.
- Существуют внешние ресурсы, такие как информационные бюллетени и учебные центры, для поддержки SRE.
Полный текст статьи: