文章推薦

SRE 文章推薦

推薦:Site Reliability Engineering (SRE, 網站可靠性工程)

SRE 全名是 Site Reliability Engineering 網站可靠性工程,是 Google 提倡的系統管理實踐之道、指導思想,這個名詞同時也是 軟體工程師 (Software Engineer) 的角色,可以類比於傳統的維運工程師或系統工程師,但是 SRE 是用 計算機科學 和 軟體工程 手段,實踐 大型系統維運、分散式系統 的設計與開發。

Uber 的 SRE实践(簡中)

SRE(Site Reliability Engineering)代表了一套先进的、完整的运维体系,它最早由 Google 提出,希望能用软件工程的方式来解决运维工作中的难题。Google 从 2003 年开始逐步试验 SRE 理念,到现在已经有 10 多年时间,而当初的那个团队也从几个人发展壮大到了几千人,他们保障了整个 Google 服务的稳定性。由于 Google 在 SRE 团队探索上的成功,所以后来各大互联网公司争相效仿,希望能够通过增加这样的角色和相关的工程实践来提供服务的可用性。

你在找的是 SRE 還是 DevOps? (by Neil Wei DevOps@KKStream, KKBOX Group)

SRE is a DevOps (香蕉是一種水果)
DevOps is NOT a SRE (水果不是香蕉)
DevOps 並不是一個 "工作職稱",SRE 才是

Chaos Engineering的历史、原则以及实践(簡中)

混沌工程旨在将故障扼杀在襁褓之中,也就是在故障造成中断之前将它们识别出来。通过主动制造故障,测试系统在各种压力下的行为,识别并修复故障问题,避免造成严重后果。混沌工程将预想的事情与实际发生的事情进行对比,通过“有意识地搞破坏”来提升系统的弹性。

混沌工程实践经验:如何让系统在生产环境中稳定可靠(簡中)

「不是你選擇那一刻,是那一刻選擇你,而你唯一能選擇的就是作好準備。」
「混屯工程不是製造問題,是揭露問題」