¿Que es SRE (site reliability engineering)?

Gustavo Andres Brey
Ingenia, Architectural Journeys
2 min readNov 25, 2021

Sigue pasando el tiempo y me sigo topando con clientes que jamás escucharon hablar de SRE, es lo que me motivó escribir este artículo corto y conciso de este enfoque de como gestionar infraestructura moderna que venimos adoptando en nuestros clientes desde el 2019.

Me gusta definir SRE como un conjunto de prácticas y modelo de trabajo que permite gestionar infraestrcutura de IT como si fuera software. Fomentando el data-driven-decision a través de KPIs, automatización de tareas y gestión de incidentes basado en la obserbavilidad.

SRE es un enfoque propuesta por Google en 2016, y que se publicó en 2018 en un libro gratuito que no recomiendo bajo ningún punto de vista que es el siguiente Site Reliability Engineering: How Google Runs Production Systems. En cambio si, recomiendo este otro libro gratuito para leer y ver desde los casos de estudio reales.

Que pueden encontrar en el siguiente link. El libro anterior no dejo el línk asi les ahorro tiempo :)

Este es un grafio que me gusta usar mucho cuando hablo de adopción de SRE y como entra dentro de un esquema de celulas y el rol del DevOps / SRO.

Si quieren seguir profundizando, dejo una charla de Damian Garcia en una IasCode (de ArqConf) y un curso muy copado en español de SRE que damos en GoElevate.

--

--

Gustavo Andres Brey
Ingenia, Architectural Journeys

Ingeniero, Padre, Ingenia Co-Founder, Profesor UTN y UCEMA, Ex NERD@GOV, Casado con la nerd mas linda. Founder KidsConf, ArqConf y DevopsConf. TEDx Speaker