Post Mortem SEM CULPA!

Marcelo Ortiz
7 min readMar 18, 2022

--

E vamos encerrar essa série sobre os assuntos essenciais para o SRE falando de Post Mortem SEM CULPA (sim, com caps lock ligado).

Porém, antes de entrar especificamente no Post Mortem SEM CULPA é preciso entender um tema cultural que é essencial para que realmente o Port Mortem SEM CULPA entregue valor, que é trabalhar em um ambiente psicologicamente seguro.

Vai por mim, sem um ambiente seguro não há método ou prática que vai fazer o Post Mortem SEM CULPA funcionar (no fim ele só vai ser mais uma etapa burocrática do processo de incidentes e terá aprendizado superficial sobre o evento, as pessoas vão lutar para sempre se proteger, ou proteger sua equipe).

Ambiente Seguro

Segundo o livro "Organizações Sem Medo" de Amy C. Edmondson:

"A segurança psicológica é amplamente definida como um clima em que as pessoas estão à vontade para se expressar e serem elas mesmas. Mais especificamente, quando as pessoas têm segurança psicológica no trabalho, sentem-se à vontade para compartilhar suas preocupações e erros sem medo do constrangimento ou represália."

Em outras palavras, em um ambiente seguro é possível se expressar livremente, de modo autêntico, sem medo de julgamentos, de modo que elucidar problemas, erros e oportunidade para melhorias seja algo trivial e com o objetivo de aumentar a excelência do serviço e produto, o aprendizado e o compartilhamento de conhecimento.

E essa segurança, em um ambiente de TI complexo e de muitas mudanças, é essencial para que as pessoas confiem uma nas outras a ponto de existir uma discussão construtiva sobre um erro a ponto de se buscar ações que realmente ataque as oportunidades de melhoria para endereçar a causa raiz de um incidente, sem culpabilização.

O maior objetivo é aprender com os erros para alcançar a excelência. Focar em objetivos compartilhados em vez de autoproteção.

Trabalhar em um Post Mortem SEM CULPA (me desculpem, mas sempre vou escrever SEM CULPA em caixa alta, como forma de mostrar que isso é essencial para ter resultados positivos com essa iniciativa) é difícil, é preciso nos desprovir dos egos e falar sobre erros, sem causar calafrios nas pessoas. Elas não podem sentir medo de serem punidas ou envergonhadas ao contar os fatos, fazerem perguntas ou ao ter alguma ideia. Ao contrário, é preciso que o ambiente proporcione a segurança necessária para as pessoas se expressarem sem medo e com autenticidade.

Sem um ambiente seguro seu processo de Post Mortem será algo burocrático onde as pessoas vão buscar a autodefesa. No máximo você vai descobrir que o erro poderia ser evitado, mas alguém preferiu não contar por medo de punição ou você encontrará um silêncio ensurdecedor das pessoas durante a reunião (que só será quebrado para auto proteção).

Então antes de pensar em fazer qualquer iniciativa de Post Mortem, tenha certeza que o ambiente do seu trabalho é seguro. Caso não, sua primeira missão é mudar essa cultura nefasta e só depois disso pensar em trabalhar com Post Mortem SEM CULPA.

Post Mortem SEM CULPA

Sendo bastante pragmático Post Mortem SEM CULPA é uma ferramenta para aprender com os erros, buscar a excelência dos serviços e produtos e evitar que o mesmo cenário ocorra novamente.

Ele é um registro (de preferência dentro da sua ferramenta de ITSM) que contêm, no mínimo:

  • Número do incidente;
  • Descrição do evento;
  • Plataformas e processos de negócio impactados;
  • Volumetria do impacto (por exemplo: número de clientes impactados, perda financeira, atraso nas entregas, etc);
  • Duração do impacto;
  • Equipes envolvidas;
  • Timeline do incidente;
  • Gráficos do sistema de observabilidade (demonstrando o impacto);
  • Causa(s) raiz(es);
  • Ações de melhorias;

E por que SEM CULPA?

Por tudo que já escrevi sobre ambiente seguro, mas também porque Post Mortem SEM CULPA é um princípo da cultura de SRE. Um Post Mortem SEM CULPA supõe que todas as pessoas envolvidas em um incidente tinhas boas intenções e fizeram o que era certo com as informações que possuíam no momento do incidente. Foca em ações que vão aumentar a confiabilidade do sistema.

Mas devo fazer Post Mortem SEM CULPA para todos os incidentes?

Não! O Post Mortem deve ser trabalho para os incidentes graves ou críticos. Você deve alinhar com o negócio quais são os gatilhos que iniciam um incidente grave ou críticos. Esses incidentes devem acionar um Post Mortem.

Em geral, impactos severos em SLO, financeiro, atendimento aos clientes, dados, imagem e em algum processo do BIA (Business Impact Analysis) pedem um Post Mortem.

E como deve ser a dinâmica?

O Post Mortem SEM CULPA deve ser feito assim que o incidente é contornado ou resolvido. Algumas organizações encaixam o Post Mortem logo após a recuperação do incidente e outras preferem dar um tempo para o time descansar (até porque o nível de estresse nesse tipo de incidente é significativo) e agenda um encontro posterior (no máximo em até 48h) para realizar a dinâmica do Post Mortem. Eu, particularmente, não gosto da dinâmica iniciar logo após a recuperação do incidente, pois as pessoas normalmente estão bastante cansadas e querem desligar rapidamente da conferência, deixando o encontro mais pobre. Mas esse é um ponto que você e sua organização deve avaliar e entender em qual momento é melhor para os times executarem a dinâmica do Post Mortem.

Todos que participaram da recuperação do serviço devem participar da dinâmica do Post Mortem, mas existem dois pápeis fundamentais nessa dinâmica:

  • Líder de Gestão da Crise: a pessoa que liderou a gestão do incidente grave/crítico deve organizar e conduzir a dinâmica, sempre produzindo um ambiente seguro e dando voz para todos os envolvidos. Essa pessoa deve ser treinada nas práticas de condução de incidentes graves/críticos e reuniões de Post Mortem SEM CULPA;
  • Líder Técnico da Crise (SRE): lidera e auxilia nas discussões técnicas.

Idealmente todas as informações do Post Mortem devem ser registradas na ferramenta de ITSM da organização. Assim a informação fica acessível à todos os interessados.

Características de um bom Post Mortem

Existem algumas características importantes para a contrução de um bom Post Mortem:

  • Clareza: ele deve ser bem organizado e de fácil entendimento. É normal ter uma seção de Glossário para explicar os termos técnicos.
  • Ações Concretas: as ações definidas pelo time na construção do Post Mortem devem ter, minimamente: sua descrição, responsável, como ela será medida, seu status e uma ação preventiva (caso o evento volte a ocorrer antes da correção definitiva). Ter a data das ações logo na construção do Post Mortem é algo que gera discussões, algumas pessoas acreditam que as ações já devem ter datas e outras não. Eu entendo que muita das ações vão entrar no backlog das equipes, então acredito que elas não necessariamente podem ter uma data no momento da construção do Post Mortem. Isso não significa que elas ficarão sem data, eu acredito que uma boa linha de corte é ter as datas das ações entre as duas próximas interações de entrega (no máximo). Também é muito importante ter um elemento que indique o nível de prioridade, para que os times ataquem as ações com maior prioridade primeiro.
  • Próximo ao Evento: não deixe o tempo passar para fazer seu Post Mortem, quanto mais o tempo passa a possiblidade do seu Post Mortem ser menos acurado aumenta, isso porque as pessoas esquecem do evento. No livro do Google "The Site Reliability Workbook" no capítulo 10 (Post Mortem Culture) diz que não se deve passar uma semana após o incidente ser fechado sem a geração do Post Mortem. Eu, por experiência, recomendo que não passe de 48 horas.

Vou deixar aqui três links de exemplos que considero bons exemplos de Post Mortem:

E depois?

Então você seguiu as recomendações, já está trabalhando em um ambiente seguro, seus Post Mortem estão claros, concisos, bem feitos… e agora? Agora chegou o momento de perseguir as ações e espalhar o aprendizado e conhecimento para toda a organização. E como fazer isso?

  • Para perseguir as ações: crie um Fórum de Confiabilidade para que os times tragam os status das suas ações. Gere incentivos através de gamificação, premie os times que implementaram com sucesso as ações, os times que possuem o menor backlog. Traga também os indicadores de confiabilidade dos serviços, pois conforme as ações são implementadas esse indicador tem a tendência de melhorar, o que gera ainda mais motivação. Abaixo um exemplo de um painel de Post Mortem retirado do livro "The Site Reliability Workbook".
Exemplo de Painel — Gamification
  • Para compartilhar o aprenziado e conhecimento: anuncie a disponibilidade de um Post Mortem em algum canal de comunicação como Teams, Slack, Email. Conduza revisões de Post Mortem por times cross e mantenha toda a documentação gerada em algum lugar centralizado, de preferência em sua ferramenta de ITSM.

E é isso pessoal, lembrem-se da importância de ter um ambiente seguro para que possa ser possível entregar valor atráves do Post Mortem SEM CULPA e que o principal objetivo é aprender com os erros para aumentar a excelência do seu serviço ou produto.

Para quem quer buscar mais informações, deixo alguns livros e sites interessantes sobre SRE e Post Mortem SEM CULPA:

Obrigado e até a próxima.

Marcelo Ortiz
Engenheiro da Computação, mestrando em Ciências da Computação.

--

--