Gestão de incidentes: passo a passo para acalmar a tempestade ⛈

Paulo Farias
mobicareofficial
Published in
6 min readMay 5, 2021

Um ponto importante sobre esse artigo é: leia-o quando o dia estiver calmo 😂. Se você caiu nessa página pesquisando por tópicos que irão te ajudar no meio de um incidente, talvez não seja uma boa ideia. Mantenha o foco no seu problema e siga os protocolos que você costuma seguir, quando a paz reinar novamente volte e vamos falar com mais calma.

O primeiro passo é aceitar que, por mais cauteloso que você seja, por mais burocráticos que sejam os processos de sua empresa, por maior que seja o seu controle e conhecimento do ambiente, incidentes acontecem e como você lida com eles é o que faz a diferença.

Conceitualmente, incidente é o efeito de um evento que causou um impacto negativo e, gerenciar um incidente, significa ter um processo com o objetivo de retomar um serviço o mais rápido possível, causando o mínimo de danos ao negócio. Agora que você já sabe o que é um incidente e já aceitou que eles podem acontecer, vamos trabalhar para tornar a experiência menos traumática possível.

Dividi em alguns tópicos que vão se complementando e juntos vão te ajudar bastante com possíveis problemas.

Identifique a falha antes de todos

O ponto de partida sempre deve ser a identificação da falha. Existem alguns meios por onde podem surgir o assunto, reclamação do cliente, teste de rotina, análise de ambiente, entre outros. Porém, se a identificação não veio de uma ferramenta de monitoramento, temos o primeiro problema a ser revisitado após contornar a situação.

Todo e qualquer evento que gere um incidente deve vir de uma ferramenta de alarmes. Se você está identificando por outros meios, significa que seu monitoramento não é eficaz e precisa de melhorias para garantir que identifique antes de qualquer outra pessoa. É muito melhor que você informe aos demais que algo está fora do eixo, mas que já foi prontamente identificado e já está sendo resolvido, do que receber uma ligação e ainda não ter ideia do que está acontecendo.

Por isso, se você tratou algo que não foi identificado por alarme, na conclusão adicione uma tarefa sobre como poderá fazer para alarmar na próxima.

Sua linha de frente deve ter armas necessárias

Normalmente um incidente segue um roteiro de escalabilidade, vou citar como exemplo minha própria equipe: quando há um alarme, seja um incidente ou um simples evento, meu primeiro nível é focado na identificação e primeira análise. Como vemos diversas plataformas, serviços e sistemas, cada alarme é composto por uma trigger que trará a breve descrição do ocorrido identificando o grau do problema visualmente, isto é: azul = informativo | amarelo = atenção | vermelho = crítico, etc.

Porém, somente informar a gravidade não é o bastante. Além disso, o alarme deve ser associado a uma documentação palpável a todos os níveis, ou seja, a documentação é composta por algumas etapas:

  • Breve descrição: ponto de partida que dirá ao analista do que se trata o evento, mesmo que ele nunca tenha visto o alarme antes, terá um norte;
  • Impacto: é muito importante dizer ao analista o que está quebrando e onde, isso o ajudará a identificar os elementos mais facilmente e na validação saberá exatamente o que testar;
  • Reforço da criticidade: importantíssimo que fique bem claro quão crítico é o evento, deve ficar claro se é algo que afeta 0,0001% dos usuários ou se causará impacto na receita, coisa que um gráfico vermelho não vai conseguir dizer com clareza;
  • O que fazer em caso de alarme: quais elementos avaliar, quais ações devem ser tomadas e, principalmente, quais os próximos passos na escalada.

Não veja o primeiro nível como um roteador de problemas. O cenário perfeito, na minha visão, é que um alarme tenha início, meio e fim nas mãos do primeiro nível. Isso é a garantia de que suas documentações e ações estão boas e que sua equipe está fazendo um ótimo trabalho.

Por isso, instrua e confie processos e análises ao seu analista do primeiro nível. Caso o problema precise escalar, solicite que o primeiro nível acompanhe para ganhar experiência. Isso faz bem ao funcionário que adquire experiência e desenvolve suas habilidades e faz muito bem para toda equipe. Pense que quanto mais o primeiro nível consegue resolver, menor é a carga pra cima da escala.

Tenha todo o histórico em um fácil acesso

Em resumo bem objetivo, seu incidente deve registrar um ticket automaticamente. Você precisa ter uma visão clara do que está acontecendo a curto e longo prazo, isto é, se você está alarmando e não está registrando, muito provavelmente você não terá em relatórios futuros a visão do que precisa ser melhorado ou o que tem te dado mais dor de cabeça.

Tenha uma comunicação sincera e um plano de comunicados

Se há um problema causando um incidente, não adianta fingir que nada está acontecendo. O cliente simplesmente vai perder o acesso ao serviço ou terá dificuldades para acessá-lo e, falando como cliente, não há nada pior do que abrir uma reclamação de algo que você sabe que não está funcionando e receber a notícia de que está tudo bem e precisa testar novamente que, por mágica, dessa vez funcionará.

Seja claro com seu cliente, estabeleça no seu plano de ação o disparo de comunicados. Gere um template com a informação de horário de início, impacto, se é uma degradação ou indisponibilidade e mais informações que façam sentido ao cliente.

Entenda que a comunicação interna e externa são diferentes. Para seus colegas de trabalho você pode informar com uma maior riqueza de detalhes, tais como o fluxo afetado, os backends envolvidos e o que está acontecendo no ambiente, pois, tais informações serão agregadoras de valor e os envolvidos já iniciarão a análise com as variáveis necessárias.

Para o seu cliente, não faz sentido entrar nesses detalhes porque ele simplesmente não conhece sua plataforma, e sim seu produto.
Importante que o plano de comunicação tenha pelo menos duas etapas, um comunicado de início e outro de fim, simples assim, mas caso se estenda por mais tempo o problema, é importante que haja um update com status entre as duas ações.

Escalabilidade

Todo incidente deve ter um plano de escalada, ou seja, se o primeiro nível não resolver em X tempo, o segundo nível deve ser impactado. Se depois de X tempo o segundo nível também não resolve, o terceiro nível será impactado e assim por diante. Você até consegue fazer isso de forma manual, adicionar a um procedimento, ou coisa do tipo, porém, é difícil que alguém que esteja envolvido e lutando para resolver um problema consiga cronometrar a hora de impactar o próximo nível.

O ideal é que você utilize alguma ferramenta de gestão de incidentes para isso. Existem algumas no mercado que atendem bem essa função, basta você definir as equipes e o tempo entre uma escalada e outra e elas fazem perfeitamente esse trabalho.

Bom, com todas essas ações bem desenhadas, o que acontece após a resolução?

Não adianta ter todo um plano de ação sobre a crise para, depois que resolver, apertar as mãos e cada um seguir seu caminho. É importante que fique claro a todos o que e porquê aconteceu e, principalmente, o que faremos para que não aconteça novamente.

Estabeleça um postmortem para levar os pontos de falha no processo que podem ser melhorados, reconhecer os pontos positivos e definir os passos para que o incidente não volte a acontecer. Não utilize esse rito para encontrar culpados, além de não ser a intenção, vai desmotivar os envolvidos e possivelmente gerar um atrito desnecessário.

É importante que todos os envolvidos levem seu ponto de vista e que o time trabalhe junto para resolver o problema pela raiz. Defina as demandas necessárias para resolução do problema e melhorias, defina também os responsáveis por implementá-las e veja como as próximas experiências se tornarão mais fáceis.

Espero que os passos te ajudem a sair bem desses momentos tão delicados.
E lembre-se: no final, isso tudo vira história de bar e a gente dá risada juntos.

Oi, pessoal! Sou o Paulo Farias, Coordenador de Operações nas empresas Mobicare e Akross com foco em ambientes de produção e plataformas críticas de alta performance.

A Mobicare e a Akross combinam os Melhores Talentos, Tecnologias de Ponta, Práticas Agile e DevOps com Capacidades Operacionais avançadas para ajudar Operadoras Telecom e grandes empresas a gerarem novas receitas e a melhorarem a experiência dos seus próprios clientes.

Se você gosta de inovar, trabalhar com tecnologia de ponta e está sempre buscando conhecimento, somos um match perfeito!

Faça parte do nosso time. 😉

--

--