Enquanto isso, nas salas de incidentes de tecnologia…

Marcus Both
aziontechbr
Published in
5 min readOct 30, 2023

Olá! Eu sou o Both (se fala Bô-ti 😊), Technical Support Manager na Azion, uma plataforma de edge que torna mais fácil a maneira de criar e executar aplicações modernas.

Hoje quero compartilhar um pouco dos desafios que o time de suporte enfrenta para ajudar nossos clientes em momentos de crise.

A gente vive uma economia hiperconectada e uma crescente qualidade exigida na experiência — assim como uma dependência cada vez maior da alta disponibilidade de sistemas, aplicações web e aplicativos mobile.

Quando mergulhamos no mundo de edge computing estamos falando de sistemas distribuídos, estáveis e resilientes, que abstraem a complexidade de operadoras de telecom e focam na baixa latência de rede, customizações de header http e êxito em regras de negócio.

Também estamos abordando uma transformação digital na qual, com pouco de esforço, é possível provisionar as mais diversas aplicações (como sistemas open banking, campanhas publicitárias com mega audiências, ecommerces, notícias do cotidiano, eventos ao vivo, etc.) simplesmente utilizando toggle switch em um painel de controle de uma interface ou através de uma requisição de API.

Nenhum problema aparece do nada

Situações desagradáveis como indisponibilidade parcial ou total podem (e vão) ocorrer enquanto existir:

  • deploy corriqueiro sem um teste efetivo, íntegro e automatizado end-to-end
  • sistemas monolíticos
  • aplicações legadas e bugadas
  • ineficiência de um sistema minucioso de monitoramento (SIEM & SOC)
  • ausência de redundâncias
  • desconhecimento íntegro da própria arquitetura
  • falta de comunicação entre as equipes envolvidas — seja Q&A, desenvolvedores frontend & backend, SRE, networking, DBA, etc.
  • desconhecimento fundamental de TCP/IP e desenvolvimento seguro de software.

… dentre outros. Você com certeza sabe do que eu estou falando.

Dentro deste cenário, existe ainda uma infinidade de fatores externos suscetíveis de ocorrer, como acessos maliciosos e ataques cibernéticos que acontecem 24/7 e em diversos níveis de classificação ou magnitudes. Fora as falhas operacionais e humanas.

Incidentes podem acontecer a qualquer momento, com qualquer um… mas sempre há uma razão.

Mesmo com todos os nossos serviços funcionando — inclusive temos muito orgulho por sermos uma referência em service availability — “de repente” algo do lado do cliente acontece: tudo parece um caos, clientes solicitam a criação de uma sala de incidente (war room), e informam que estão com o sistema crítico fora.

Neste momento, estão vendo o mundo desabar na sua tela. Perdendo dinheiro, milhares de clientes frustrados, status 500, internal server error, time out, status 400, 403, 502, 504, etc, tudo pode acontecer.

A tensão e pressão psicológica é enfatizada quando demais gestores são envolvidos e o grupo infla, logo é perceptível um certo desespero abalando o fator emocional.

A importância de agir positivamente

Nesse desespero pelo acionamento, pela necessidade de ajuda humana, especializada e capacitada, é que o time de Engenheiros de Suporte entra em ação. Agimos de forma positiva, pacificando um momento tenso e acalorado, trabalhando em conjunto com as ferramentas do cliente, muitas vezes fazendo até mesmo engenharia reversa para separar o joio do trigo.

Alguns dos questionamentos que temos que fazer para iniciar a investigação:

  • O que de fato está ocorrendo e desde quando está ocorrendo?
  • Qual a data e hora exata de início?
  • Foi feita alguma alteração recente que pudesse ocasionar esse problema?
  • Poderia exemplificar o que ocorria antes e após?
  • Está ocorrendo agora? Há alguma evidência do problema?
  • É possível reproduzir? É possível informar o passo-a-passo?

Também acontece, não raramente, do cliente não saber exatamente o que está ocorrendo ou ter dificuldade de exemplificar o real impacto do problema. Normalmente o retorno para esses questionamentos pode ser vago ou genérico: aconteceu há pouco. Parece que começou ontem. Só vi agora. Acho que não consigo reproduzir. Quem mexe com isso está ausente / de férias / não trabalha mais aqui. Não sei bem, vou tentar falar com fulano para ver se consigo mais detalhes.

Extrair essas informações “não ditas” é um dos obstáculos a serem alcançados. Precisamos abordar diversos pontos para ajudar, entender e resolver, como se fôssemos médicos em uma ação emergencial: procurando agir com senso de urgência e precisão.

É preciso seriedade, mas também muita calma e sensibilidade.

O suporte não pode parar e precisa pensar além

Estamos disponíveis 24h, nos sete dias da semana, e durante todo o ano para sistemas de operações em missão crítica. Já entramos em sala sabendo que a expectativa é de que tudo se resolva em um estalar de dedos, piscar de olhos, enfim, automagicamente.

Às vezes a solução está presente na própria infraestrutura do solicitante, faltando apenas uma confirmação, um ponto de vista diferente, ou ainda um ajuste no comportamento de rule engine para estancar uma rajada de acesso incomum.

Com nosso apoio e nossa disposição genuína de oferecer um suporte diferenciado, levamos em consideração o desenvolvimento de uma expressão regular (regex), personalizada e complexa, mesmo que esteja fora do escopo do suporte.

Somos empáticos, zelamos pela excelência técnica, os princípios da ciência da computação, zero trust security e, claro, o fator humano, o fator comportamental. É de gente para gente, nada robotizado, agregamos inteligência ao negócio e propomos sugestões alternativas de contorno.

Entendemos perfeitamente que nem todos os clientes têm conhecimentos profundos em edge computing e, por isso, estamos presentes e disponíveis para ajudar e ensinar.

Eu adoro o que faço. É recompensador saber que os clientes se tranquilizam com um problema a menos a ser resolvido.

Encontre as soluções, não os culpados

Problemas vão acontecer. Não é uma questão de se vai acontecer, mas quando. Assim que acontecer na sua empresa, saiba que muita coisa pode ser evitada se houver menos tensão procurando encontrar a persona causadora ao invés da causa técnica raiz.

Na Azion nós temos um time extremamente capacitado de engenheiros de suporte.

No fim tudo se resolve porque nossos engenheiros têm essa essência na veia, isso nos move, existe esse poder de mudança. Ainda somos conhecidos e chamados amplamente de apenas “suporte”, mas estamos sempre indo além. Queremos sempre ajudar, tranquilizar e manter os sistemas operantes, íntegros e com status 200.

Quando você fecha um contrato, não é apenas um negócio: é uma parceria. A forma que você é tratado depois da venda feita precisa ser tão boa — e até melhor — do que antes. Se o seu fornecedor não oferece isso, desconfie. Nunca aceite nada menos que excelência das equipes que te dão suporte.

Somos engenheiros de suporte obcecados em ajudar profissionais nessas situações, um desejo profundo de satisfazer as questões complexas, mudar a percepção do mercado, e prover uma experiência fantástica e agradável de satisfação.

Boas-vindas ao edge computing, boas-vindas ao centro de inteligência da Azion, boas-vindas ao que acontece nas salas de incidente!

--

--