Observabilidade é vital para a operação
Para operar sem intercorrências é necessário ir além da simples coleta de dados
No artigo da última semana eu falei sobre a prática de gestão de mudança (GMUD) e sua relação direta com a agilidade para colocar as soluções na mão do cliente com regularidade.
No entanto, uma vez a solução na mão do cliente, ela não pode falhar! É neste momento— de sustentação das soluções — que a observabilidade tem papel vital e vem se desenvolvendo fortemente.
O termo observabilidade, no contexto de operação de TI, passou a ser utilizado como uma espécie de agregador para as ações de monitoramento de infraestrutura, análise de logs e rastreabilidade de aplicações.
Dentre os promotores de sua utilização, temos o Google, que trata o tema de resiliência de aplicações desde 2003 e o Twitter, que 2013 compartilhou suas práticas no blog da companhia.
A partir de 2018, quando passou a ser uma trilha na conferência QCon de Londres e com o lançamento do livro Distributed Systems Observability (Cindy Sridharan) o tema ganhou o mainstream na área de tecnologia.
A observabilidade, portanto, trata da capacidade de dizer se uma aplicação está operando a contento a partir dos dados externos gerados por ela e, em casos de degradação de performance, dizer o que está quebrado e a razão.
O tema possui relevância crescente à medida que a infraestrutura híbrida — nuvem pública, nuvem privada e on-premise — apresenta um desafio extra em termos de monitoramento, análise de log e rastreabilidade, uma vez que há dependências entre componentes da arquitetura que podem ser providos a partir de diferentes origens.
Além disto, o volume cada vez maior de dados gerados pelas aplicações requerem ferramentas que permitam a análise em tempo real, com forte capacidade de automação e aplicação de inteligência artificial para separar os alertas e variações que realmente importam.
Para ilustrar a multiplicidade de ferramentas, se buscarmos no Cloud Native Landscape, portal de referência para serviços em nuvem, temos mais de 70 soluções na categoria de observabilidade.
Dentre as soluções, vale destacar o Dynatrace, Grafana, New Relic e Zabbix para o monitoramento, o Splunk e o Elastic para análise de logs e ferramentas emergentes que viabilizam a tarefa de manter a operação sob controle e responsiva.
Pela perspectiva dos profissionais, novos papéis vem ganhando força nesta área, como é o caso do Site Reliability Engineer (SRE). Essa função teve origem no Google em 2003, conforme mencionado anteriormente, e vem ganhando espaço no mercado desde então, basta ver o número de vagas disponíveis no LinkedIn, superior a 2.000 posições em aberto (consulta em 07 de agosto de 2021).
Tendo abordado o conceito de observabilidade, apresentado o vasto conjunto de ferramentas para sua implementação e a função de SRE para sua operação, espero ter dado elementos suficientes para que a prática seja endereçada em sua organização.
Não há nada mais frustrante para o cliente do que ter uma experiência comprometida por problemas de performance ou indisponibilidade.
A ligeira tolerância que havia para serviços de baixa qualidade está cada vez menor e a única resposta para garantir excelência operacional é tratar com extremo rigor os sinais vitais de sua operação.
Este exercício requer processos, ferramentas e pessoas capacitadas para criar a resiliência operacional que é vital para o sucesso das organizações em suas soluções ou canais digitais.