Observabilidade é vital para a operação

Published in

Tríade Digital

3 min readAug 7, 2021

Para operar sem intercorrências é necessário ir além da simples coleta de dados

No artigo da última semana eu falei sobre a prática de gestão de mudança (GMUD) e sua relação direta com a agilidade para colocar as soluções na mão do cliente com regularidade.

No entanto, uma vez a solução na mão do cliente, ela não pode falhar! É neste momento— de sustentação das soluções — que a observabilidade tem papel vital e vem se desenvolvendo fortemente.

O termo observabilidade, no contexto de operação de TI, passou a ser utilizado como uma espécie de agregador para as ações de monitoramento de infraestrutura, análise de logs e rastreabilidade de aplicações.

Dentre os promotores de sua utilização, temos o Google, que trata o tema de resiliência de aplicações desde 2003 e o Twitter, que 2013 compartilhou suas práticas no blog da companhia.

A partir de 2018, quando passou a ser uma trilha na conferência QCon de Londres e com o lançamento do livro Distributed Systems Observability (Cindy Sridharan) o tema ganhou o mainstream na área de tecnologia.

A observabilidade, portanto, trata da capacidade de dizer se uma aplicação está operando a contento a partir dos dados externos gerados por ela e, em casos de degradação de performance, dizer o que está quebrado e a razão.

InfoQ — https://www.infoq.com/minibooks/distributed-systems/?itm_source=minibooks_about_observability&itm_medium=link&itm_campaign=observability

O tema possui relevância crescente à medida que a infraestrutura híbrida — nuvem pública, nuvem privada e on-premise — apresenta um desafio extra em termos de monitoramento, análise de log e rastreabilidade, uma vez que há dependências entre componentes da arquitetura que podem ser providos a partir de diferentes origens.

Além disto, o volume cada vez maior de dados gerados pelas aplicações requerem ferramentas que permitam a análise em tempo real, com forte capacidade de automação e aplicação de inteligência artificial para separar os alertas e variações que realmente importam.

Para ilustrar a multiplicidade de ferramentas, se buscarmos no Cloud Native Landscape, portal de referência para serviços em nuvem, temos mais de 70 soluções na categoria de observabilidade.

https://landscape.cncf.io/card-mode?category=observability-and-analysis&grouping=category

Dentre as soluções, vale destacar o Dynatrace, Grafana, New Relic e Zabbix para o monitoramento, o Splunk e o Elastic para análise de logs e ferramentas emergentes que viabilizam a tarefa de manter a operação sob controle e responsiva.

Pela perspectiva dos profissionais, novos papéis vem ganhando força nesta área, como é o caso do Site Reliability Engineer (SRE). Essa função teve origem no Google em 2003, conforme mencionado anteriormente, e vem ganhando espaço no mercado desde então, basta ver o número de vagas disponíveis no LinkedIn, superior a 2.000 posições em aberto (consulta em 07 de agosto de 2021).

https://www.linkedin.com/jobs/search/?geoId=106057199&keywords=site%20reliability%20engineer&location=Brazil

Tendo abordado o conceito de observabilidade, apresentado o vasto conjunto de ferramentas para sua implementação e a função de SRE para sua operação, espero ter dado elementos suficientes para que a prática seja endereçada em sua organização.

Não há nada mais frustrante para o cliente do que ter uma experiência comprometida por problemas de performance ou indisponibilidade.

A ligeira tolerância que havia para serviços de baixa qualidade está cada vez menor e a única resposta para garantir excelência operacional é tratar com extremo rigor os sinais vitais de sua operação.

Este exercício requer processos, ferramentas e pessoas capacitadas para criar a resiliência operacional que é vital para o sucesso das organizações em suas soluções ou canais digitais.

Observabilidade é vital para a operação

Written by Bruno Machado