En medio del cambio al trabajo remoto, APM se vuelve el gran reto de TI

La supervisión del rendimiento de las aplicaciones es el gran momento de TI

Federico Lara
la Totalidad
6 min readApr 3, 2020

--

source: TechCrunch.com Ron Miller@ron_miller / 10:09 am EDT • 31/3/20

En las últimas semanas, millones han comenzado a trabajar desde casa, ejerciendo una presión inaudita sobre servicios como videoconferencias, aprendizaje en línea, entrega de alimentos y plataformas de comercio electrónico. Si bien algunas verticales han visto una marcada reducción en el tráfico, a otras se les pide que escalen a nuevas alturas.

Los servicios que antes eran agradables de tener ahora son necesarios, pero ¿cómo rastrean las organizaciones los puntos de presión que pueden sumar una falla crítica? En realidad, existe toda una clase de software para ayudar en este sentido.

Las herramientas de monitoreo como Datadog, New Relic y Elastic están diseñadas para ayudar a las empresas a comprender lo que sucede dentro de sus sistemas clave y advertirles cuando las cosas pueden ir de lado. Eso es absolutamente esencial, ya que se les pide a estos servicios que manejen niveles de actividad sin precedentes.

En un momento en que el rendimiento es crítico, las herramientas de supervisión del rendimiento de las aplicaciones (APM) están ayudando a las empresas a mantenerse en funcionamiento. También ayudan a rastrear las causas raíz en caso de que ocurra el peor de los casos y desaparezcan, con el objetivo de volver a comenzar lo más rápido posible.

Hablamos con algunos CEOs de proveedores de monitoreo para comprender mejor cómo están ayudando a los clientes a navegar esta demanda y mantener los sistemas en funcionamiento cuando más los necesitamos.

El gran momento para TI

El personal de TI mantiene los sistemas en funcionamiento, pero al igual que muchos que trabajan detrás de escena, pocas personas piensan mucho en lo que hacen hasta que algo sale mal. A medida que las empresas navegan por la crisis de COVID-19, aprenden lo valiosos que son estos empleados, dice Lew Cirne, CEO y fundador de New Relic.

“Las personas de TI son héroes anónimos. Están trabajando detrás de escena. De repente, todo se vuelve loco por las demandas de su sistema y es donde realmente brillan. Básicamente están haciendo su trabajo cuando nadie se da cuenta porque todo está funcionando “, dijo Cirne a TechCrunch.

Él dice que la tecnología está trabajando para aumentar la capacidad de la infraestructura, mientras que el campo médico está trabajando para aplanar la curva de infección. “Este es un momento de verdad para la tecnología. Y mientras el mundo está ocupado aplanando la curva como deberíamos estar, […] sucede lo contrario en tecnología, la curva se está disparando como no lo creerías “, dijo.

Cirne cita a uno de sus clientes, una plataforma de aprendizaje en línea que tuvo un pico de uso del 380% en solo una semana, como solo un ejemplo. Sus clientes también incluyen Zoom y BlueJeans, dos compañías de videoconferencia que se enfrentan a grandes picos de demanda en las últimas semanas.

Predecir problemas antes de que sucedan

Los ingenieros encargados de mantener estos sistemas en funcionamiento necesitan mucha información, dice el fundador y CEO de Datadog, Olivier Pomel. Los nuevos requisitos de uso solo exacerban eso.

“Por cada interrupción que veas de un servicio que podrías usar, probablemente haya docenas o cientos de incidentes más pequeños detrás de escena, y muchos de estos incidentes requieren una respuesta. Incluso si no pueden impactar directamente a los clientes en ese momento, lo harían si los deja sin mitigar ”, explicó Pomel.

Él dice que el trabajo de Datadog es asegurarse de que los clientes puedan comprender todos esos incidentes lo más rápido posible y, de hecho, ayudar a predecir los problemas antes de que sucedan para que puedan enfrentarlos antes de que se conviertan en un problema para los usuarios.

Shay Banon, fundador y CEO de Elastic, dice que el primer paso para encontrar un problema es saber qué es normal y qué no, pero es difícil saber eso cuando de repente se te pide que escales a nuevos niveles muy rápidamente.

Cuando el uso de repente se multiplica por diez, Banon dice que los supuestos principales que solía hacer ya no se aplican. Eso lo obliga a repensar cómo operan sus sistemas en la nueva realidad, lo que requiere observabilidad en su infraestructura. “APM es un gran aspecto de la observabilidad en su conjunto, pero hay un gran concepto relacionado con APM. Se trata de iniciar sesión. Se trata de métricas. Se trata de monitoreo de infraestructura. Se trata de [todo eso] “, dice.

Trabajando de forma remota

Según Pomel, los equipos de TI encargados de monitorear sistemas críticos también se han visto obligados a trabajar desde casa, lo que crea nuevos desafíos para estos equipos. Pomel está viendo que más personas usan su producto de manera colaborativa de una manera que no hubieran tenido que hacer cuando pudieran reunirse en persona para una reunión rápida para discutir un tema.

“Además de la ampliación, todas estas compañías están cambiando a trabajar de forma remota, y como tal, también existe una necesidad cada vez mayor de que sus equipos de ingeniería y equipos de productos colaboren dentro de las plataformas que están utilizando porque en realidad no pueden reunirse y acurrucarse detrás de un par de pantallas e intentar juntar datos de fuentes dispares ”, dice Pomels. “Por lo tanto, es aún más importante entender el problema, porque no hay personas en [el mismo lugar]”.

Banon de Elastic dice que su empresa siempre ha sido remota, por lo que puede asesorar a los CEO que intentan hacer esto por primera vez y hacerles saber qué soluciones funcionaron para su empresa.

“Algunas compañías están tratando de descubrir cómo operar en este nuevo mundo. Somos una empresa verdaderamente distribuida. El hecho de que estamos trabajando desde casa no es nuevo para nosotros. He estado hablando con otros CEO y otros líderes en varias compañías sobre cómo tomamos decisiones y cómo priorizamos ”, dijo.

Cada proveedor tiene su propia forma de ayudar a los clientes a resolverlo, pero se trata de darles las herramientas para comprender lo que sucede dentro de sus sistemas. Si APM no siempre puede mantener los servicios, puede minimizar las interrupciones cuando los sitios caen debido al uso excesivo.

Como dice Cirne, comprender un problema requiere un proceso de investigación. “El monitoreo te dice cuando algo está roto. La observación le permite preguntar por qué hay un problema, dándole la capacidad de hacer preguntas ad hoc que quizás no haya predicho ”, dijo.

Entonces, la próxima vez que su servicio simplemente funcione, y especialmente cuando no lo haga, piense en el ejército de profesionales de TI que trabajan para ponerlo en marcha y las herramientas de monitoreo que los ayudan a comprender lo que está sucediendo. Esas personas te respaldan, ahora más que nunca.

--

--