Comprender qué indicadores permiten medir objetivamente si el monitoreo está cumpliendo su función.
Un área de monitoreo que no mide su impacto no puede justificar su valor ni mejorar con base en evidencia.
Permite tener una meta clara hacia la cual evolucionar.
Justifica mejoras, automatizaciones y nuevos desarrollos.
Establece un lenguaje común con otras áreas (soporte, infraestructura, gerencia).
Ayuda a detectar si el monitoreo actual es ruidoso, ciego o ineficiente.
Permite crear tableros de desempeño del área operativa.
A continuación se presentan los indicadores fundamentales que toda operación madura debe alinear:
Tiempo promedio que pasa desde que ocurre un incidente hasta que el monitoreo lo detecta.
Valor deseado | < 1 minuto para incidentes críticos |
---|---|
Impacto | Un MTTD alto indica ceguera o lentitud de recolección o alertamiento. |
Tiempo promedio desde que se detecta el incidente hasta que se resuelve.
Valor deseado | Depende del SLA (ej. < 15 min para servicios sensibles) |
---|---|
Impacto | Un MTTR alto indica falta de escalamiento, análisis o respuesta. |
Porcentaje del tiempo en que un servicio estuvo funcionando sin interrupciones.
Fórmula básica | (Tiempo sin fallos / Tiempo total) * 100 |
---|---|
Valor ideal (crítico) | ≥ 99.9% ("tres nueves") |
Impacto | Mide la calidad real percibida por el usuario. |
Porcentaje de activos críticos que están realmente monitoreados (con ítems, triggers y alertas).
Tipo de cobertura | Cómo se mide |
---|---|
Infraestructura | Servidores con templates aplicados |
Servicios clave | Chequeos de puertos, procesos o servicios |
Aplicaciones | Health checks activos |
Una baja cobertura implica puntos ciegos operativos.
¿Cuántas alertas se generan? ¿Cuántas realmente implicaron una acción?
Métrica derivada | Objetivo |
---|---|
% de alertas válidas | > 80% |
Cantidad de falsos positivos | Lo más cercano a 0 |
Alertas sin atender (timeout) | < 5% |
Un sistema que alerta demasiado, sin contexto ni acción, se vuelve irrelevante.
¿Queda evidencia de lo ocurrido, lo detectado y lo que se hizo?
Elemento evaluable | Valoración |
---|---|
Registro del trigger | OK/NO |
Bitácora de escalamiento | OK/NO |
Cierre documentado del caso | OK/NO |
La falta de trazabilidad impide mejorar después de un incidente.
¿Qué tanto se revisan, ajustan y depuran los triggers, templates y políticas?
Indicador propuesto | Frecuencia sugerida |
---|---|
Revisión de triggers falsos | Mensual |
Actualización de umbrales | Trimestral o por demanda |
Inclusión de nuevos activos | Semanal o según cambios |
No ajustar el monitoreo equivale a abandonarlo.
Seleccionar 3 KPIs prioritarios para comenzar (MTTD, cobertura y volumen de alertas útiles).
Crear una bitácora operativa donde se registren incidentes detectados y acciones aplicadas.
Medir manualmente al principio (hojas de cálculo, Notion, tabla compartida).
Documentar mejoras mes a mes con base en estos indicadores.
Un área de monitoreo no debe ser evaluada por cuántas alertas envía, sino por su capacidad de ver, anticipar y resolver con impacto medible.
Definir KPIs es el primer paso para pasar de operación reactiva a operación basada en evidencia.
El operador comprende qué indicadores definen el éxito del monitoreo, su impacto real y cómo pueden implementarse progresivamente.
¿Conozco qué significa MTTD y MTTR?
¿Puedo identificar qué servicios tengo monitoreados y cuáles no?
¿Podría estimar si la mayoría de las alertas son útiles o ruido?
¿Sé por qué debemos medir cobertura y disponibilidad?
¿Entiendo que sin trazabilidad no hay mejora?