7. Indicadores Clave de Éxito (KPIs) del Monitoreo

🧠 Propósito del bloque

Comprender qué indicadores permiten medir objetivamente si el monitoreo está cumpliendo su función.
Un área de monitoreo que no mide su impacto no puede justificar su valor ni mejorar con base en evidencia.

🧭 ¿Por qué definir KPIs aunque hoy no existan?

Permite tener una meta clara hacia la cual evolucionar.
Justifica mejoras, automatizaciones y nuevos desarrollos.
Establece un lenguaje común con otras áreas (soporte, infraestructura, gerencia).
Ayuda a detectar si el monitoreo actual es ruidoso, ciego o ineficiente.
Permite crear tableros de desempeño del área operativa.

Principales KPIs en monitoreo

A continuación se presentan los indicadores fundamentales que toda operación madura debe alinear:

1. MTTD (Mean Time To Detect)

Tiempo promedio que pasa desde que ocurre un incidente hasta que el monitoreo lo detecta.

Valor deseado	< 1 minuto para incidentes críticos
Impacto	Un MTTD alto indica ceguera o lentitud de recolección o alertamiento.

2. ️ MTTR (Mean Time To Resolve)

Tiempo promedio desde que se detecta el incidente hasta que se resuelve.

Valor deseado	Depende del SLA (ej. < 15 min para servicios sensibles)
Impacto	Un MTTR alto indica falta de escalamiento, análisis o respuesta.

3. Disponibilidad técnica (%)

Porcentaje del tiempo en que un servicio estuvo funcionando sin interrupciones.

Fórmula básica	`(Tiempo sin fallos / Tiempo total) * 100`
Valor ideal (crítico)	≥ 99.9% ("tres nueves")
Impacto	Mide la calidad real percibida por el usuario.

4. 🧠 Cobertura de monitoreo

Porcentaje de activos críticos que están realmente monitoreados (con ítems, triggers y alertas).

Tipo de cobertura	Cómo se mide
Infraestructura	Servidores con templates aplicados
Servicios clave	Chequeos de puertos, procesos o servicios
Aplicaciones	Health checks activos

Una baja cobertura implica puntos ciegos operativos.

5. Volumen de alertas útiles vs ruido

¿Cuántas alertas se generan? ¿Cuántas realmente implicaron una acción?

Métrica derivada	Objetivo
% de alertas válidas	> 80%
Cantidad de falsos positivos	Lo más cercano a 0
Alertas sin atender (timeout)	< 5%

Un sistema que alerta demasiado, sin contexto ni acción, se vuelve irrelevante.

6. Trazabilidad de incidentes

¿Queda evidencia de lo ocurrido, lo detectado y lo que se hizo?

Elemento evaluable	Valoración
Registro del trigger	OK/NO
Bitácora de escalamiento	OK/NO
Cierre documentado del caso	OK/NO

La falta de trazabilidad impide mejorar después de un incidente.

7. Frecuencia de ajustes a monitoreo

¿Qué tanto se revisan, ajustan y depuran los triggers, templates y políticas?

Indicador propuesto	Frecuencia sugerida
Revisión de triggers falsos	Mensual
Actualización de umbrales	Trimestral o por demanda
Inclusión de nuevos activos	Semanal o según cambios

No ajustar el monitoreo equivale a abandonarlo.

¿Cómo empezar si no tenemos datos?

Seleccionar 3 KPIs prioritarios para comenzar (MTTD, cobertura y volumen de alertas útiles).
Crear una bitácora operativa donde se registren incidentes detectados y acciones aplicadas.
Medir manualmente al principio (hojas de cálculo, Notion, tabla compartida).
Documentar mejoras mes a mes con base en estos indicadores.

Conclusión del bloque

Un área de monitoreo no debe ser evaluada por cuántas alertas envía, sino por su capacidad de ver, anticipar y resolver con impacto medible.

Definir KPIs es el primer paso para pasar de operación reactiva a operación basada en evidencia.

✅ Resultado esperado

El operador comprende qué indicadores definen el éxito del monitoreo, su impacto real y cómo pueden implementarse progresivamente.

✔️ Checklist de evaluación

¿Conozco qué significa MTTD y MTTR?
¿Puedo identificar qué servicios tengo monitoreados y cuáles no?
¿Podría estimar si la mayoría de las alertas son útiles o ruido?
¿Sé por qué debemos medir cobertura y disponibilidad?
¿Entiendo que sin trazabilidad no hay mejora?