7. Indicadores Clave de Éxito (KPIs) del Monitoreo

🧠 Propósito del bloque

Comprender qué indicadores permiten medir objetivamente si el monitoreo está cumpliendo su función.
Un área de monitoreo que no mide su impacto no puede justificar su valor ni mejorar con base en evidencia.


🧭 ¿Por qué definir KPIs aunque hoy no existan?

  • Permite tener una meta clara hacia la cual evolucionar.

  • Justifica mejoras, automatizaciones y nuevos desarrollos.

  • Establece un lenguaje común con otras áreas (soporte, infraestructura, gerencia).

  • Ayuda a detectar si el monitoreo actual es ruidoso, ciego o ineficiente.

  • Permite crear tableros de desempeño del área operativa.


Principales KPIs en monitoreo

A continuación se presentan los indicadores fundamentales que toda operación madura debe alinear:

1. MTTD (Mean Time To Detect)

Tiempo promedio que pasa desde que ocurre un incidente hasta que el monitoreo lo detecta.

Valor deseado < 1 minuto para incidentes críticos
Impacto Un MTTD alto indica ceguera o lentitud de recolección o alertamiento.

2. ️ MTTR (Mean Time To Resolve)

Tiempo promedio desde que se detecta el incidente hasta que se resuelve.

Valor deseado Depende del SLA (ej. < 15 min para servicios sensibles)
Impacto Un MTTR alto indica falta de escalamiento, análisis o respuesta.

3. Disponibilidad técnica (%)

Porcentaje del tiempo en que un servicio estuvo funcionando sin interrupciones.

Fórmula básica (Tiempo sin fallos / Tiempo total) * 100
Valor ideal (crítico) ≥ 99.9% ("tres nueves")
Impacto Mide la calidad real percibida por el usuario.

4. 🧠 Cobertura de monitoreo

Porcentaje de activos críticos que están realmente monitoreados (con ítems, triggers y alertas).

Tipo de cobertura Cómo se mide
Infraestructura Servidores con templates aplicados
Servicios clave Chequeos de puertos, procesos o servicios
Aplicaciones Health checks activos

Una baja cobertura implica puntos ciegos operativos.


5. Volumen de alertas útiles vs ruido

¿Cuántas alertas se generan? ¿Cuántas realmente implicaron una acción?

Métrica derivada Objetivo
% de alertas válidas > 80%
Cantidad de falsos positivos Lo más cercano a 0
Alertas sin atender (timeout) < 5%

Un sistema que alerta demasiado, sin contexto ni acción, se vuelve irrelevante.


6. Trazabilidad de incidentes

¿Queda evidencia de lo ocurrido, lo detectado y lo que se hizo?

Elemento evaluable Valoración
Registro del trigger OK/NO
Bitácora de escalamiento OK/NO
Cierre documentado del caso OK/NO

La falta de trazabilidad impide mejorar después de un incidente.


7. Frecuencia de ajustes a monitoreo

¿Qué tanto se revisan, ajustan y depuran los triggers, templates y políticas?

Indicador propuesto Frecuencia sugerida
Revisión de triggers falsos Mensual
Actualización de umbrales Trimestral o por demanda
Inclusión de nuevos activos Semanal o según cambios

No ajustar el monitoreo equivale a abandonarlo.


¿Cómo empezar si no tenemos datos?

  1. Seleccionar 3 KPIs prioritarios para comenzar (MTTD, cobertura y volumen de alertas útiles).

  2. Crear una bitácora operativa donde se registren incidentes detectados y acciones aplicadas.

  3. Medir manualmente al principio (hojas de cálculo, Notion, tabla compartida).

  4. Documentar mejoras mes a mes con base en estos indicadores.


Conclusión del bloque

Un área de monitoreo no debe ser evaluada por cuántas alertas envía, sino por su capacidad de ver, anticipar y resolver con impacto medible.

Definir KPIs es el primer paso para pasar de operación reactiva a operación basada en evidencia.


✅ Resultado esperado

El operador comprende qué indicadores definen el éxito del monitoreo, su impacto real y cómo pueden implementarse progresivamente.


✔️ Checklist de evaluación

  • ¿Conozco qué significa MTTD y MTTR?

  • ¿Puedo identificar qué servicios tengo monitoreados y cuáles no?

  • ¿Podría estimar si la mayoría de las alertas son útiles o ruido?

  • ¿Sé por qué debemos medir cobertura y disponibilidad?

  • ¿Entiendo que sin trazabilidad no hay mejora?