2. Buenas prácticas de ajustes

🧠 Propósito del bloque

Entender que un sistema de monitoreo no es estático. Debe ajustarse regularmente para mantenerse útil, reducir el ruido, adaptarse a los cambios y mantener su impacto en la operación.


¿Por qué ajustar?

  • Porque la infraestructura cambia (nuevos servicios, cambios de carga, nuevas dependencias).

  • Porque las alertas pierden efectividad si no se revisan (falsos positivos, redundancias).

  • Porque el monitoreo “olvidado” genera ruido o se vuelve ciego.

Un sistema de monitoreo que no se ajusta regularmente es como una alarma que nadie escucha.


Tipos de ajustes recomendados

Tipo de ajuste Ejemplo operativo
Umbrales de triggers Subir límite de CPU de 80% a 90% para evitar falsos positivos.
Frecuencia de ítems Reducir chequeo de logs de 1m a 10m para evitar saturación.
Desactivación de ítems obsoletos Eliminar monitoreo de servicios descontinuados.
Mensajes de alerta Añadir contexto: nombre de servicio, instrucciones, links.
Reasignación de ownership Cambiar el responsable de un host a un nuevo grupo operativo.
Depuración de plantillas Eliminar triggers duplicados o sin uso real.

Frecuencia sugerida para los ajustes

Actividad Frecuencia mínima recomendada
Revisión de alertas críticas Mensual
Depuración de triggers sin uso Trimestral
Verificación de hosts sin datos Semanal
Ajuste de políticas de escalamiento Trimestral o post-incidente
Evaluación de plantillas Cada nuevo proyecto o revisión anual

El ajuste no debe depender solo de errores visibles, sino ser parte de la rutina operativa.


🧠 Ejemplo práctico: sin ajuste vs con ajuste

Situación Sin ajuste Con ajuste
Se sube un nuevo sistema a producción No se le aplican triggers útiles → ceguera Se revisan templates y alertas asignadas
Alertas por RAM a 80% todo el día Ruido continuo, operador lo ignora Se sube umbral, se ajusta frecuencia
Un trigger falla todos los días Nadie lo corrige por meses Se revisa lógica, se corrige la condición

Criterios de decisión para saber qué ajustar

  1. ¿La alerta generó acción?
    Si nunca se hace nada con ella, debe ajustarse o eliminarse.

  2. ¿Se repite sin consecuencias?
    Si no cambia el estado operativo, es probable que el umbral esté mal definido.

  3. ¿Se escaló correctamente?
    Si nadie actuó a tiempo, el canal o destinatario está mal configurado.

  4. ¿El ítem recolecta datos útiles?
    Si no alimenta alertas, dashboards o reportes: probablemente sea innecesario.


Buenas prácticas para mantener control

  • Documenta cada ajuste importante (qué, cuándo, por qué).

  • Versiona tus plantillas si aplicas cambios masivos.

  • Aplica cambios primero en ambientes de pruebas, si existen.

  • Involucra al equipo responsable antes de eliminar ítems sensibles.

  • Anota cuándo una alerta deja de ser útil: puede volver a activarse más adelante.


Conclusión del bloque

Ajustar no es “parchar”, es mantener saludable y relevante el sistema de monitoreo.

Una plataforma sin ajustes se vuelve ruidosa, costosa y ciega. Un sistema ajustado es útil, claro y accionable.


✅ Resultado esperado

El operador comprende cuándo y cómo ajustar el monitoreo para mantener su utilidad y reducir alertas innecesarias.


✔️ Checklist de evaluación

  • ¿Sé cuándo un trigger necesita ajuste?

  • ¿Puedo identificar ítems sin uso?

  • ¿Sé documentar un cambio aplicado al monitoreo?

  • ¿Comprendo que ajustar es parte del trabajo, no una excepción?