2. Buenas prácticas de ajustes

🧠 Propósito del bloque

Entender que un sistema de monitoreo no es estático. Debe ajustarse regularmente para mantenerse útil, reducir el ruido, adaptarse a los cambios y mantener su impacto en la operación.

¿Por qué ajustar?

Porque la infraestructura cambia (nuevos servicios, cambios de carga, nuevas dependencias).
Porque las alertas pierden efectividad si no se revisan (falsos positivos, redundancias).
Porque el monitoreo “olvidado” genera ruido o se vuelve ciego.

Un sistema de monitoreo que no se ajusta regularmente es como una alarma que nadie escucha.

Tipos de ajustes recomendados

Tipo de ajuste	Ejemplo operativo
Umbrales de triggers	Subir límite de CPU de 80% a 90% para evitar falsos positivos.
Frecuencia de ítems	Reducir chequeo de logs de 1m a 10m para evitar saturación.
Desactivación de ítems obsoletos	Eliminar monitoreo de servicios descontinuados.
Mensajes de alerta	Añadir contexto: nombre de servicio, instrucciones, links.
Reasignación de ownership	Cambiar el responsable de un host a un nuevo grupo operativo.
Depuración de plantillas	Eliminar triggers duplicados o sin uso real.

Frecuencia sugerida para los ajustes

Actividad	Frecuencia mínima recomendada
Revisión de alertas críticas	Mensual
Depuración de triggers sin uso	Trimestral
Verificación de hosts sin datos	Semanal
Ajuste de políticas de escalamiento	Trimestral o post-incidente
Evaluación de plantillas	Cada nuevo proyecto o revisión anual

El ajuste no debe depender solo de errores visibles, sino ser parte de la rutina operativa.

🧠 Ejemplo práctico: sin ajuste vs con ajuste

Situación	Sin ajuste	Con ajuste
Se sube un nuevo sistema a producción	No se le aplican triggers útiles → ceguera	Se revisan templates y alertas asignadas
Alertas por RAM a 80% todo el día	Ruido continuo, operador lo ignora	Se sube umbral, se ajusta frecuencia
Un trigger falla todos los días	Nadie lo corrige por meses	Se revisa lógica, se corrige la condición

Criterios de decisión para saber qué ajustar

¿La alerta generó acción?
Si nunca se hace nada con ella, debe ajustarse o eliminarse.
¿Se repite sin consecuencias?
Si no cambia el estado operativo, es probable que el umbral esté mal definido.
¿Se escaló correctamente?
Si nadie actuó a tiempo, el canal o destinatario está mal configurado.
¿El ítem recolecta datos útiles?
Si no alimenta alertas, dashboards o reportes: probablemente sea innecesario.

Buenas prácticas para mantener control

Documenta cada ajuste importante (qué, cuándo, por qué).
Versiona tus plantillas si aplicas cambios masivos.
Aplica cambios primero en ambientes de pruebas, si existen.
Involucra al equipo responsable antes de eliminar ítems sensibles.
Anota cuándo una alerta deja de ser útil: puede volver a activarse más adelante.

Conclusión del bloque

Ajustar no es “parchar”, es mantener saludable y relevante el sistema de monitoreo.

Una plataforma sin ajustes se vuelve ruidosa, costosa y ciega. Un sistema ajustado es útil, claro y accionable.

✅ Resultado esperado

El operador comprende cuándo y cómo ajustar el monitoreo para mantener su utilidad y reducir alertas innecesarias.

✔️ Checklist de evaluación

¿Sé cuándo un trigger necesita ajuste?
¿Puedo identificar ítems sin uso?
¿Sé documentar un cambio aplicado al monitoreo?
¿Comprendo que ajustar es parte del trabajo, no una excepción?