Visualizar el recorrido completo de un dato desde su origen técnico hasta que se convierte en una alerta visible, entendiendo que cada parte del flujo debe estar correctamente configurada para que el sistema funcione.
En monitoreo, nada ocurre por accidente. Cada alerta que vemos pasó por una cadena técnica, desde el host monitoreado hasta la acción automatizada que se ejecuta.
Cuando un operador recibe una alerta, debe entender: ¿Qué dato la generó? ¿Qué regla la disparó? ¿Por qué llegó (o no llegó) a mí?
![[4.1.1.png]]
Componente | Rol operativo | Errores comunes |
---|---|---|
Host | Dispositivo o sistema a monitorear | No está activo o no responde |
Zabbix Agent | Enlace entre host y Zabbix. Recoge datos del sistema | No instalado, versión incompatible, firewall |
Item | Métrica específica (ej. CPU, disco, proceso, ping, log) | Deshabilitado, mal configurado, sin update |
Trigger | Condición lógica que evalúa los datos recolectados | Fórmula incorrecta, mal umbral |
Evento | Registro de que el trigger cambió de estado (OK → PROBLEMA) | No generado por falta de ítem/trigger |
Problema | Alerta visible en GUI y dashboards | No se ve por filtros, severidad oculta |
Acción | Tarea automática ligada al evento (enviar alerta, ejecutar script) | No configurada, deshabilitada |
Media Type | Canal de salida (Correo, Telegram, Webhook, SMS, etc.) | Token mal puesto, servidor caído, sin user |
Usuario | Receptor final del evento | No vinculado, sin media, permisos mal dados |
Caso práctico:
Recibiste una alerta de que el CPU del servidor
aplicaciones-01
está al 100% desde hace 10 minutos. ¿Qué ruta siguió esa alerta para llegarte? ¿Qué podría haber fallado si no la hubieras recibido?
Indicaciones:
Etapa | ¿Qué componente específico interviene? | ¿Qué verificarías si algo falla? |
---|---|---|
Item | ||
Trigger | ||
Evento | ||
Acción | ||
Media Type | ||
Usuario |
Etapa | ¿Qué componente específico interviene? | ¿Qué verificarías si algo falla? |
---|---|---|
Item | system.cpu.util[,user] |
¿Está habilitado? ¿Reporta datos? |
Trigger | last(/aplicaciones-01/system.cpu.util[,user])>90 |
¿Tiene valor reciente? ¿Está activo? |
Evento | Evento generado a las 10:15 | ¿Se disparó? ¿Está ligado al trigger correcto? |
Acción | Enviar alerta a grupo "OPERACIONES" | ¿Está habilitada? ¿Tiene condiciones válidas? |
Media Type | Telegram (bot de alertas) | ¿Funciona? ¿Token correcto? ¿Zabbix puede enviar? |
Usuario | operador.turno1 |
¿Está en grupo? ¿Tiene el media configurado? |
“Una alerta confiable no es un accidente, es el resultado de múltiples componentes trabajando en armonía. Si uno falla, la alerta puede no llegar, llegar tarde, o ser incorrecta.”
El operador puede visualizar y explicar el recorrido completo de una alerta.
Es capaz de rastrear un fallo en el flujo, identificando si es problema del ítem, trigger, acción o media.
Comprende que ver una alerta ≠ que todo esté bien en el monitoreo.