1. Diagrama general del flujo de monitoreo en Zabbix

Objetivo pedagógico

Visualizar el recorrido completo de un dato desde su origen técnico hasta que se convierte en una alerta visible, entendiendo que cada parte del flujo debe estar correctamente configurada para que el sistema funcione.


Introducción conceptual

En monitoreo, nada ocurre por accidente. Cada alerta que vemos pasó por una cadena técnica, desde el host monitoreado hasta la acción automatizada que se ejecuta.

Cuando un operador recibe una alerta, debe entender: ¿Qué dato la generó? ¿Qué regla la disparó? ¿Por qué llegó (o no llegó) a mí?


Diagrama funcional del flujo de monitoreo

![[4.1.1.png]]


Descripción de cada bloque

Componente Rol operativo Errores comunes
Host Dispositivo o sistema a monitorear No está activo o no responde
Zabbix Agent Enlace entre host y Zabbix. Recoge datos del sistema               No instalado, versión incompatible, firewall
Item         Métrica específica (ej. CPU, disco, proceso, ping, log)             Deshabilitado, mal configurado, sin update  
Trigger       Condición lógica que evalúa los datos recolectados                 Fórmula incorrecta, mal umbral              
Evento       Registro de que el trigger cambió de estado (OK → PROBLEMA)         No generado por falta de ítem/trigger        
Problema     Alerta visible en GUI y dashboards                                 No se ve por filtros, severidad oculta      
Acción       Tarea automática ligada al evento (enviar alerta, ejecutar script) No configurada, deshabilitada                
Media Type   Canal de salida (Correo, Telegram, Webhook, SMS, etc.)             Token mal puesto, servidor caído, sin user  
Usuario       Receptor final del evento                                           No vinculado, sin media, permisos mal dados  

️ Actividad – “Rastrea el flujo”

Caso práctico:

Recibiste una alerta de que el CPU del servidor aplicaciones-01 está al 100% desde hace 10 minutos. ¿Qué ruta siguió esa alerta para llegarte? ¿Qué podría haber fallado si no la hubieras recibido?

Indicaciones:

  • Rellena la tabla siguiente con respuestas basadas en el caso:
Etapa ¿Qué componente específico interviene?             ¿Qué verificarías si algo falla?
Item      
Trigger    
Evento    
Acción    
Media Type
Usuario    

️ Actividad – “Rastrea el flujo” - Respuestas ejemplo

Etapa ¿Qué componente específico interviene?             ¿Qué verificarías si algo falla?
Item       system.cpu.util[,user]                           ¿Está habilitado? ¿Reporta datos?                
Trigger     last(/aplicaciones-01/system.cpu.util[,user])>90 ¿Tiene valor reciente? ¿Está activo?              
Evento     Evento generado a las 10:15                         ¿Se disparó? ¿Está ligado al trigger correcto?    
Acción     Enviar alerta a grupo "OPERACIONES"                 ¿Está habilitada? ¿Tiene condiciones válidas?    
Media Type Telegram (bot de alertas)                           ¿Funciona? ¿Token correcto? ¿Zabbix puede enviar?
Usuario     operador.turno1                                   ¿Está en grupo? ¿Tiene el media configurado?      

🧠 Reflexión técnica

“Una alerta confiable no es un accidente, es el resultado de múltiples componentes trabajando en armonía. Si uno falla, la alerta puede no llegar, llegar tarde, o ser incorrecta.”


✅ Resultado esperado

  • El operador puede visualizar y explicar el recorrido completo de una alerta.

  • Es capaz de rastrear un fallo en el flujo, identificando si es problema del ítem, trigger, acción o media.

  • Comprende que ver una alerta ≠ que todo esté bien en el monitoreo.