Back to all jobs

- Employment
- Full-time
About the role
Key Responsibilities
- Soporte Especializado: Atender escalaciones complejas del ambiente productivo, diagnosticando y resolviendo fallas críticas en el scheduler de Airflow (heartbeats, deadlocks en metadatos, degradación de ejecutores) e infraestructura de Kubernetes (CrashLoopBackOff, saturación de recursos CPU/memoria y fallas de red).
- Gestión de Incidentes y RCA: Realizar análisis profundo de causa raíz frente a comportamientos anómalos en DAGs (concurrencia, tareas colgadas, reintentos infinitos) y producir documentación técnica post-mortem para mitigar riesgos futuros.
- Evolución y Mejora de la Plataforma: Diseñar y ejecutar propuestas de optimización para la estabilidad y performance, planificando upgrades de versiones de Airflow y componentes GKE con el mínimo impacto en el negocio.
- Observabilidad Proactiva: Implementar estrategias de monitoreo avanzado a través de la definición de métricas clave, configuración de alertas tempranas y construcción de dashboards operacionales.
- Gobernanza y Transferencia de Conocimiento: Definir estándares operacionales y buenas prácticas para la gestión de DAGs, manteniendo actualizados los runbooks técnicos y capacitando activamente a los equipos de soporte de Nivel 1 y Nivel 2.
Skills, Knowledge and Expertise
Beneficios
753,000+ hidden jobs like this
Imagemaker and thousands of companies post here first — often days before LinkedIn or Indeed. Your first 5 applications are free; go Pro to apply without limits.
Everything Pro unlocks:
- Unlimited applications — free stops at 5
- Track every application in one place
- Apply straight to the source, one click
- Save & organize roles you love
- Roles pulled from company boards before the big sites