
- Employment
- Homeoffice
- Seniority
- Senior
About the role
Estamos em busca de um profissional talentoso para integrar o nosso time e garantir alta confiabilidade das aplicações através de práticas avançadas de SRE, resiliência, observabilidade e automação em cloud.
Responsabilidades:
Implementar e evoluir estratégia completa de observabilidade
Definir e operar com SLIs, SLOs e Error Budgets
Garantir resiliência e escalabilidade
Reduzir incidentes e prevenir reincidência
Evoluir arquitetura operacional na AWS
Criar automações e mecanismos de auto-recuperação
Atuar como facilitador técnico para squads
Requisitos Técnicos:
SRE e Confiabilidade
Resiliência de sistemas distribuídos
Self-healing (auto recuperação)
Escalabilidade baseada em eventos
Gestão de incidentes e pós-mortem
Observabilidade Completa:
Logs, Traces e Métricas
Custom Metrics
APM
Ferramentas: Datadog (ou similares)
Construção de:
Dashboards e painéis
Monitoramento e alertas inteligentes
Alarmes em tempo real (incidentes, budgets → comunicação com times)
Testes sintéticos
Gestão de Confiabilidade
Definição e acompanhamento de:
SLI / SLO / Error Budget
RTO / RPO
Visão orientada a disponibilidade e experiência
Infraestrutura e Plataforma:
AWS (CloudWatch, X-Ray, ECS/EKS, Lambda)
Docker / Containers
Arquitetura distribuída
Infraestrutura como código e automação
Diferenciais:
Experiência em ambientes críticos (alta disponibilidade)
Chaos Engineering
Uso de IA para análise preditiva de incidentes
Otimização de custos em cloud (FinOps)
759,000+ hidden jobs like this
CI&T and thousands of companies post here first — often days before LinkedIn or Indeed. Your first 5 applications are free; go Pro to apply without limits.
Everything Pro unlocks:
- Unlimited applications — free stops at 5
- Track every application in one place
- Apply straight to the source, one click
- Save & organize roles you love
- Roles pulled from company boards before the big sites