Engenheiro de Dados (Especialização em IA / RAG)
Digisystem
- Employment
- Clt
About the role
Profissional de Engenharia de Dados, responsável por projetar, desenvolver e otimizar pipelines de dados escaláveis para ingestão, transformação e enriquecimento de dados estruturados e não estruturados, com foco no suporte a soluções de Inteligência Artificial, especialmente arquiteturas de Retrieval-Augmented Generation (RAG) e construção de base de conhecimento corporativa.
A atuação está aderente às responsabilidades contratuais de Engenharia de Dados, com aplicação das técnicas em cenários avançados de IA.
Atividades e Responsabilidades
Desenvolver e implementar pipelines de ingestão de dados provenientes de bancos de dados, APIs, logs e repositórios documentais corporativos (PDFs, HTML, documentos textuais).
Realizar processos avançados de limpeza, transformação, enriquecimento e versionamento de dados, garantindo integridade, rastreabilidade e qualidade.
Projetar e manter pipelines distribuídos em Apache Spark / PySpark, utilizando plataforma Databricks e arquitetura de dados escalável (Data Lake / Lakehouse).
Implementar estratégias de preparação de dados para IA, incluindo segmentação de documentos (chunking), enriquecimento semântico e integração com mecanismos de busca e indexação.
Apoiar times de Ciência de Dados e AI/ML na preparação de datasets voltados a modelos analíticos e generativos.
Monitorar e otimizar performance, volume e eficiência dos processos de processamento de dados.
Garantir aderência a boas práticas de governança, retenção, atualização e confiabilidade dos dados.
Conhecimentos Técnicos Obrigatórios
Experiência sólida em Engenharia de Dados
Python e/ou PySpark
Apache Spark (batch e/ou streaming)
Experiência com pipelines ETL/ELT
Modelagem de dados em ambientes Data Lake / Lakehouse
Experiência com consumo e integração de APIs
Vivência em ambientes de Cloud Computing (preferencialmente Azure)
Uso de controle de versão (Git)
Conhecimentos Desejáveis (Diferenciais Técnicos)
Experiência com dados não estruturados (texto e documentos)
Experiência com pipelines de dados para Inteligência Artificial
Conhecimento em estratégias de recuperação de informação (RAG)
Integração com mecanismos de busca e indexação semântica
Experiência com plataformas de IA generativa (OpenAI, Azure OpenAI ou equivalentes)
Definir arquitetura de pipelines de dados
Propor melhorias de performance e qualidade
Atuar com autonomia técnica
Apoiar e orientar outros profissionais de dados
Certificações
Apresentar no mínimo 1 (uma) certificação exigida em contrato, devidamente comprovada no currículo.
- Certified Data Management Professional (CDMP);
- Cloudera Certified Data Engineer (CCDE);
- AWS Certified Big Data;
- Microsoft Certified - Azure Data Engineer Associate.
713,000+ hidden jobs like this
Digisystem and thousands of companies post here first — often days before LinkedIn or Indeed. Your first 5 applications are free; go Pro to apply without limits.
Everything Pro unlocks:
- Unlimited applications — free stops at 5
- Track every application in one place
- Apply straight to the source, one click
- Save & organize roles you love
- Roles pulled from company boards before the big sites