Unicred do Brasil
OPERAÇÕES DE TI
Operacional
Analista de Confiabilidade (SRE) Pl
Missão do Cargo
- Atuar na administração, automação e otimização de ambientes e processos, garantindo a estabilidade, escalabilidade e segurança das soluções de infraestrutura e colaborando ativamente com os times de desenvolvimento e segurança, com forte ênfase na evolução da observabilidade e na aplicação de seus princípios para melhorar a confiabilidade.
Principais Responsabilidades
- Sugerir e implementar melhorias em processos e ferramentas, com foco na otimização da observabilidade e na geração de insights acionáveis;
- Administrar ambientes em Cloud e atuar na gestão de incidentes, utilizando dados de observabilidade para diagnóstico e resolução;
- Apoiar e desenvolver soluções com foco em estabilidade, segurança e disponibilidade, incorporando a observabilidade desde o design;
- Otimizar processos de deploy e automação de rotinas (CI/CD), garantindo a instrumentação adequada para observabilidade;
- Manter e evoluir ferramentas DevSecOps, com foco na integração de segurança e observabilidade;
- Disseminar a cultura DevOps e promover integração entre equipes, com ênfase na importância da observabilidade compartilhada;
- Avaliar riscos e atuar preventivamente em potenciais crises, baseando.se em dados e alertas de observabilidade;
- Realizar análise de causa raiz de incidentes, propondo e implementando soluções definitivas, com forte dependência de logs, métricas e traces;
- Desenvolver e implementar automações para eliminar toil e melhorar a eficiência operacional, especialmente em tarefas de coleta, processamento e análise de dados de observabilidade;
- Definir e monitorar SLIs e SLOs, garantindo que os sistemas atendam aos requisitos de confiabilidade, utilizando a observabilidade como principal fonte de dados;
- Projetar e implementar soluções de resiliência e recuperação de desastres, garantindo que a observabilidade suporte a validação e o monitoramento dessas soluções;
- Colaborar com os times de desenvolvimento e DevOps na otimização da performance e escalabilidade das aplicações, fornecendo insights de observabilidade;
- Participar de revisões de arquitetura e código, fornecendo feedback sobre confiabilidade e operabilidade, com foco na instrumentação e capacidade de observação;
- Gerenciar a capacidade dos sistemas, planejando e implementando expansões quando necessário, baseando.se em métricas de observabilidade;
- Contribuir para a criação e manutenção de playbooks e documentação de engenharia de confiabilidade, com seções dedicadas à observabilidade e troubleshooting.
Formação mínima desejável
- Curso superior completo em áreas correlatas à Tecnologia da Informação.
Conhecimento técnico desejável
- Domínio em sistemas operacionais Linux para administração e otimização, com foco em coleta de dados de observabilidade;
- Proficiência em automação com scripting (Python, Go) e ferramentas como Ansible e Terraform, focado em automação de tarefas de observabilidade e integração de ferramentas;
- Domínio em conteinerização e orquestração com Docker e Kubernetes, voltado para instrumentação e observabilidade de cargas de trabalho;
- Conhecimento aprofundado em redes e segurança, com foco em monitoramento de tráfego e detecção de anomalias;
- Domínio dos conceitos SRE como SLIs, SLOs, Error Budgets, Post-mortems e toil, aplicando observabilidade para gestão desses conceitos;
- Conhecimento para instrumentação e monitoramento de APIs;
- Conhecimento em engenharia de software, focado em arquiteturas desenhadas para observabilidade;
- Conhecimento em infraestrutura de TI, com foco em monitoramento e otimização;
- Conhecimento em metodologias ágeis.
Carreiras
Conheça outros cargos
01
/
04