Unicred do Brasil OPERAÇÕES DE TI Tático

Analista de Confiabilidade (SRE) Sr

Missão do Cargo

Atuar como referência técnica na área de SRE, liderando a modernização de processos, promovendo a excelência operacional e apoiando a gestão estratégica de soluções robustas, seguras e escaláveis para a instituição, com forte ênfase na arquitetura e evolução das práticas de observabilidade para impulsionar a confiabilidade.

Principais Responsabilidades

- Apoiar tecnicamente a liderança e a equipe, promovendo o alcance de metas, com foco na maturidade da observabilidade;
- Monitorar e qualificar processos, identificando oportunidades de melhoria, baseando-se em insights de observabilidade;
- Conduzir análises técnicas e desenvolver recomendações estratégicas, com foco na melhoria da confiabilidade através da observabilidade;
- Apoiar e desenvolver soluções estáveis e escaláveis, garantindo que sejam intrinsecamente observáveis;
- Maximizar processos de deploy e automação (CI/CD), assegurando a instrumentação e validação via observabilidade;
- Adotar arquiteturas cloud visando otimização e redução de custos, com foco na observabilidade de ambientes distribuídos;
- Promover cultura DevOps, realizando treinamentos e documentações técnicas, com ênfase na importância da observabilidade;
- Atuar proativamente na identificação e correção de erros, utilizando técnicas avançadas de observabilidade;
- Implementar pipelines de desenvolvimento e arquiteturas de novos serviços, garantindo a instrumentação e capacidade de observação;
- Gerenciar custos e estrutura em ambientes GCP e AWS, utilizando dados de observabilidade para otimização;
- Utilizar Engenharia do Caos para testar a resiliência das soluções, validando os resultados através da observabilidade;
- Definir e arquitetar a estratégia de SRE para sistemas de alta criticidade, garantindo a aderência aos SLOs, com a observabilidade como pilar fundamental;
- Liderar a implementação de práticas de engenharia de confiabilidade, incluindo automação de toil, gestão de capacidade e resposta a incidentes, com forte dependência de dados de observabilidade;
- Desenvolver e promover padrões de resiliência, recuperação de desastres e chaos engineering, integrando a observabilidade para validação e monitoramento;
- Mentorar engenheiros SRE juniores e plenos, compartilhando conhecimento e promovendo o desenvolvimento técnico, com foco na observabilidade;
- Atuar como especialista em análise de causa raiz de incidentes complexos, coordenando a resolução e a implementação de ações preventivas em nível sistêmico, utilizando insights de observabilidade;
- Colaborar com os times de arquitetura, desenvolvimento e DevOps na definição de requisitos de confiabilidade e na revisão de designs, garantindo a instrumentação e capacidade de observação;
- Pesquisar e avaliar novas tecnologias e abordagens em SRE, propondo sua adoção e liderando a implementação, com foco em ferramentas e práticas de observabilidade;
- Gerenciar o Error Budget e impulsionar a melhoria contínua da confiabilidade dos sistemas, baseando.se em dados de observabilidade;
- Contribuir ativamente para a cultura de SRE, atuando como evangelista e disseminando as melhores práticas, com forte ênfase na observabilidade;
- Elaborar e apresentar relatórios de confiabilidade e desempenho para a alta gestão, utilizando dados e insights de observabilidade.

Formação mínima desejável

- Curso superior em Ciência da Computação, Engenharia de Software, Tecnologia da Informação ou áreas correlatas;
- Pós-graduação completa em áreas correlatas à Tecnologia da Informação.

Conhecimento técnico desejável

- Conhecimento em APIs para instrumentação e monitoramento;
- Conhecimento em automação com scripts para tarefas de observabilidade;
- Conhecimento em computação em nuvem, com foco em observabilidade de ambientes cloud;
- Domínio em segurança de infraestruturas de TI, com foco em como a observabilidade pode auxiliar na detecção de ameaças;
- Conhecimento em DevOps, incluindo containers, ferramentas de APM, integração e entrega contínua, mensageria e sistemas operacionais, com foco na integração da observabilidade no ciclo de vida do desenvolvimento;
- Conhecimento em engenharia de software e arquiteturas, com foco em design para observabilidade;
- Conhecimento em infraestrutura de TI, com foco em monitoramento e otimização;
- Conhecimento em metodologias ágeis;
- Domínio em arquitetura de sistemas distribuídos, com foco em design e implementação de arquiteturas de microsserviços, confiabilidade e escalabilidade, com ênfase na observabilidade;
- Domínio em engenharia de confiabilidade (SRE), incluindo SLOs, SLIs, error budgets, post-mortem, toil automation e chaos engineering, com a observabilidade como pilar central;
- Domínio em cloud computing, com expertise em ambientes multi-cloud e híbridos, com foco em resiliência, recuperação de desastres e otimização de custos, usando a observabilidade como ferramenta de validação e monitoramento;
- Domínio em contêineres e orquestração, com foco avançado em Kubernetes (operadores, service mesh, políticas de rede) e outras tecnologias, com ênfase na instrumentação e observabilidade de contêineres;
- Proficiência em automação com linguagens de programação (Python, Go, Java) para desenvolvimento de ferramentas e automações complexas, focadas em soluções de observabilidade;
- Domínio em monitoramento e observabilidade, com expertise na implementação e gestão de soluções completas (tracking, logging, métricas) em larga escala, incluindo design e otimização de plataformas;
- Domínio em segurança de sistemas e infraestrutura, com foco em resiliência, conformidade e contribuição da observa ilidade para a segurança;
- Conhecimento em bancos de dados relacionais e não relacionais, com foco em gerenciamento, otimização de desempenho e monitoramento via observabilidade;
- Domínio em redes complexas, balanceamento de carga avançado e segurança de rede, com ênfase em observabilidade de rede;
- Conhecimento em gestão de incidentes, com foco na melhoria contínua via post-mortem e uso da observabilidade como fonte principal de informação.