ls Laravel - Cargos
Logo Unicred
Unicred do Brasil OPERAÇÕES DE TI Tático

Analista de Confiabilidade (SRE) Sr

Missão do Cargo

  • Atuar como referência técnica na área de SRE, liderando a modernização de processos, promovendo a excelência operacional e apoiando a gestão estratégica de soluções robustas, seguras e escaláveis para a instituição, com forte ênfase na arquitetura e evolução das práticas de observabilidade para impulsionar a confiabilidade.

Principais Responsabilidades

    • Apoiar tecnicamente a liderança e a equipe, promovendo o alcance de metas, com foco na maturidade da observabilidade;
    • Monitorar e qualificar processos, identificando oportunidades de melhoria, baseando-se em insights de observabilidade;
    • Conduzir análises técnicas e desenvolver recomendações estratégicas, com foco na melhoria da confiabilidade através da observabilidade;
    • Apoiar e desenvolver soluções estáveis e escaláveis, garantindo que sejam intrinsecamente observáveis;
    • Maximizar processos de deploy e automação (CI/CD), assegurando a instrumentação e validação via observabilidade;
    • Adotar arquiteturas cloud visando otimização e redução de custos, com foco na observabilidade de ambientes distribuídos;
    • Promover cultura DevOps, realizando treinamentos e documentações técnicas, com ênfase na importância da observabilidade;
    • Atuar proativamente na identificação e correção de erros, utilizando técnicas avançadas de observabilidade;
    • Implementar pipelines de desenvolvimento e arquiteturas de novos serviços, garantindo a instrumentação e capacidade de observação;
    • Gerenciar custos e estrutura em ambientes GCP e AWS, utilizando dados de observabilidade para otimização;
    • Utilizar Engenharia do Caos para testar a resiliência das soluções, validando os resultados através da observabilidade;
    • Definir e arquitetar a estratégia de SRE para sistemas de alta criticidade, garantindo a aderência aos SLOs, com a observabilidade como pilar fundamental;
    • Liderar a implementação de práticas de engenharia de confiabilidade, incluindo automação de toil, gestão de capacidade e resposta a incidentes, com forte dependência de dados de observabilidade;
    • Desenvolver e promover padrões de resiliência, recuperação de desastres e chaos engineering, integrando a observabilidade para validação e monitoramento;
    • Mentorar engenheiros SRE juniores e plenos, compartilhando conhecimento e promovendo o desenvolvimento técnico, com foco na observabilidade;
    • Atuar como especialista em análise de causa raiz de incidentes complexos, coordenando a resolução e a implementação de ações preventivas em nível sistêmico, utilizando insights de observabilidade;
    • Colaborar com os times de arquitetura, desenvolvimento e DevOps na definição de requisitos de confiabilidade e na revisão de designs, garantindo a instrumentação e capacidade de observação;
    • Pesquisar e avaliar novas tecnologias e abordagens em SRE, propondo sua adoção e liderando a implementação, com foco em ferramentas e práticas de observabilidade;
    • Gerenciar o Error Budget e impulsionar a melhoria contínua da confiabilidade dos sistemas, baseando.se em dados de observabilidade;
    • Contribuir ativamente para a cultura de SRE, atuando como evangelista e disseminando as melhores práticas, com forte ênfase na observabilidade;
    • Elaborar e apresentar relatórios de confiabilidade e desempenho para a alta gestão, utilizando dados e insights de observabilidade.

Formação mínima desejável

    • Curso superior em Ciência da Computação, Engenharia de Software, Tecnologia da Informação ou áreas correlatas;
    • Pós-graduação completa em áreas correlatas à Tecnologia da Informação.

Conhecimento técnico desejável

    • Conhecimento em APIs para instrumentação e monitoramento;
    • Conhecimento em automação com scripts para tarefas de observabilidade;
    • Conhecimento em computação em nuvem, com foco em observabilidade de ambientes cloud;
    • Domínio em segurança de infraestruturas de TI, com foco em como a observabilidade pode auxiliar na detecção de ameaças;
    • Conhecimento em DevOps, incluindo containers, ferramentas de APM, integração e entrega contínua, mensageria e sistemas operacionais, com foco na integração da observabilidade no ciclo de vida do desenvolvimento;
    • Conhecimento em engenharia de software e arquiteturas, com foco em design para observabilidade;
    • Conhecimento em infraestrutura de TI, com foco em monitoramento e otimização;
    • Conhecimento em metodologias ágeis;
    • Domínio em arquitetura de sistemas distribuídos, com foco em design e implementação de arquiteturas de microsserviços, confiabilidade e escalabilidade, com ênfase na observabilidade;
    • Domínio em engenharia de confiabilidade (SRE), incluindo SLOs, SLIs, error budgets, post-mortem, toil automation e chaos engineering, com a observabilidade como pilar central;
    • Domínio em cloud computing, com expertise em ambientes multi-cloud e híbridos, com foco em resiliência, recuperação de desastres e otimização de custos, usando a observabilidade como ferramenta de validação e monitoramento;
    • Domínio em contêineres e orquestração, com foco avançado em Kubernetes (operadores, service mesh, políticas de rede) e outras tecnologias, com ênfase na instrumentação e observabilidade de contêineres;
    • Proficiência em automação com linguagens de programação (Python, Go, Java) para desenvolvimento de ferramentas e automações complexas, focadas em soluções de observabilidade;
    • Domínio em monitoramento e observabilidade, com expertise na implementação e gestão de soluções completas (tracking, logging, métricas) em larga escala, incluindo design e otimização de plataformas;
    • Domínio em segurança de sistemas e infraestrutura, com foco em resiliência, conformidade e contribuição da observa ilidade para a segurança;
    • Conhecimento em bancos de dados relacionais e não relacionais, com foco em gerenciamento, otimização de desempenho e monitoramento via observabilidade;
    • Domínio em redes complexas, balanceamento de carga avançado e segurança de rede, com ênfase em observabilidade de rede;
    • Conhecimento em gestão de incidentes, com foco na melhoria contínua via post-mortem e uso da observabilidade como fonte principal de informação.
Carreiras Carreiras

Conheça outros cargos

01 / 04