Why should everyone know the principles of SRE? 🔧📈

Learning SRE principles was an important step in maturing my view of resilient systems — especially when it comes to keeping what we build running well in the day to day and over time. No, I’m not just talking about monitoring, automated deploys, or alerts. I’m talking about the philosophy behind all of it. SRE […]
Como ser um SRE mais produtivo ?

Hoje me perguntaram algo simples — mas que me fez refletir bastante. “Por que você realmente precisa de uma licença de Claude Code para fazer seu trabalho?” Ao invés de responder de forma subjetiva, eu fiz algo bem direto: criei uma pequena tabela comparando tempo tradicional de execução vs tempo usando IA. Nada super científico. […]
IA não resolve incidentes sozinha (e isso é uma boa notícia)!

Há muitos anos, quando eu falava sobre coreografia vs orquestração em arquitetura, uma coisa já era muito clara pra mim: orquestrar sempre foi mais poderoso do que apenas reagir a eventos. E eu acho que essa mesma analogia se aplica perfeitamente a utilização de IA para resolver problemas. Quando falamos de incidentes, não pedir pra […]
Error Budget… funciona mesmo ou só no papel?

Quando a gente começa a estudar SRE, Error Budget aparece como um dos conceitos mais importantes. Ele é apresentado como o mecanismo que equilibra inovação e confiabilidade. Mas, sendo bem honesto, mesmo depois de passar por empresas grandes, multinacionais, com produtos extremamente críticos, eu sempre tive dificuldade de ver o Error Budget sendo aplicado de […]
SRE com IA: Automatizar Tudo ou Decidir Melhor?

Quando falamos de SRE utilizando Inteligência Artificial, a primeira pergunta que eu sempre faço é: qual é, de fato, o papel do SRE? E a resposta que eu trago há anos nos meus treinamentos continua a mesma: o SRE é, antes de tudo, um profissional generalista. Um verdadeiro coringa dentro da engenharia. Claro, o SRE […]
AWS Lambda – 10 Cuidados que você precisa ter!

AWS Lambda: o sonho de consumo de muitas pessoas. Claro que, geralmente, é como uma paixão. Parece ser perfeito no primeiro momento. Porém, com o tempo, você vai descobrindo que existem desafios. E desafios que, muitas vezes, você nem conhecia, porque até então estava acostumado com uma arquitetura mais tradicional, com servidores ou containers. Apesar […]
Criando APIs Públicas com Qualidade e Resiliência

Se tem uma pergunta que aparece direto em entrevistas de arquitetura (e também nas trilhas de de devs e engenheiros) é: “Como você criaria uma API pública?” Quem já ouviu essa sabe: a pergunta parece simples, mas é uma armadilha clássica. Porque a resposta não tá no framework que você escolhe, nem no “eu faria […]
Testes legíveis, eficazes e automatizados? Já considerou Robot Framework ?

Se você já é meu aluno na CAD, sabe bem o quanto bato na tecla da importância dos testes. Não importa se são unitários, de integração ou end-to-end: sem testes, não existe confiança em deploy. Claro, opinião pessoal aqui: teste unitário é o que menos agrega valor dentro da pirâmide de testes do Martin Fowler […]
Qual a importância de definir bons SLIs, SLOs e SLAs?

“Dá uma checada no serviço aí pra mim?” Se você já ouviu isso no meio de uma sprint, incidente ou code review… sabe o quanto essa frase pode ser frustrante. Checar o quê? Baseado em quê? Só porque a API respondeu com 200 e os botões do front renderizaram, quer dizer que está tudo saudável? […]
Docker Compose: Seu melhor amigo no ambiente local

Fala Galera, beleza ? Você já tentou levantar 5 microsserviços na unha? Se você já passou pela experiência de testar um sistema distribuído no seu laptop, sabe bem o que é sofrimento. Um docker run aqui, outro ali, configura porta, define rede, set environment, e de repente… você está com quatro terminais abertos, esquecendo qual […]