Qual a importância de definir bons SLIs, SLOs e SLAs?

“Dá uma checada no serviço aí pra mim?”

Se você já ouviu isso no meio de uma sprint, incidente ou code review… sabe o quanto essa frase pode ser frustrante.

Checar o quê? Baseado em quê? Só porque a API respondeu com 200 e os botões do front renderizaram, quer dizer que está tudo saudável?

A gente precisa parar com o achismo. E começar a definir o que realmente significa um sistema saudável.

É aí que entram os famosos (e muitas vezes ignorados):

SLI, SLO e SLA


O que são SLI, SLO e SLA? (Com exemplos reais)

SLI – Service Level Indicator

É a métrica crua que você está observando. Exemplo:


SLO – Service Level Objective

É o acordo técnico (interno) sobre qual é o valor mínimo aceitável para aquele SLI. Exemplo:


SLA – Service Level Agreement

É o acordo formal com cliente ou time de negócios. Exemplo:

“Se a disponibilidade mensal do /auth/login ficar abaixo de 99.5%, há penalidade contratual de X reais.”

A gente não vai se aprofundar em SLA aqui, porque o foco é você construir visibilidade real e acordos técnicos confiáveis no seu time com SLI + SLO.


Um exemplo prático (com template)

Imagine que você tem uma API de pagamento rodando em container no Kubernetes. Aqui vai uma tabela com exemplos reais de SLIs/SLOs que você pode usar como base para implementar observabilidade + alarmes.


Agora é com você:

Essa tabela acima é só um exemplo. Cada sistema tem suas características, pontos críticos e necessidades específicas.

O que você pode (e deve) fazer agora:

  1. Escolha um microserviço do seu sistema
  2. Liste os endpoints e responsabilidades principais
  3. Defina 5 a 10 SLIs reais que representam o que “saúde” significa ali
  4. Para cada SLI, defina um SLO
  5. Configure monitoramento e alarmes baseados nesses SLOs
  6. Compartilhe com o time (não adianta nada se só você souber)

Pra fechar: e se tudo isso virasse cultura?

Agora imagina só…

Você com todos esses SLIs bem definidos, seus SLOs visíveis num dashboard, alarmes configurados com critérios claros — e o time inteiro sabendo exatamente o que é um sistema saudável.

Ficaria bem mais fácil tomar decisões, certo?

  • Saber quando é hora de agir (e quando não é)
  • Ter clareza sobre saúde do sistema, sem depender de achismos
  • Evitar trabalho repetitivo e sem propósito (o famoso Toil Work, lá nos princípios de SRE)
  • Focar no que realmente importa: entregar valor com estabilidade

SLO não é pra virar planilha de gaveta.

É pra ser usado todos os dias como bússola da confiabilidade.


Quer aprender MAIS ?

Se você curte essa pegada — visibilidade, métricas que importam, decisões técnicas mais maduras — então vem com a gente.

Na Comunidade de Arquitetura Descomplicada (CaD) a gente compartilha conteúdo que de fato vão agregar para sua carreira e aumentar a resiliência dos seus produtos.

Tudo sobre como construir sistemas resilientes, modernos e que não explodem em produção.

👉 Torne-se um membro da CaD

Te espero lá. Abraços e até a próxima! 👋

guest
0 Comentários
Mais Velhos
Mais Novos Mais Votados
Inline Feedbacks
Veja todos comentários
0
Gostaria muito de saber sua opinião!x