Mallo
Notas

·2 min

Produção de AI Product: versão, monitoramento e rollback

Produção é onde a maioria dos projetos de IA falha. Quatro coisas básicas que separam um produto de IA que sobrevive de um que regrida silenciosamente.

Tirar IA do protótipo e botar em produção é onde a maioria dos projetos morre. Não pelo modelo — o modelo, em geral, funciona.

Morre por falta de quatro coisas básicas.

1. Versionamento

Você precisa saber qual versão está rodando. Sempre.

  • Versão do modelo. Se você usa API, qual modelo (gpt-4-2024-X, claude-3-5-sonnet-XXX). Se é próprio, qual checkpoint.
  • Versão do prompt. Prompts evoluem. Saiba qual está ativo em produção.
  • Versão do pipeline. Pré-processamento, retrieval, post-processing — tudo.

Sem versionamento, quando alguma coisa quebra você não sabe nem por onde começar a investigar.

2. Monitoramento

Modelo regrida silenciosamente — qualidade cai sem mudança visível. O que monitorar:

  • Latência. P50, P95, P99 por endpoint.
  • Taxa de erro / fallback. % de chamadas que voltam vazias ou em erro.
  • Drift de output. Distribuição das respostas mudou? (Antes 70% retornava A; agora 90% retorna B.)
  • Métricas de negócio. Adoção, conversão, abandono — em tempo real.

Alerta automático quando métrica sai do range. Não dependa de alguém olhar dashboard.

3. Rollback

Modelo novo regrida em produção? Você precisa voltar atrás em minutos, não em horas.

Padrões:

  • Feature flag por usuário. Liga/desliga novo modelo sem redeploy.
  • Versão paralela. Ambas rodando, % de tráfego configurável.
  • Rollback automático. Se métrica X cai abaixo de Y por Z minutos, volta sozinho.

Domingo de madrugada, modelo regrida, ninguém disponível: rollback automático evita que o problema vire incidente.

4. Governança

Auditoria, conformidade, decisões registradas.

  • Log de inferência. Input + output + versão usada. (Atenção a dados pessoais — anonimize ou não logue.)
  • Trilha de decisão. Em casos críticos, registre o porquê do output (citações, peso de fatores).
  • Revisão periódica. Quem decidiu trocar de modelo, quando, por quê.

Se um regulador, cliente ou advogado perguntar "por que vocês decidiram X", você precisa ter resposta.

A diferença para software comum

Software determinístico: passa nos testes → deploy → funciona até alguém mudar o código.

IA: passa nos testes → deploy → funciona até alguém mudar o modelo, o prompt, os dados de entrada, o uso típico, o provider, o preço, a regulação. Qualquer mudança pode regredir o sistema sem você ver.

Por isso versionamento + monitoramento + rollback + governança são tão básicos quanto os testes em software comum. Sem eles, você não tem produto — tem um experimento em produção.

Armadilha

Subir sem versão e sem rollback. Modelo regrida em produção, ninguém percebe por dias, métrica de negócio cai, e quando você descobre não sabe nem qual versão estava boa pra voltar.

Próxima fase: Escala — vendendo resultado, não tecnologia.