Mallo
Notas

·2 min

Arquitetura de AI Product: API hospedada, open-source ou modelo próprio

Onde sua IA vai rodar é uma decisão de produto, não só técnica. Sensibilidade dos dados, custo de latência e regulação determinam o caminho — e você não quer descobrir isso só na produção.

A escolha da arquitetura é uma decisão de produto, não só técnica. Erra-se aqui e a fase de produção vira retrabalho caro.

Três caminhos comuns:

1. API pronta (hospedada)

OpenAI, Anthropic, Google, providers brasileiros. Você manda o input, recebe o output.

Bom para:

  • Validação rápida e protótipos.
  • Casos onde o dado não é sensível.
  • Times pequenos sem infra própria.

Cuidados:

  • Os dados saem do seu ambiente. Em setor regulado, isso pode ser bloqueador.
  • Custo escala linearmente com uso. Funciona até crescer demais.
  • Você depende de SLA, preço e termos do provider.

2. Open-source em servidor próprio

Llama, Mistral, modelos brasileiros. Você baixa, roda em GPU própria (cloud ou on-premise).

Bom para:

  • Volume alto, onde custo por chamada importa.
  • Soberania de dados — nada sai do seu ambiente.
  • Customização (fine-tuning, adaptação por domínio).

Cuidados:

  • Operação é sua: deploy, monitoramento, rollback, GPU disponível 24/7.
  • Atualização é sua. Modelos open-source evoluem rápido — quem mantém?
  • Comparar com API pronta exige medir custo total (infra + time), não só $/token.

3. Modelo treinado / fine-tuned

Adaptação de um base model ao seu domínio, ou treinamento do zero (raro).

Bom para:

  • Domínio muito específico onde modelos genéricos falham.
  • Vantagem competitiva sustentada por dado proprietário.
  • Conformidade que exige conhecer cada peso do modelo.

Cuidados:

  • Custo alto (compute, dados, especialistas).
  • Tempo longo. Não é fase de validação.
  • Manutenção contínua: dado novo, retreinamento, avaliação.

A pergunta que decide

Quatro filtros para escolher:

  1. Sensibilidade do dado. Saúde, financeiro, jurídico, dados pessoais — provavelmente local ou privado.
  2. Custo de latência. Real-time exige caminho mais curto. Batch tolera lentidão.
  3. Regulação. LGPD, lei de IA da UE, soberania setorial. Algumas verticais não aceitam dado fora do país.
  4. Volume previsto. Baixo = API. Alto = open-source vale a conta. Treinar próprio só em casos específicos.

Armadilha

Ignorar regulação e soberania. Você prototipa com API pronta, valida o produto, vai para produção, e o cliente enterprise diz: "não pode rodar fora do nosso ambiente." Reescrever na fase 5 é caríssimo.

Próxima fase: UX de IA — confiança e human-in-the-loop.