A adoção de inteligência artificial em escala exige infraestruturas resilientes, mas manter a performance e o custo sob controle é um desafio crescente. O Slack recentemente detalhou sua jornada de evolução em quatro fases, saindo de uma implementação isolada no Amazon SageMaker para uma arquitetura multi-cloud avançada, integrando o AWS Bedrock e o Google Cloud Vertex AI.
Para engenheiros e arquitetos de software, este movimento exemplifica a transição necessária para evitar o aprisionamento tecnológico (vendor lock-in) e maximizar a disponibilidade de modelos de última geração em ambientes de alta demanda.
Fase 1: O desafio do gerenciamento manual (SageMaker)
Inicialmente, o Slack operava suas cargas de IA dentro de um ambiente isolado (VPC de custódia) usando o Amazon SageMaker. Embora o modelo garantisse segurança e isolamento, o custo operacional era elevado.
As equipes precisavam lidar com o planejamento antecipado de recursos de GPU (como A100 e H100), projeções manuais de capacidade e expansão de clusters, o que criava gargalos severos diante da variabilidade de uso dos milhões de usuários da plataforma.
Fase 2: A migração para o serverless com Bedrock
Para eliminar o overhead de infraestrutura, o Slack migrou para o Amazon Bedrock. O movimento permitiu que os engenheiros deixassem de gerenciar reservas de hardware para focar puramente na qualidade do modelo e performance do produto.
Com um sistema baseado em feature flags, a transição ocorreu sem incidentes para o usuário final, resultando em acesso imediato a novos modelos da Anthropic.
Otimização de Custos e Performance: Para mitigar a variação de tráfego que chega a oscilar 10 vezes entre picos e vales, o time implementou um modelo híbrido: tráfego interativo é direcionado para endpoints de Provisioned Throughput (menor latência), enquanto tarefas em segundo plano utilizam a capacidade On-Demand.
Fase 3 e 4: Rumo ao Multi-Cloud e Abstração
O estágio final da estratégia foi a inclusão do Google Cloud Vertex AI. O desafio técnico aqui foi construir uma camada de abstração capaz de normalizar APIs e unificar a observabilidade entre diferentes provedores. Esta camada permite hoje:
Autenticação sem segredos: Maior segurança na comunicação inter-nuvem.
Roteamento Inteligente: O tráfego é desviado automaticamente de serviços degradados com base em métricas de latência (p90) e taxas de erro (5xx).
Flexibilidade de Modelos: Acesso a um ecossistema mais amplo sem depender de um único player.
O resultado quantitativo desta estratégia foi impressionante: melhoria de 10% na qualidade de raciocínio em tarefas complexas e uma redução de 67% na latência para prompts curtos.
Lições para Arquitetos de IA no Brasil
A experiência do Slack reforça uma tendência global: a necessidade de criar camadas de mediação que separem a lógica da aplicação dos provedores de modelo. Empresas brasileiras que estão estruturando suas plataformas de IA devem considerar que a resiliência não vem apenas de uma nuvem, mas da capacidade de migrar cargas de trabalho de forma ágil e transparente.
Perguntas Frequentes
Por que o Slack decidiu adotar uma estratégia multi-cloud?
O objetivo principal foi aumentar a resiliência operacional, evitar a dependência exclusiva de um fornecedor e garantir acesso a uma gama maior de modelos de linguagem disponíveis no mercado.
Como o Slack lida com a latência entre diferentes nuvens?
Através de uma camada de abstração que realiza o roteamento inteligente, priorizando endpoints de menor latência (como Provisioned Throughput) e monitorando indicadores em tempo real para redirecionar tráfego em caso de falhas.
Qual foi o ganho prático na experiência do usuário?
O Slack reportou uma redução de 67% na latência para prompts curtos e um aumento de 10% na qualidade de respostas em workloads de raciocínio complexo.
É necessário manter uma equipe de infraestrutura grande para gerenciar IA multi-cloud?
A tendência é o oposto. O uso de APIs normalizadas e serviços gerenciados como Bedrock e Vertex AI permite que o time de engenharia foque menos na configuração de hardware e mais na performance e comportamento dos modelos.
Quais os principais riscos de não ter uma estratégia de portabilidade em IA?
Os riscos incluem o vendor lock-in, dificuldades para escalar durante picos repentinos de demanda, falta de acesso a novos modelos lançados por outros provedores e vulnerabilidade a interrupções de serviço de um único fornecedor.