Tecnologia

Do SageMaker ao Multi-Cloud: A Evolução da Infraestrutura de IA do Slack

Entenda como o Slack redesenhou sua arquitetura para escalar IA, migrando do gerenciamento manual para um modelo multi-cloud robusto via AWS e Google Cloud.

R

· 5 min

Diagrama conceitual de arquitetura multi-cloud para serviços de IA

Diagrama conceitual de arquitetura multi-cloud para serviços de IA

A adoção de inteligência artificial em escala exige infraestruturas resilientes, mas manter a performance e o custo sob controle é um desafio crescente. O Slack recentemente detalhou sua jornada de evolução em quatro fases, saindo de uma implementação isolada no Amazon SageMaker para uma arquitetura multi-cloud avançada, integrando o AWS Bedrock e o Google Cloud Vertex AI.

Para engenheiros e arquitetos de software, este movimento exemplifica a transição necessária para evitar o aprisionamento tecnológico (vendor lock-in) e maximizar a disponibilidade de modelos de última geração em ambientes de alta demanda.

Fase 1: O desafio do gerenciamento manual (SageMaker)

Inicialmente, o Slack operava suas cargas de IA dentro de um ambiente isolado (VPC de custódia) usando o Amazon SageMaker. Embora o modelo garantisse segurança e isolamento, o custo operacional era elevado.

As equipes precisavam lidar com o planejamento antecipado de recursos de GPU (como A100 e H100), projeções manuais de capacidade e expansão de clusters, o que criava gargalos severos diante da variabilidade de uso dos milhões de usuários da plataforma.

Fase 2: A migração para o serverless com Bedrock

Para eliminar o overhead de infraestrutura, o Slack migrou para o Amazon Bedrock. O movimento permitiu que os engenheiros deixassem de gerenciar reservas de hardware para focar puramente na qualidade do modelo e performance do produto.

Com um sistema baseado em feature flags, a transição ocorreu sem incidentes para o usuário final, resultando em acesso imediato a novos modelos da Anthropic.

Otimização de Custos e Performance: Para mitigar a variação de tráfego que chega a oscilar 10 vezes entre picos e vales, o time implementou um modelo híbrido: tráfego interativo é direcionado para endpoints de Provisioned Throughput (menor latência), enquanto tarefas em segundo plano utilizam a capacidade On-Demand.

Fase 3 e 4: Rumo ao Multi-Cloud e Abstração

O estágio final da estratégia foi a inclusão do Google Cloud Vertex AI. O desafio técnico aqui foi construir uma camada de abstração capaz de normalizar APIs e unificar a observabilidade entre diferentes provedores. Esta camada permite hoje:

  • Autenticação sem segredos: Maior segurança na comunicação inter-nuvem.

  • Roteamento Inteligente: O tráfego é desviado automaticamente de serviços degradados com base em métricas de latência (p90) e taxas de erro (5xx).

  • Flexibilidade de Modelos: Acesso a um ecossistema mais amplo sem depender de um único player.

O resultado quantitativo desta estratégia foi impressionante: melhoria de 10% na qualidade de raciocínio em tarefas complexas e uma redução de 67% na latência para prompts curtos.

Lições para Arquitetos de IA no Brasil

A experiência do Slack reforça uma tendência global: a necessidade de criar camadas de mediação que separem a lógica da aplicação dos provedores de modelo. Empresas brasileiras que estão estruturando suas plataformas de IA devem considerar que a resiliência não vem apenas de uma nuvem, mas da capacidade de migrar cargas de trabalho de forma ágil e transparente.

Perguntas Frequentes

Por que o Slack decidiu adotar uma estratégia multi-cloud?

O objetivo principal foi aumentar a resiliência operacional, evitar a dependência exclusiva de um fornecedor e garantir acesso a uma gama maior de modelos de linguagem disponíveis no mercado.

Como o Slack lida com a latência entre diferentes nuvens?

Através de uma camada de abstração que realiza o roteamento inteligente, priorizando endpoints de menor latência (como Provisioned Throughput) e monitorando indicadores em tempo real para redirecionar tráfego em caso de falhas.

Qual foi o ganho prático na experiência do usuário?

O Slack reportou uma redução de 67% na latência para prompts curtos e um aumento de 10% na qualidade de respostas em workloads de raciocínio complexo.

É necessário manter uma equipe de infraestrutura grande para gerenciar IA multi-cloud?

A tendência é o oposto. O uso de APIs normalizadas e serviços gerenciados como Bedrock e Vertex AI permite que o time de engenharia foque menos na configuração de hardware e mais na performance e comportamento dos modelos.

Quais os principais riscos de não ter uma estratégia de portabilidade em IA?

Os riscos incluem o vendor lock-in, dificuldades para escalar durante picos repentinos de demanda, falta de acesso a novos modelos lançados por outros provedores e vulnerabilidade a interrupções de serviço de um único fornecedor.

Fonte: Infoq — https://www.infoq.com/news/2026/06/slack-multicloud/

R

Sobre o autor

Editor-chefe

Usuário técnico criado para escrever conteúdos da redação.

Mais publicações em Tecnologia