Inteligência Artificial

Kepler: Como o agente de IA da OpenAI decifra 600 PB de dados sem alucinar

Conheça os bastidores do Kepler, o agente de IA da OpenAI que utiliza o Model Context Protocol (MCP) e validações estruturais via AST para dominar 600 petabytes de dados.

R

· 11 min

Esquema conceitual do agente de IA Kepler conectando fontes de dados complexas usando MCP em escala corporativa.

Esquema conceitual do agente de IA Kepler conectando fontes de dados complexas usando MCP em escala corporativa.

Imagine o seguinte cenário em uma segunda-feira pela manhã: um líder de negócios ou gerente de produto de uma grande tech brasileira pergunta quantos usuários premium ativos existem em uma determinada região geográfica.

No fluxo de engenharia tradicional, essa pergunta simples desencadeia uma reação em cadeia interminável. São dezenas de e-mails, threads caóticas no Slack, reuniões de alinhamento e buscas exaustivas em documentações de dados há muito desatualizadas.

Na OpenAI, empresa que dita o ritmo da revolução generativa global, esse problema ganha proporções gigantescas: obter essa resposta exige navegar por mais de 600 petabytes (PB) de dados distribuídos em aproximadamente 70 mil conjuntos de dados.

O que é o Kepler? O Kepler é um agente de IA interno de engenharia de dados construído pela OpenAI. Ele utiliza o revolucionário Model Context Protocol (MCP) e arquitetura RAG para automatizar a descoberta de tabelas, o entendimento de regras de negócios e a escrita de consultas SQL de alta performance em escala multi-petabyte.

O Gargalo dos 600 Petabytes: A Dor do Data Discovery na OpenAI

O crescimento exponencial que a OpenAI registrou nos últimos anos trouxe à tona um desafio de infraestrutura bastante conhecido por CTOs, engenheiros de dados e arquitetos brasileiros: a complexidade extrema da descoberta de dados (data discovery). Com cerca de 80% do corpo técnico da OpenAI utilizando diretamente a plataforma de dados corporativa, encontrar a tabela exata e a coluna correta entre milhares de opções de data lakes tornou-se o maior gargalo operacional do dia a dia.

Bonnie Xu, Tech Lead de produtividade de dados na OpenAI, destaca que pequenas nuances do ecossistema de dados podem alterar os resultados de uma consulta em ordens de magnitude. Por exemplo, um analista precisa saber se uma coluna de faturamento já filtra as transações fraudulentas de forma nativa ou se os IDs de transação estão criptografados na origem.

Detalhes minuciosos, como o fato de que em engines como o Trino SQL os arrays são indexados em 1 (one-indexed) — ao contrário da convenção da maioria das linguagens de programação que começa em 0 — provocam erros sistemáticos em consultas manuais feitas sob pressa.

Arquitetura do Kepler: A Força do Model Context Protocol (MCP) e RAG

A arquitetura do Kepler não se limita a um modelo de linguagem (LLM) genérico que simplesmente escreve código a partir de uma API. Trata-se de um ecossistema integrado que adota o Model Context Protocol (MCP). Esse protocolo emergente funciona como uma interface padronizada de comunicação, permitindo que o agente de IA se conecte de forma fluida a diferentes ambientes de trabalho, incluindo canais de Slack, repositórios de código no GitHub, ambientes de desenvolvimento integrados (IDEs) como o Cursor e painéis internos na web.

Para solucionar o problema físico do limite de janela de contexto que assombra sistemas de RAG tradicionais, a engenharia de produtividade da OpenAI implementou uma abordagem híbrida de automated code crawling associada a técnicas avançadas de geração enriquecida por recuperação.

Em vez de despejar todo o esquema físico do banco de dados na janela de contexto da IA, o Kepler monitora, indexa e busca apenas os metadados contextualmente relevantes no instante da requisição do desenvolvedor.

1. Memória Semântica Escopada

Um dos maiores diferenciais do Kepler reside na capacidade de aprendizado incremental baseado em memória semântica escopada. Quando o Kepler depara-se com uma lógica de negócios de alta complexidade ou quando um engenheiro sênior revisa e corrige uma consulta gerada pela IA, esse feedback loop é armazenado em um banco vetorial proprietário. Em consultas futuras do mesmo domínio, o agente varre essa memória histórica para evitar a reincidência de falhas lógicas, atuando exatamente como um par programador sênior humano que conhece de cabeça as armadilhas ocultas de cada dataset.

2. Integração Nativa ao Workflow do Dev via IDEs

O Kepler não opera isoladamente de forma passiva. Como o agente é exposto por meio de um servidor MCP nativo, os desenvolvedores da OpenAI podem interagir diretamente com ele a partir de suas IDEs de escolha, como o VS Code ou Cursor. Se um desenvolvedor de backend necessita consumir um fluxo de eventos de telemetria de um modelo para aplicar em uma nova funcionalidade de microsserviço, ele sequer precisa alternar de tela para ler a documentação de dados.

O Kepler faz a varredura da infraestrutura de dados em tempo real, monta a estrutura SQL correta e exibe os resultados organizados direto no terminal do editor.

Como Evitar Alucinações em SQL: Validação Baseada em AST

Na engenharia de dados de missão crítica, a alucinação de modelos generativos não é apenas um incômodo, ela representa um risco financeiro e regulatório inadmissível. Uma query SQL estruturalmente válida, mas com junções incorretas de tabelas, pode resultar em relatórios financeiros distorcidos. Para anular esse perigo, o Kepler adota um pipeline rigoroso de avaliação baseado em AST (Abstract Syntax Tree / Árvore de Sintaxe Abstrata).

Dessa forma, o sistema de validação não se restringe a avaliar textualmente se a consulta do Kepler se parece com um código SQL correto. O pipeline analisa estruturalmente a lógica relacional e valida se as tabelas de fato existem no catálogo ativo, se os tipos primitivos de dados correspondem e se a complexidade computacional estimada da consulta não irá derrubar a performance operacional do cluster de produção.

"A confiabilidade absoluta nos dados gerados é consideravelmente mais crítica do que o tempo de resposta do sistema. É por isso que utilizamos sistemas de LLMs para avaliar outros LLMs sob métricas objetivas ancoradas no estado estrutural real do nosso data lake."
Bonnie Xu, Tech Lead de produtividade de dados na OpenAI

O que o Desenvolvedor e o Engenheiro de Dados Brasileiro Podem Aprender?

O caso prático do Kepler apresenta insights e lições de extrema relevância para profissionais e organizações brasileiras que estão lidando com volumes crescentes de dados em arquiteturas modernas em nuvem. No ecossistema tecnológico do Brasil — especialmente em grandes bancos digitais, fintechs e plataformas de e-commerce em hipercrescimento —, o tempo gasto em engenharia reversa para decifrar legados de dados pode paralisar as entregas de valor.

A lição primária é que o valor de um agente corporativo de IA está diretamente associado à arquitetura de curadoria de contexto, e não unicamente ao tamanho bruto do modelo fundacional de linguagem utilizado.

O mercado corporativo brasileiro deve caminhar a passos largos na adoção do padrão Model Context Protocol para construir barramentos internos de agentes inteligentes que se integrem aos seus repositórios no GitLab, bancos de dados legados no PostgreSQL, Snowflake e ferramentas analíticas locais.

Característica

Abordagem Tradicional de Dados

Abordagem Kepler (Agente com MCP)

Descoberta de Dados

Buscas manuais e consulta a documentações estáticas no Confluence/Notion

Busca semântica em tempo real em metadados reais, logs de query e AST

Workflow de Trabalho

Context switching massivo entre IDE, Slack, DBeaver e navegadores web

Interação focada e em linha com o código de forma nativa na IDE via MCP

Mitigação de Erros

Processo lento de tentativa e erro, acarretando custos altos de processamento

Validação prévia da estrutura gramatical baseada em Árvore de Sintaxe Abstrata

Arraste para o lado para ver toda a tabela.

O Futuro dos Profissionais de Dados na Era dos Agentes Autônomos

À medida que ferramentas como o Kepler ganham escala e maturidade, o papel do analista e engenheiro de dados passa por uma transição profunda. A tarefa repetitiva de construir consultas sob demanda para responder a dúvidas operacionais de áreas de negócios tende a ser amplamente absorvida por agentes integrados. O profissional humano atua agora na linha de frente como um verdadeiro curador de contexto semântico.

A excelência técnica exigida para os novos tempos consistirá em orquestrar catálogos de metadados robustos, criar contratos de dados (data contracts) claros e dominar a infraestrutura necessária para alimentar a memória de longo prazo de ecossistemas corporativos inteligentes. Aprender os fundamentos de Model Context Protocol (MCP), indexação de código e avaliação sistemática de modelos passa a ser, portanto, um diferencial competitivo urgente para se manter no topo da carreira de tecnologia no Brasil.

Perguntas Frequentes sobre o Kepler e Agentes de Dados da OpenAI

O que é exatamente o Model Context Protocol (MCP) que o Kepler usa?

O MCP é um protocolo aberto que simplifica a forma como modelos de IA se comunicam de maneira segura e uniforme com ferramentas externas, catálogos de dados e editores de código. No Kepler, ele age eliminando as pontes manuais de integração, conectando o agente diretamente às IDEs de desenvolvimento e aos barramentos de metadados da empresa.

Como o Kepler combate e impede as alucinações na formulação de consultas SQL?

A OpenAI aplica uma validação em camadas baseada em Árvores de Sintaxe Abstrata (AST) para assegurar a consistência estrutural das queries. O Kepler analisa o código gerado em relação ao catálogo de dados ativo para certificar-se de que todas as junções de tabelas, tipos de dados e nomes de colunas existem formalmente, abortando qualquer query que apresente incoerências.

O Kepler está disponível comercialmente no mercado para download ou uso?

Atualmente, o Kepler é um agente de software proprietário desenvolvido para uso interno pela engenharia e equipes de produto da OpenAI. Contudo, os mesmos princípios estruturais de design — como RAG dinâmico e suporte a servidores MCP — servem de base teórica para o aprimoramento de produtos corporativos mais amplos do ecossistema, como o ChatGPT Enterprise.

Qual a diferença do Kepler para um simples chatbot como o ChatGPT escrevendo SQL?

Modelos de chat tradicionais não possuem acesso em tempo real ao histórico operacional de grandes repositórios corporativos nem compreendem as regras de negócios implícitas de uma empresa. O Kepler é especializado: ele armazena em sua memória de longo prazo as lições aprendidas de engenheiros da OpenAI, mapeando a fundo a linhagem das tabelas em um gigantesco cluster Trino.

Esse tipo de tecnologia vai substituir o trabalho de engenheiros de dados no mercado?

Não. Em vez de substituição, o Kepler representa um vetor de produtividade. Ele automatiza as tarefas mecânicas de busca de esquemas e sintaxe repetitiva de banco de dados, liberando engenheiros para focar em inteligência de arquitetura, governança corporativa de dados, escalabilidade de pipelines e modelagem de novos datasets de alto impacto.

Fonte: Casa do Dev — https://casado.dev/tecnologia/openai-kepler-agente-ia-analise-dados

R

Sobre o autor

Editor-chefe

Usuário técnico criado para escrever conteúdos da redação.

Mais publicações em Inteligência Artificial