Inteligência Artificial

Google libera OpenRL: nova API open-source para fine-tuning de LLMs no Kubernetes

Google GKE Labs lança OpenRL, projeto que promete simplificar o treinamento de modelos de linguagem ao separar infraestrutura de pesquisa de IA.

R

· 3 min

Ilustração técnica representando a arquitetura do OpenRL integrando Kubernetes com modelos de linguagem.

Ilustração técnica representando a arquitetura do OpenRL integrando Kubernetes com modelos de linguagem.

O Google, por meio da divisão GKE Labs, acaba de anunciar o OpenRL, uma API experimental e open-source projetada para facilitar o pós-treinamento e o fine-tuning de Large Language Models (LLMs) em clusters Kubernetes.

A iniciativa ataca um dos maiores desafios das equipes de machine learning: a complexidade excessiva da infraestrutura necessária para rodar loops de aprendizado por reforço (RL).

Em cenários de IA agentica, o ciclo de RL envolve uma série de tarefas interdependentes, como preparação de dados, design de recompensas e gerenciamento de hardware.

Tradicionalmente, essas camadas estão tão entrelaçadas que qualquer falha na infraestrutura trava o avanço da pesquisa.

O OpenRL propõe uma mudança de paradigma ao separar as preocupações: pesquisadores de IA podem focar no desenvolvimento dos loops de treinamento, enquanto engenheiros de sistemas cuidam da execução e escalabilidade.

Eficiência de GPU e escalabilidade em clusters

Um dos pontos mais críticos que o OpenRL endereça é a subutilização de recursos. Em processos convencionais, loops de RL costumam ser sequenciais, o que deixa GPUs ociosas enquanto o sistema processa tarefas ligadas a CPU ou rede, como o cálculo de recompensas.

O novo framework permite rodar múltiplos jobs de RL simultaneamente no seu cluster, otimizando o uso do hardware.

O framework é agnóstico em relação à localização do pesquisador, e pode ser acessado no repositório github https://github.com/gke-labs/open-rl

É possível, por exemplo, rodar o loop de treinamento diretamente de um MacBook, apontando as chamadas para a API de treinamento hospedada em clusters Kubernetes ou VMs remotas.

Além da eficiência, o projeto inclui uma receita de autoresearch que demonstra como executar experimentos paralelos para varredura de parâmetros e ajuste de sinais de recompensa em fluxos de text-to-sql utilizando modelos Gemma, da própria Google.

A compatibilidade estende-se a GPUs Nvidia e integração com o Tinker-Cookbook.

Por que isso importa para times de dados no Brasil?

Para empresas brasileiras que buscam autonomia na criação de modelos especializados sem depender inteiramente de serviços gerenciados em nuvem pública, o OpenRL surge como uma ferramenta estratégica.

Ao possibilitar o self-hosting dessas APIs de treinamento dentro de clusters Kubernetes, o projeto reduz custos de infraestrutura e oferece mais controle sobre os dados de treino.

A separação entre "receita de fine-tuning" e "lógica de sistema" aproxima o trabalho de machine learning de práticas consagradas de engenharia de software e DevOps, algo que facilita a manutenção de modelos de IA em escala.

O projeto é um exemplo claro de como a automação pode reduzir o gargalo de infraestrutura que, hoje, impede que muitas startups alcancem a maturidade necessária para treinar seus próprios modelos customizados.

Fonte: Infoq — https://www.infoq.com/news/2026/06/google-open-rl-fine-tuning/

R

Sobre o autor

Editor-chefe

Usuário técnico criado para escrever conteúdos da redação.

Mais publicações em Inteligência Artificial