AMD projeta vantagem do EPYC em infraestrutura para IA

A AMD publicou uma análise sobre o papel das CPUs na infraestrutura usada por sistemas de inteligência artificial agêntica. Em vez de comparar apenas o desempenho isolado de cada processador, a empresa modelou quanto trabalho poderia ser executado dentro de um rack limitado a 100 kW de energia.

Segundo os cálculos apresentados, o AMD EPYC 9965, da geração Turin, entregaria uma média de desempenho por rack aproximadamente 2,37 vezes superior à plataforma NVIDIA Vera. O Intel Xeon 6980P alcançaria 1,46 vez o resultado da mesma referência.

A próxima geração de processadores AMD EPYC, conhecida pelo codinome Venice, poderia ampliar essa vantagem para até 3,30 vezes.

A comparação considera aplicações de propósito geral, servidores Java, serviços web, bancos de dados, caches e sistemas de armazenamento em memória. Essas são justamente algumas das camadas que sustentam agentes de IA em ambientes corporativos.

Os resultados, porém, não representam testes diretos realizados em racks físicos equivalentes. A análise combina resultados publicados, testes internos da AMD, medições de terceiros e projeções aplicadas a produtos que ainda não estão disponíveis.

Por isso, os números devem ser interpretados como uma indicação de tendência dentro das premissas escolhidas pela AMD, e não como um benchmark independente definitivo.

A infraestrutura de IA não vive apenas de GPU

A corrida atual da inteligência artificial costuma ser apresentada como uma disputa por GPUs.

Os aceleradores realmente são fundamentais para treinar modelos e executar cargas de inferência. Porém, uma aplicação de IA agêntica não funciona apenas com o modelo principal.

Por trás de cada agente existe uma grande quantidade de serviços responsáveis por receber solicitações, consultar dados, organizar tarefas e manter o sistema funcionando.

Entre essas camadas estão:

  • Bancos de dados;
  • APIs;
  • Servidores web;
  • Sistemas de autenticação;
  • Ferramentas de orquestração;
  • Mecanismos de busca e recuperação de informações;
  • Filas de processamento;
  • Caches em memória;
  • Middleware;
  • Serviços de controle;
  • Aplicações empresariais.

Esses componentes continuam dependendo fortemente de CPUs.

Conforme o número de agentes simultâneos cresce, também aumenta a demanda sobre os serviços que sustentam cada operação.

Um agente pode consultar um banco de dados, chamar uma API, recuperar documentos, atualizar um estado interno e enviar novas tarefas para outros sistemas. Quando milhares de agentes realizam essas ações ao mesmo tempo, a capacidade dos servidores gerais pode se tornar um dos principais limites da infraestrutura.

É nesse ponto que a AMD posiciona os processadores EPYC.

Por que medir o desempenho por rack?

A AMD argumenta que benchmarks de componentes isolados não mostram tudo o que uma empresa realmente consegue implantar.

Data centers não são construídos em torno de processadores soltos. Eles são organizados em racks limitados por fatores físicos e operacionais.

Cada rack precisa respeitar restrições como:

  • Consumo de energia;
  • Capacidade de refrigeração;
  • Espaço físico;
  • Quantidade de servidores;
  • Densidade computacional;
  • Compatibilidade de software;
  • Estrutura de rede;
  • Custo operacional;
  • Disponibilidade de infraestrutura.

Por isso, a análise parte de uma pergunta diferente.

Em vez de perguntar qual CPU é mais rápida individualmente, o estudo tenta responder:

Quanto trabalho útil pode ser colocado dentro de um rack limitado a 100 kW?

Esse tipo de comparação aproxima o debate das condições encontradas em data centers reais, nos quais o desempenho máximo de um chip pode ser menos importante do que o volume total de serviços executados dentro de um limite energético.

Como a metodologia foi construída

A análise considera quatro plataformas:

  • NVIDIA Vera, com 88 núcleos por processador;
  • Intel Xeon 6980P, com 128 núcleos;
  • AMD EPYC 9965 Turin, com 192 núcleos;
  • AMD EPYC Venice, com 256 núcleos na configuração projetada.

Todas as plataformas foram tratadas como servidores de dois processadores, também chamados de sistemas 2P.

Cada rack foi limitado a um orçamento energético total de 100 kW.

O desempenho por rack foi calculado usando a seguinte lógica:

Desempenho por rack = número de servidores suportados dentro de 100 kW × desempenho estimado de cada servidor.

Isso significa que uma plataforma com desempenho elevado por servidor ainda pode perder eficiência geral se cada nó consumir energia suficiente para reduzir a quantidade de máquinas instaladas no rack.

Por outro lado, um processador com muitos núcleos e boa eficiência pode permitir maior capacidade total, mesmo com menos servidores físicos.

Consumo e quantidade de servidores por rack

Na modelagem, a NVIDIA Vera foi usada como referência normalizada igual a 1.

O consumo estimado dos servidores de dois processadores ficou organizado da seguinte maneira:

PlataformaNúcleos por CPUConsumo normalizado do servidor 2PServidores por rack
NVIDIA Vera881,001,00
Intel Xeon 6980P1281,180,85
AMD EPYC 99651921,180,85
AMD EPYC Venice2561,410,71

A tabela mostra que as configurações Intel Xeon 6980P e AMD EPYC 9965 teriam consumo estimado semelhante no modelo.

Mesmo com aproximadamente 15% menos servidores por rack em relação à referência Vera, o EPYC 9965 compensaria essa redução por meio de maior quantidade de núcleos e desempenho por nó.

Venice teria o maior consumo normalizado por servidor, reduzindo o número de nós suportados. Ainda assim, sua projeção de 256 núcleos por processador elevaria a capacidade total do rack.

Quantidade de núcleos dentro do mesmo limite

Quando a comparação passa para núcleos por rack, a densidade muda significativamente.

Os valores normalizados apresentados pela AMD são:

  • NVIDIA Vera: 1,00;
  • Intel Xeon 6980P: 1,24;
  • AMD EPYC 9965: 1,86;
  • AMD EPYC Venice: 2,08.

Isso significa que, dentro das premissas da análise, o EPYC 9965 permitiria aproximadamente 86% mais núcleos por rack do que Vera.

Venice elevaria essa diferença para aproximadamente 108%.

A AMD afirma que plataformas equipadas com EPYC Turin podem ultrapassar 27 mil núcleos por rack em equipamentos com refrigeração líquida já disponíveis.

A futura geração Venice poderia passar de 36 mil núcleos por rack.

A referência apresentada para NVIDIA Vera é de aproximadamente 22.500 núcleos ou ambientes isolados.

A empresa reconhece que núcleos e sandboxes não são medidas diretamente equivalentes. A comparação é utilizada apenas como indicação geral da densidade computacional disponível em cada arquitetura.

Os seis tipos de carga analisados

A AMD escolheu seis categorias de carga para representar serviços que podem sustentar aplicações de IA agêntica.

Computação de propósito geral

A primeira categoria usa o SPECrate 2017 Integer Base, conjunto de testes voltado para desempenho de processamento inteiro.

Esse tipo de carga serve como referência para aplicações empresariais, processamento geral e tarefas que não dependem exclusivamente de aceleradores.

Aplicações Java em servidores

A segunda categoria utiliza uma carga derivada do SPECjbb2015, voltada para aplicações Java executadas em ambientes empresariais.

Sistemas de negócios, serviços internos e plataformas financeiras ainda utilizam Java em grande escala.

Servidores web

O teste de servidores web usa NGINX combinado com a ferramenta WRK.

A intenção é simular muitas solicitações simultâneas, algo comum em APIs, painéis, serviços online e interfaces utilizadas por agentes.

Armazenamento de chave e valor

O Redis foi utilizado como representação de sistemas rápidos de chave e valor.

Esse tipo de tecnologia pode armazenar sessões, estados temporários, filas e informações consultadas com frequência.

Cache em memória

O Memcached, testado com memtier_benchmark, representa aplicações de cache em memória.

Caches reduzem a necessidade de consultar repetidamente bancos de dados ou serviços mais lentos.

Bancos de dados relacionais

A última categoria utiliza o TPROC-C sobre MySQL como representação de cargas transacionais.

O TPROC-C é derivado do modelo TPC-C, mas não pode ser comparado diretamente com resultados oficiais do padrão TPC-C, pois não segue todas as regras formais de publicação desse benchmark.

Resultados gerais por rack

Após aplicar a metodologia de consumo, quantidade de servidores e desempenho estimado por nó, a AMD chegou aos seguintes valores médios:

PlataformaDesempenho médio normalizado por rack
NVIDIA Vera1,00
Intel Xeon 6980P1,46
AMD EPYC 9965 Turin2,37
AMD EPYC Venice3,30

Na média geométrica das seis cargas, o EPYC 9965 ficaria 137% acima da referência Vera.

O Intel Xeon 6980P apresentaria uma vantagem de aproximadamente 46%.

Já o Venice, ainda em projeção, alcançaria um resultado 230% superior à referência.

Resultado em computação geral

No SPECrate 2017 Integer Base, os resultados estimados por rack foram:

  • NVIDIA Vera: 1,00;
  • Intel Xeon 6980P: 1,47;
  • AMD EPYC 9965: 1,60;
  • AMD EPYC Venice: 2,40.

Essa foi uma das categorias com menor diferença entre EPYC 9965 e Intel Xeon.

Mesmo assim, o processador da AMD aparece à frente dentro do limite energético adotado.

Venice ampliaria a distância com uma projeção de 2,40 vezes o resultado de Vera.

Aplicações Java favorecem maior densidade

Na carga de aplicações Java em servidores, a projeção ficou assim:

  • NVIDIA Vera: 1,00;
  • Intel Xeon 6980P: 2,34;
  • AMD EPYC 9965: 2,93;
  • AMD EPYC Venice: 3,76.

Nesse cenário, tanto Intel quanto AMD apresentam vantagens mais expressivas.

O EPYC 9965 entregaria quase três vezes o desempenho por rack da referência.

Essa categoria pode ser relevante para empresas que utilizam sistemas empresariais baseados em Java ao redor de suas aplicações de IA.

Servidores web com NGINX

Em serviços web, os números apresentados foram:

  • NVIDIA Vera: 1,00;
  • Intel Xeon 6980P: 1,18;
  • AMD EPYC 9965: 2,37;
  • AMD EPYC Venice: 3,30.

O resultado coloca o EPYC 9965 com o dobro da vantagem observada no Xeon 6980P em relação à referência.

Servidores web podem ser responsáveis por receber solicitações, disponibilizar APIs e coordenar a comunicação entre usuários, agentes e serviços internos.

Quanto maior o número de agentes ativos, maior pode ser a quantidade de chamadas simultâneas.

Redis e serviços de chave e valor

No teste de armazenamento com Redis, os resultados ficaram em:

  • NVIDIA Vera: 1,00;
  • Intel Xeon 6980P: 1,31;
  • AMD EPYC 9965: 2,23;
  • AMD EPYC Venice: 3,10.

Esse tipo de carga é importante para sistemas que precisam consultar e atualizar informações de forma rápida.

Agentes podem usar estruturas semelhantes para guardar estados, tarefas pendentes, resultados intermediários e informações de sessão.

Memcached mostra uma das maiores diferenças

Em cache em memória com Memcached, a projeção apontou:

  • NVIDIA Vera: 1,00;
  • Intel Xeon 6980P: 0,93;
  • AMD EPYC 9965: 2,49;
  • AMD EPYC Venice: 3,47.

Foi a única categoria em que o Intel Xeon 6980P ficou abaixo da referência Vera.

O EPYC 9965, por outro lado, alcançou quase duas vezes e meia o desempenho normalizado.

Venice ampliaria o resultado para aproximadamente 3,47 vezes.

Bancos de dados apresentam o maior ganho

A maior diferença da análise apareceu na carga de banco de dados relacional com TPROC-C.

Os resultados foram:

  • NVIDIA Vera: 1,00;
  • Intel Xeon 6980P: 1,99;
  • AMD EPYC 9965: 2,91;
  • AMD EPYC Venice: 4,05.

Segundo a modelagem, o EPYC 9965 entregaria quase três vezes o volume de transações por rack em relação à referência.

Venice ultrapassaria quatro vezes o resultado.

Bancos de dados são uma parte importante da infraestrutura de agentes porque armazenam informações permanentes, históricos, configurações, permissões e estados utilizados durante as tarefas.

Resumo completo dos resultados

Carga de trabalhoNVIDIA VeraIntel Xeon 6980PAMD EPYC 9965AMD EPYC Venice
Computação geral1,001,471,602,40
Java em servidor1,002,342,933,76
Servidor web NGINX1,001,182,373,30
Redis1,001,312,233,10
Memcached1,000,932,493,47
Banco de dados TPROC-C1,001,992,914,05
Média geométrica1,001,462,373,30

Como a NVIDIA Vera foi estimada

A metodologia não utiliza resultados finais publicados diretamente para a plataforma Vera em todas as seis cargas.

Para estimar seu desempenho, a AMD partiu de testes anteriores realizados com a NVIDIA Grace Superchip.

Em seguida, aplicou um fator de aproximadamente 1,63 vez, baseado na média geométrica de uma seleção de resultados publicados pela Phoronix em maio de 2026.

Essa extrapolação é um dos pontos mais importantes da metodologia.

O resultado da Vera não vem de um rack completo testado diretamente no mesmo ambiente. Ele é uma projeção construída a partir da geração Grace e de ganhos estimados para o produto mais novo.

Isso não invalida a análise, mas reforça que os números devem ser tratados como modelagem.

Venice também é uma projeção

O AMD EPYC Venice também não foi testado como uma plataforma comercial completa dentro do cenário apresentado.

Para a configuração de 256 núcleos, a AMD estimou desempenho por nó aproximadamente 1,7 vez superior ao EPYC 9965 em determinadas cargas.

Esse cálculo utiliza dados do SPECrate 2017 Integer Base e testes internos da empresa.

Portanto, tanto Vera quanto Venice envolvem projeções.

A diferença é que o EPYC 9965 e o Intel Xeon 6980P já possuem dados baseados em plataformas existentes, enquanto os produtos futuros dependem mais fortemente de estimativas.

Desempenho por núcleo também entra na disputa

Além da capacidade total do rack, a AMD apresentou projeções de desempenho por núcleo.

Esse indicador continua relevante para aplicações que não conseguem distribuir perfeitamente seu trabalho entre centenas de threads.

Entre elas podem estar:

  • Bancos de dados;
  • Aplicações analíticas;
  • Simulações;
  • Ferramentas científicas;
  • Processamento de controle;
  • Serviços que alimentam servidores com várias GPUs.

Na análise, o EPYC Venice de 64 núcleos é projetado para entregar aproximadamente 27% mais desempenho por núcleo do que o NVIDIA Vera de 88 núcleos.

Já o Venice de 96 núcleos apresentaria vantagem estimada de 11%.

Os valores foram calculados com base no SPECrate 2017 Integer Base em configurações de dois processadores.

Por que mais núcleos podem significar mais agentes?

Em sistemas agênticos, cada fluxo pode envolver diversos serviços simultâneos.

Um agente pode estar executando raciocínio em um modelo, enquanto outro serviço recupera documentos. Ao mesmo tempo, uma API consulta um banco, um cache armazena resultados e uma camada de orquestração decide a próxima ação.

Nenhuma dessas operações acontece isoladamente.

Quanto maior a quantidade de núcleos e a capacidade de processamento geral dentro do rack, maior pode ser o número de tarefas concorrentes sustentadas pela infraestrutura.

Isso não significa que um núcleo corresponda diretamente a um agente.

O consumo de recursos varia de acordo com o modelo, o tipo de serviço e a complexidade do fluxo.

Ainda assim, maior densidade pode ajudar a executar mais serviços de orquestração, recuperação, banco de dados e aplicação dentro do mesmo espaço e orçamento energético.

O papel da compatibilidade x86

Outro elemento central do argumento da AMD é a continuidade do ecossistema x86.

Os processadores EPYC utilizam uma arquitetura já presente em grande parte dos data centers corporativos.

Isso permite aproveitar:

  • Sistemas operacionais existentes;
  • Aplicações empresariais;
  • Ferramentas de monitoramento;
  • Soluções de virtualização;
  • Bancos de dados;
  • Equipes treinadas;
  • Processos operacionais já estabelecidos.

A AMD afirma que plataformas EPYC podem ser instaladas em racks tradicionais com refrigeração líquida, sem exigir uma arquitetura proprietária completamente nova.

Essa continuidade pode reduzir o tempo necessário para migrar aplicações e colocar projetos em produção.

Para empresas, desempenho não é o único critério.

Uma plataforma tecnicamente forte pode levar mais tempo para ser adotada se exigir mudanças profundas de software, infraestrutura ou treinamento.

A análise não mede um pipeline completo de agentes

A AMD também deixa claro que os seis testes não representam uma aplicação agêntica completa de ponta a ponta.

O estudo isola partes da infraestrutura que esses sistemas utilizam.

Ele mede referências para:

  • Processamento geral;
  • Java;
  • Web;
  • Redis;
  • Memcached;
  • Bancos relacionais.

Não existe, nessa análise, um agente completo executando um modelo, consultando ferramentas e realizando tarefas do início ao fim.

A intenção é medir a capacidade das camadas de suporte.

Por isso, os números não devem ser interpretados como “quantas vezes mais agentes” uma plataforma executará automaticamente.

Eles indicam diferenças potenciais na capacidade de serviços gerais que sustentam esses agentes.

O que pode mudar os resultados reais?

O desempenho em um data center real pode variar bastante.

Entre os fatores que podem alterar os resultados estão:

  • Frequência dos processadores;
  • Configuração de memória;
  • Quantidade de canais de memória;
  • Velocidade das memórias;
  • Consumo de discos e rede;
  • Eficiência da refrigeração;
  • Software utilizado;
  • Sistema operacional;
  • Compiladores;
  • Otimização das aplicações;
  • Distribuição das tarefas;
  • Perfil das cargas;
  • Utilização média dos servidores.

O limite de 100 kW também não representa todos os racks disponíveis no mercado.

Alguns data centers trabalham com orçamentos menores. Outros, especialmente os projetados para IA, podem operar acima desse valor.

A comparação é útil porque mantém todas as plataformas dentro da mesma condição, mas não descreve todas as possibilidades de implantação.

Uma análise da AMD sobre seus próprios produtos

Outro ponto importante é a origem do estudo.

A análise foi produzida pela AMD para defender o posicionamento dos processadores EPYC.

Isso significa que as cargas, premissas e métodos foram escolhidos pela própria empresa.

Os resultados podem ser tecnicamente válidos dentro dessas condições, mas ainda representam a perspectiva de um fabricante sobre seus produtos e concorrentes.

Testes independentes com sistemas comerciais completos serão necessários para confirmar as diferenças quando todas as plataformas estiverem disponíveis.

Esse cuidado é especialmente importante ao comparar arquiteturas futuras.

Projeções podem mudar conforme os produtos se aproximam do lançamento e especificações finais são definidas.

Eficiência virou um dos principais limites da IA

A discussão proposta pela AMD vai além da disputa entre EPYC, Vera e Xeon.

Ela mostra como a energia está se tornando um dos maiores limites para a expansão da inteligência artificial.

Data centers precisam lidar com:

  • Maior consumo elétrico;
  • Refrigeração mais complexa;
  • Custos de operação;
  • Limites de fornecimento de energia;
  • Espaço físico;
  • Conexão entre servidores;
  • Crescimento da demanda.

Adicionar mais chips nem sempre é possível.

Por isso, o desempenho por watt e a capacidade por rack estão ganhando importância.

Uma arquitetura que execute mais trabalho dentro do mesmo limite energético pode reduzir a quantidade de racks necessária, liberar espaço e simplificar a operação.

O que a AMD tenta provar

Com essa análise, a AMD busca sustentar três argumentos principais.

O primeiro é que o EPYC 9965 já oferece maior densidade e desempenho por rack em plataformas disponíveis.

O segundo é que Venice pode ampliar essa vantagem na próxima geração.

O terceiro é que empresas podem obter esses ganhos mantendo a continuidade do ecossistema x86.

Na visão da companhia, isso combina:

  • Maior densidade de núcleos;
  • Mais serviços por rack;
  • Menor atrito de migração;
  • Compatibilidade de software;
  • Infraestrutura padronizada;
  • Capacidade para sustentar aplicações de IA.

O verdadeiro campo de batalha da IA empresarial

A corrida da inteligência artificial não será decidida apenas pelo acelerador mais rápido.

Em ambientes corporativos, bancos de dados, APIs, caches, aplicações e sistemas de controle precisam acompanhar o crescimento dos modelos.

Se essas camadas não tiverem capacidade suficiente, a GPU pode ficar esperando por dados, solicitações ou respostas.

É por isso que a AMD tenta mover a discussão para o rack completo.

Dentro de um orçamento fixo de 100 kW, suas projeções indicam médias normalizadas de 1,00 para NVIDIA Vera, 1,46 para Intel Xeon 6980P, 2,37 para EPYC 9965 e 3,30 para EPYC Venice.

Esses números não encerram o debate.

Eles dependem de premissas, estimativas e projeções que ainda precisarão ser verificadas por testes independentes.

Ainda assim, a análise evidencia uma realidade importante: IA agêntica não é apenas um problema de modelos e GPUs.

Ela também é um problema de energia, refrigeração, bancos de dados, serviços web, compatibilidade e capacidade total por rack.

No fim, a melhor infraestrutura pode não ser aquela que apresenta o maior número isolado em um benchmark.

Pode ser aquela que coloca mais trabalho útil em produção sem ultrapassar os limites físicos e operacionais do data center.

Compartilhe esse post

Compartilhe esse post: