O avanço do modelo grande é baseado na melhoria do poder de computação do hardware e das capacidades de computação em nuvem. A NVIDIA H100, que é considerada a "bomba nuclear" da GPU, está enfrentando a escassez mais séria da história. Sam Altman afirmou diretamente que a escassez de GPUs limita a velocidade das atualizações de tecnologia da OpenAI em termos de ajuste fino, capacidade dedicada, janelas de contexto de 32K e multimodalidade.
Este artigo foi compilado do GPU Utils. O autor discute principalmente quanto tempo as GPUs (especialmente NVIDIA H100) irão durar do ponto de vista da oferta e demanda.
Do ponto de vista da demanda, a NVIDIA H100 é, sem dúvida, uma demanda rígida para treinamento de grandes modelos. Segundo estimativas, a demanda atual por H100 no mercado é de cerca de 432.000 folhas, o que equivale a um valor total de cerca de 35.000 dólares americanos por folha. Com GPU de US$ 15 bilhões**, o número de 432 mil não inclui empresas como ByteDance (TikTok), Baidu e Tencent, que precisam de muito H800.
Do lado da oferta, a escassez de H100 é diretamente limitada pela capacidade de produção da TSMC e, a curto prazo, a NVIDIA não tem outras fábricas de chips alternativas. Por causa das remessas limitadas, a NVIDIA também tem sua própria estratégia sobre como alocar essas GPUs. Para a NVIDIA, como garantir que essas GPUs limitadas fluam para azarões da IA, em vez de concorrentes em potencial, como Google, Microsoft e AWS, é muito importante.
Quanto tempo durará essa corrida armamentista de IA em torno do H100? A resposta ainda não está clara. Embora a NVIDIA tenha dito que aumentará a oferta na segunda metade do ano, parece que a escassez de GPUs pode continuar até 2024.
Em torno da escassez do H100, o mercado pode entrar em um "círculo vicioso": a escassez faz com que a capacidade da GPU seja considerada um fosso para empresas de IA, o que leva a mais acúmulo de GPU, o que intensifica ainda mais a escassez de GPU.
**A seguir está o índice deste artigo, e recomenda-se a sua leitura em combinação com os pontos principais. **
👇
01 fundo
02 Análise de requisitos para H100
03 H100 Análise do lado da oferta
04 Como obter H100
05 Resumo
01.Fundo
Até agosto de 2023, o desenvolvimento do campo da inteligência artificial foi limitado pelo gargalo do fornecimento de GPU.
"Uma das razões pelas quais o boom da IA é subestimado é a escassez de GPU/TPU. A escassez de GPUs e TPUs limita a velocidade de introdução do produto e o progresso do treinamento do modelo, mas essas restrições estão ocultas. Estamos vendo principalmente o aumento do preço das ações da NVIDIA , não o progresso de P&D é limitado.As coisas vão melhorar quando a oferta e a demanda estiverem equilibradas.
—Adam D'Angelo, CEO da Quora, Poe.com, ex-CTO do Facebook
Estes são os CEOs e empresas que mais importam para a oferta e demanda de GPU e IA
Sam Altman disse que a escassez de GPUs limitou o progresso dos projetos OpenAI, como ajuste fino, capacidade dedicada, janelas de contexto de 32K, multimodalidade, etc.
Clusters H100 de grande escala de provedores de nuvem pequenos e grandes estão ficando sem capacidade.
"Todo mundo quer que a NVIDIA faça mais A/H100s."
Informações de executivos de provedores de nuvem
"Devido à atual escassez de GPU, é melhor para a OpenAI que menos pessoas usem nossos produtos";
"Na verdade, ficaríamos felizes se as pessoas usassem menos os produtos OpenAI porque não temos GPUs suficientes".
—Sam Altman, CEO, OpenAI
Por um lado, as palavras de Sam Altman mostram sutilmente que os produtos da OpenAI são amados por usuários de todo o mundo, mas, ao mesmo tempo, também ilustram o fato de que a OpenAI precisa de mais GPUs para promover e atualizar ainda mais suas funções.
O Azure e a Microsoft também estão enfrentando uma situação semelhante e uma pessoa anônima mencionou:
• A empresa está restringindo o uso de GPUs pelos funcionários, e todos precisam fazer fila para se candidatar a poder de computação como estudantes universitários na década de 1970 para usar computadores. Do meu ponto de vista, o OpenAI está atualmente sugando todos os recursos da GPU;
• Em junho deste ano, a cooperação entre a Microsoft e a CoreWeave é essencialmente para aprimorar a fonte de alimentação de GPU/computação da Microsoft.
CoreWeave :
Provedores de serviços de computação em nuvem, de acordo com o site oficial da CoreWeave, seus serviços são 80% mais baratos do que os fornecedores tradicionais de computação em nuvem. Em abril de 2023, a CoreWeave recebeu o investimento da rodada B da NVIDIA e obteve um grande número de novas placas H100. Em junho, a Microsoft também assinou um acordo com a CoreWeave. A Microsoft investirá bilhões de dólares nos próximos anos para a construção de infraestrutura de computação em nuvem.
Em julho, a CoreWeave lançou o projeto de supercomputador de IA mais rápido do mundo em parceria com a NVIDIA, e a Inflection AI criou um dos modelos de linguagem de grande escala mais complexos do mundo na CoreWeave Cloud usando infraestrutura que oferece suporte a envios de MLPerf. Além disso, a CoreWeave usou a placa aceleradora NVIDIA H100 em suas mãos como garantia e anunciou em agosto que concluiu um financiamento de dívida de US$ 2,3 bilhões.
Resumindo, a oferta de GPUs H100 já é bastante escassa. Existem até rumores de que **Azure e GCP estão praticamente esgotando a capacidade e a AWS está esgotando a capacidade. **
A razão para a escassez é que a NVIDIA fornece apenas algumas GPUs H100 para esses provedores de nuvem. Como a saída da GPU H100 da NVIDIA não pode atender à demanda, o poder de computação que esses provedores de nuvem podem fornecer naturalmente começará a ser escasso.
Se você quiser entender o gargalo do poder de computação, concentre-se nas seguintes questões:
• Quais são as razões específicas para esta situação? :
Qual é o tamanho da demanda? Por exemplo, em quais campos a demanda por inteligência artificial está aumentando com relativa rapidez;
Qual é o tamanho da oferta? Se a capacidade de produção dos fabricantes de GPU, como a NVIDIA, é suficiente para atender à demanda;
• Quanto tempo durará esta escassez? Quando a oferta e a demanda de GPUs atingirão gradualmente um ponto de equilíbrio?
• Quais são as maneiras pelas quais essa escassez pode ser efetivamente aliviada?
02.H100 Análise de Requisitos
Analise os principais problemas de gargalos de poder de computação do lado da demanda:
Especificamente, o que as pessoas querem comprar, mas têm dificuldade em conseguir?
Qual é o tamanho da demanda por GPU no mercado atual?
Por que as empresas preferem NVIDIA H100 em vez de diferentes GPUs?
Que tipos de GPUs existem atualmente no mercado?
Onde as empresas podem comprar GPUs? Quais são os seus preços?
**Quem são os demandantes do H100? **
Empresas com demanda superior a 1.000 H100 ou A100:
Além dos três gigantes do Azure, GCP e AWS, também existem provedores de nuvem Oracle e GPU, como CoreWeave e Lambda;
• Outros gigantes da tecnologia:
Por exemplo, Tesla (**pegando nota: **Meta, Apple e outros gigantes que o autor original não mencionou aqui também têm muita demanda por GPUs, Google usa principalmente TPU para processar cálculos, e a demanda por H100 é principalmente Google Cloud Platform).
Além das empresas acima, se a empresa precisar fazer muitos ajustes finos do LLM, também precisará reservar pelo menos 100 H100 ou A100.
Para empresas que usam nuvens privadas (CoreWeave, Lambda) e empresas com centenas a milhares de ações H100, elas se deparam quase principalmente com o trabalho do LLM e alguns modelos de difusão (Modelo de Difusão). Algumas empresas optam por ajustar os modelos existentes, mas mais startups de IA estão construindo novos modelos grandes do zero. **Essas empresas normalmente assinam contratos com provedores de serviços de nuvem privados na faixa de US$ 10 a 50 milhões por 3 anos e usam algumas centenas a alguns milhares de GPUs. **
Para empresas que usam apenas um pequeno número de GPUs H100 sob demanda, as tarefas relacionadas ao LLM representam uma grande parte do uso da GPU, e o LLM pode usar mais de 50% da GPU.
Atualmente, as nuvens privadas estão sendo favorecidas pelas empresas e, embora essas empresas geralmente escolham os grandes provedores de serviços de nuvem padrão, elas também correm o risco de serem eliminadas.
**• Os grandes laboratórios de IA são mais limitados por tarefas de inferência ou tarefas de treinamento? **
Esta questão depende de quão atraente é o seu produto. Em outras palavras, a atratividade dos produtos da empresa é muito importante na determinação da alocação de recursos.No caso de recursos limitados, as prioridades de raciocínio e treinamento muitas vezes têm ênfase própria. A visão de Sam Altman é que, se uma escolha deve ser feita, OpenAI está mais inclinado a aprimorar as capacidades de raciocínio, mas atualmente OpenAI é limitado em ambos os aspectos.
Por que o H100 é necessário apenas para o treinamento LLM
A maior parte do mercado atual usa GPUs NVIDIA H100. Isso ocorre porque a GPU H100 é a mais rápida em termos de inferência e treinamento LLM, além de ter o melhor desempenho de custo de inferência. Especificamente, a maioria das empresas opta por usar o servidor 8-GPU HGX H100 SXM.
Na minha análise, para o mesmo trabalho, o H100 é mais vantajoso em termos de custo. A GPU V100 é uma boa opção se você encontrar uma unidade usada, mas isso geralmente não é possível.
—— uma pessoa anônima
Em termos de inferência, descobrimos que a GPU A10G é mais do que adequada e muito mais barata.
—— Um executivo de nuvem privada
Percebemos que o Falcon 40b e o llama2 70b também estão sendo muito utilizados, onde esta afirmação não é mais precisa. Portanto, a velocidade de interconexão é muito importante para tarefas de inferência.
— (Outro) Executivo de Nuvem Privada
Falcão 40b:
Falcon é um modelo básico de linguagem grande com 40 bilhões de parâmetros, Falcon 40b visa usar menos poder de computação de treinamento para obter melhores resultados, o modelo representa apenas 75% da computação de treinamento GPT-3, 40% de Chinchilla e PaLM-62B 80% de treinamento. Em 25 de maio de 2023, o Instituto de Inovação Tecnológica dos Emirados Árabes Unidos anunciou que abriria o código do Falcon 9 para pesquisa e uso comercial. Após seu lançamento, ele liderou a lista LLM de código aberto Hugging Face.
**• Quais são as necessidades comuns das equipes empreendedoras LLM? **
**Para startups LLM, eles geralmente escolhem GPU H100 com InfiniBand de 3,2 Tb/s para treinamento LLM. Embora quase todos prefiram o H100 na sessão de treinamento, na sessão de inferência, essas empresas prestam mais atenção ao desempenho de custo, ou seja, o desempenho criado por dólar. **
Ainda existem alguns problemas com o desempenho por dólar das GPUs H100 em comparação com o A100, mas os H100s ainda são preferidos por causa de sua melhor escalabilidade e tempos de treinamento mais rápidos, enquanto a velocidade/compressão inicia, treina ou melhora O tempo do modelo é crítico para iniciantes.
"Para treinamento de vários nós, todos exigem uma GPU A100 ou H100 com rede InfiniBand. O único requisito não A/H100 que observamos foi para inferência, em que a carga de trabalho era de GPU única ou nó único."
—— Um executivo de nuvem privada
Os principais fatores que afetam o treinamento LLM são:
**• Largura de banda da memória: **Diante de uma grande quantidade de dados carregados da memória, uma maior largura de banda da memória pode acelerar o carregamento dos dados;
**• Poder computacional do modelo (FLOPS, operações de ponto flutuante por segundo): ** Tensor kernel ou unidade equivalente de multiplicação de matrizes, que afeta principalmente a velocidade de cálculo;
**• Cache e latência do cache: **O cache pode armazenar dados temporariamente para acesso repetido, o que tem um impacto significativo no desempenho;
**• Recursos adicionais: **Como FP8 (número de ponto flutuante de 8 bits), etc., formatos numéricos de baixa precisão podem acelerar o treinamento e a inferência;
**• Desempenho computacional: ** está relacionado ao número de núcleos GPU CUDA, e afeta principalmente o número de tarefas que podem ser executadas em paralelo;
**• Velocidade de interconexão: **Para largura de banda de interconexão rápida entre nós, como InfiniBand, esse fator afetará a velocidade do treinamento distribuído.
**O H100 é preferível ao A100 devido, em parte, à menor latência do cache do H100 e à capacidade de computação do FP8. **
O H100 é realmente a primeira escolha, pois é até 3x mais eficiente que o A100, mas custa apenas 1,5 - 2x o A100. Como considerar o custo de todo o sistema, o desempenho por dólar do H100 também é muito maior, se você considerar o desempenho do sistema, o desempenho por dólar pode ser de 4 a 5 vezes maior.
—— Um pesquisador de aprendizado profundo
**Por que a precisão numérica é tão importante? **
Números de ponto flutuante de baixa precisão podem melhorar a velocidade de treinamento e inferência. Por exemplo, FP16 ocupa metade da memória de FP32 e é três vezes mais rápido que FP32 em termos de velocidade de cálculo. No processo de treinamento LLM, para garantir o equilíbrio entre velocidade e precisão, métodos como precisão mista e precisão adaptativa são usados para acelerar grandes modelos de linguagem. Portanto, o suporte de precisão múltipla é uma das considerações importantes para o treinamento de modelos de linguagem grandes. O Google propôs o formato numérico BFP16, que expande o alcance numérico enquanto reduz a precisão, e o desempenho é melhor que o FP 32.
**• Além da GPU, quais são os links de custo no treinamento e operação do LLM? **
A GPU é atualmente o componente mais caro de toda a infraestrutura de treinamento do LLM, mas outros aspectos do custo não são baixos, o que também tem impacto nos custos de treinamento e operação do LLM:
A memória do sistema e os SSDs NVMe são caros: modelos grandes exigem muita memória de alta velocidade e SSDs de alta velocidade para armazenar em cache e carregar dados, e ambos os componentes são caros;
Redes de alta velocidade são caras: Redes de alta velocidade como InfiniBand (usadas para comunicação entre nós) são muito caras, especialmente para treinamentos grandes e distribuídos.
Talvez 10% a 15% do custo total de execução de um cluster vá para eletricidade e hospedagem, divididos aproximadamente igualmente entre os dois. Os custos de eletricidade incluem eletricidade, custos de construção do data center, custos de terreno e funcionários, etc., cerca de 5% a 8%; custos de hospedagem incluem terrenos, edifícios, funcionários, etc., cerca de 5% a 10%. **
Nossa principal preocupação é rede e centro de dados confiável. A AWS não era uma boa opção devido a limitações de rede e hardware não confiável.
——Pesquisador de Aprendizagem Profunda
**• Como a tecnologia GPUDirect ajuda no treinamento LLM? **
O GPUDirect da NVIDIA não é necessário para o treinamento LLM, mas também pode ajudar no desempenho:
A tecnologia GPUDirect pode melhorar o desempenho, mas não necessariamente uma diferença supercrítica. Depende principalmente de onde está o gargalo do sistema. Para algumas arquiteturas/implementações de software, o gargalo do sistema não é necessariamente a rede. **Mas, no caso de rede, o GPUDirect pode melhorar o desempenho em 10% a 20%, o que é um número considerável para altos custos de execução de treinamento. **
No entanto, o GPUDirect RDMA agora é tão onipresente que sua popularidade quase fala por si. Acho que o suporte GPUDirect é fraco para redes não Infiniband, mas a maioria dos clusters GPU otimizados para treinamento de rede neural tem redes/placas Infiniband. O maior fator de desempenho é provavelmente o NVLink, já que é mais raro que o Infiniband, mas também é crítico apenas se você empregar uma estratégia de paralelização específica.
Portanto, recursos como rede poderosa e GPUDirect podem fazer com que softwares menos sofisticados funcionem imediatamente. No entanto, o GPUDirect não é estritamente necessário se o custo ou a infraestrutura legada for considerado.
—— Um pesquisador de aprendizado profundo
GPUDirect:
A tecnologia de transmissão de dados chamada GPUDirect Storage (GPUDirect Storage) introduzida pela NVIDIA é usada principalmente para acelerar a transmissão de dados armazenados em vários armazenamentos para a memória da GPU, o que pode aumentar a largura de banda de 2 a 8 vezes e também pode reduzir o custo final. o atraso final é de até 3,8 vezes. Antigamente, a CPU era responsável por carregar os dados da memória para a GPU, o que limitava muito o desempenho do hardware.
O caminho padrão para transferência de dados do disco NVMe para a memória GPU é usar o buffer de rejeição (Bounce Buffer) na memória do sistema, que é uma cópia de dados adicional. O núcleo da tecnologia de armazenamento GPUDirect é evitar o uso de cache de rebote para reduzir cópias de dados adicionais e usar o mecanismo de acesso direto à memória (Direct Memory Access, DMA) para colocar dados diretamente na memória da GPU.
**Por que a empresa LLM não pode usar a GPU da AMD? **
Um executivo de uma empresa de nuvem privada disse que é teoricamente viável comprar GPUs AMD, mas leva um certo tempo desde a compra até a operação efetiva do equipamento. Portanto, CUDA é o fosso atual da NVIDIA.
Um estudo MosaicML mencionou que as GPUs AMD também são adequadas para tarefas de treinamento de modelos grandes. Eles experimentaram uma tarefa de treinamento simples baseada em PyTorch sem qualquer modificação de código em comparação com a execução em NVIDIA. Os autores mostram que, desde que a base de código seja construída no PyTorch, ela pode ser usada diretamente no AMD sem adaptação adicional. No futuro, o autor planeja verificar o desempenho do sistema AMD em um cluster de computação maior.
Ao mesmo tempo, também há uma visão de que, considerando que o custo de treinamento de um modelo é próximo a 300 milhões de dólares, ninguém se arriscará a contar com chips da AMD ou de outras startups em larga escala, principalmente quando a demanda por chips é na ordem de mais de 10.000.
Um aposentado da indústria de semicondutores também mencionou que a situação de fornecimento da AMD não é otimista e a capacidade de produção de CoWoS da TSMC foi absorvida pela NVIDIA, portanto, embora o MI250 possa ser uma alternativa viável, também é difícil de obter.
H100 VS A100
NVIDIA A100:
A atualização do NVIDIA V100, em comparação com o V100, o desempenho do A100 foi aprimorado em 20 vezes, o que é muito adequado para tarefas como IA e análise de dados. Composto por 54 bilhões de transistores, o A100 integra núcleos Tensor de terceira geração com aceleração para operações de matriz esparsa, especialmente úteis para raciocínio e treinamento de IA. Além disso, várias GPUs A100 podem ser aproveitadas para maiores cargas de trabalho de inferência de IA com a tecnologia de interconexão NVIDIA NVLink.
NVIDIA H100:
A próxima geração do A100 é o chip mais recente otimizado para modelos grandes. Ele é baseado na arquitetura Hopper, construída usando o processo de versão personalizada de 5nm da TSMC (4N), e um único chip contém 80 bilhões de transistores. Especificamente, a NVIDIA propôs o Transformer Engine, que integra vários cálculos de precisão e os recursos de processamento dinâmico da rede neural Transformer, permitindo que a GPU H100 reduza bastante o tempo de treinamento do modelo. Com base no H100, a NVIDIA também lançou uma série de produtos como estações de trabalho de aprendizado de máquina e supercomputadores, como 8 H100s e 4 NVLinks combinados para formar uma GPU gigante - DGX H100.
Em comparação com o A100, a velocidade de inferência de 16 bits do H100 é cerca de 3,5 vezes mais rápida e a velocidade de treinamento de 16 bits é cerca de 2,3 vezes mais rápida.
Comparação de velocidade A100 e H100
MoE de treinamento H100
Aceleração H100 em escala
A maioria das pessoas tende a comprar o H100 para treinamento e inferência de modelo e usar o A100 principalmente para inferência de modelo. No entanto, pode-se também considerar os seguintes fatores:
**• Custo: **H100 é mais caro que A100;
**• Capacidade: **A100 e H100 são diferentes em poder de computação e memória;
**• Uso de novo hardware: **A adoção do H100 requer ajustes correspondentes no software e no fluxo de trabalho;
**• Risco: ** Existem mais riscos desconhecidos na definição de H100;
**• SOFTWARE OTIMIZADO: **Alguns softwares foram otimizados para o A100.
No geral, apesar do desempenho superior do H100, há momentos em que faz sentido escolher o A100,** o que torna a atualização do A100 para o H100 não uma decisão fácil com muitos fatores a serem considerados. **
Na verdade, o A100 se tornaria o V100 que é hoje em alguns anos. Considerando as restrições de desempenho, acho que quase ninguém treinará o LLM no V100 agora. Mas o V100 ainda está sendo usado para inferência e outras tarefas. Da mesma forma, o preço do A100 pode cair à medida que mais empresas de IA recorrerem ao H100 para treinar novos modelos, mas sempre haverá demanda para o A100, especialmente para inferência.
Executivo de Nuvem Privada
Acho que isso pode levar a uma inundação de A100s no mercado novamente, já que algumas startups altamente financiadas acabam fechando as portas.
— (Outro) Executivo de Nuvem Privada
Mas, com o tempo, as pessoas usarão o A100 para mais e mais tarefas de inferência, em vez de treinar os modelos maiores e mais recentes. **O desempenho do V100 não pode mais suportar o treinamento de modelos grandes, e as placas gráficas de alta memória são mais adequadas para modelos grandes; portanto, as equipes de ponta preferem H100 ou A100.
A principal razão para não usar o V100 é a falta de tipos de dados brainfloat16 (bfloat16, BF16). Sem esse tipo de dados, é difícil treinar modelos facilmente. A principal razão para o baixo desempenho de OPT e BLOOM é a ausência desse tipo de dados (OPT foi treinado em float16, BLOOM foi principalmente prototipagem feita em FP16, o que impossibilitou a generalização dos dados para execuções de treinamento feitas em BF16).
——Pesquisador de Aprendizagem Profunda
**• Qual a diferença entre as GPUs Nvida H100, GH200, DGX GH200, HGX H100 e DGX H100? **
• H100 = 1x GPU H100;
• HGX H100 = Plataforma de referência do servidor NVIDIA. Usado por OEMs para construir servidores 4-GPU ou 8-GPU, fabricados por OEMs terceirizados, como a Supermicro;
• DGX H100 = servidor NVIDIA H100 oficial com 8x H100, NVIDIA é seu único fornecedor;
• GH200 = 1x GPU H100 mais 1x CPU Grace;
• DGX GH200 = 256x GH200, chegando no final de 2023, provavelmente apenas da NVIDIA;
• MGX para grandes empresas de computação em nuvem.
Destes, a maioria das empresas optou por comprar o 8-GPU HGX H100 em vez dos servidores DGX H100 ou 4-GPU HGX H100.
**Quanto custam essas GPUs separadamente? **
1x DGX H100 (SXM) com 8x H100 GPUs custa $ 460.000, incluindo serviços de suporte necessários, etc., cerca de $ 100.000. As startups podem obter um desconto inicial de cerca de $ 50.000 para até 8 caixas DGX H100, para um total de 64 H100s.
As especificações específicas da GPU são as seguintes:
Especificações DGX H100
1x HGX H100 (SXM) com 8x H100 GPUs pode custar entre $ 300.000-380.000, dependendo das especificações (rede, armazenamento, memória, CPU) e margens do fornecedor e níveis de suporte. Se as especificações forem exatamente as mesmas do DGX H100, as empresas podem pagar um preço mais alto de US$ 360.000 a US$ 380.000, incluindo suporte.
1x HGX H100 (PCIe) com 8x H100 GPUs custa aproximadamente US$ 300.000 incluindo suporte, dependendo das especificações.
O preço de mercado de uma placa PCIe é de cerca de US$ 30.000 a US$ 32.000.
As placas gráficas SXM não são vendidas como placas únicas, portanto, o preço é difícil. Geralmente vendido apenas como servidores 4GPU e 8GPU.
Cerca de 70-80% da demanda no mercado é para SXM H100, e o restante é para PCIe H100. A demanda pelo segmento SXM está aumentando, já que apenas placas PCIe estavam disponíveis nos meses anteriores. Dado que a maioria das empresas está comprando 8GPU HGX H100s (SXMs), isso representa cerca de US$ 360.000 a US$ 380.000 por 8 H100s, incluindo outros componentes do servidor.
DGX GH200 contém 256x GH200, e cada GH200 contém 1x H100 GPU e 1x Grace CPU. Segundo estimativas, o custo do DGX GH200 pode estar entre 15 milhões e 25 milhões de dólares americanos.
**Qual é a demanda do mercado por GPU? **
• O treinamento GPT-4 pode ser feito em 10.000 a 25.000 folhas A100;
• Meta tem cerca de 21.000 A100s, Tesla tem cerca de 7.000 A100s e Stability AI tem cerca de 5.000 A100s;
• O treinamento do Falcon 40B foi realizado em 384 A100s;
• A inflexão usa 3500 folhas H100 em seu modelo equivalente GPT-3.5.
Teremos 22.000 GPUs em uso até dezembro e mais de 3.500 unidades em uso hoje.
— Mustafa Suleyman, CEO, Inflection AI
**De acordo com Elon Musk, o treinamento GPT-5 pode usar 30.000-50.000 H100. **Morgan Stanley propôs em fevereiro de 2023 que o GPT-5 usaria 25.000 GPUs, e eles também propuseram na época que o GPT-5 já estava em treinamento, mas Sam Altman posteriormente negou isso em maio deste ano, dizendo que o OpenAI não treinou GPT-5, então as informações do Morgan Stanley podem não ser precisas.
O GCP tem cerca de 25.000 H100s e o Azure pode ter de 10.000 a 40.000 H100s. Deve ser semelhante para o Oracle. Além disso, a maior parte da capacidade do Azure será provisionada para OpenAI.
A CoreWeave mantém aproximadamente 35.000 a 40.000 H100s, mas isso é baseado em pedidos, não em reais.
**Quantos H100 a Startup encomendou? **Se usado para tarefa de ajuste fino de LLM, geralmente dezenas ou centenas de folhas são solicitadas; se usado para treinamento de LLM, milhares de folhas são necessárias.
**Quanto H100 uma empresa do setor LLM pode precisar? **
• OpenAI pode precisar de 50.000, Inflection pode precisar de 24.000 e Meta pode precisar de 25.000 (também há ditados de que Meta realmente precisa de 100.000 ou mais);
• Grandes provedores de serviços em nuvem, como Azure, Google Cloud, AWS e Oracle, podem precisar de 30.000 cada um;
• Provedores de serviços de nuvem privada, como Lambda e CoreWeave, e outras nuvens privadas podem chegar a 100.000;
• Anthropic, Helsing, Mistral, Character podem custar 10k cada.
Os números acima são estimativas e suposições, e alguns deles podem ser contados duas vezes, como clientes que alugam a nuvem. **Em geral, de acordo com os cálculos atuais, o número de H100s é de cerca de 432.000. Se calculado em cerca de US$ 35.000 cada, esta é uma GPU com um valor total de cerca de US$ 15 bilhões. Além disso, o número de 432.000 não inclui empresas chinesas como ByteDance (TikTok), Baidu e Tencent, que exigem muitos H800s. **
Além disso, algumas empresas financeiras também estão implantando A100/H100 variando de centenas a milhares: como Jane Street, JP Morgan, Two Sigma e Citadel.
**Como isso se compara à receita do data center da NVIDIA? **Receita de data center da NVIDIA de US$ 4,28 bilhões de fevereiro a abril de 2023. Entre 25 de maio e julho de 2023, a receita do data center pode ficar em torno de US$ 8 bilhões. **Isso se baseia principalmente na suposição de que a orientação de receita mais alta da NVIDIA para o trimestre se deve principalmente a receitas mais altas de data center, em vez de receitas mais altas de outras áreas de negócios. **
Portanto, pode levar algum tempo para que a escassez de oferta diminua. Mas é possível que a escassez de poder de computação tenha sido exagerada. Em primeiro lugar, a maioria das empresas não compra todo o H100 de que precisa imediatamente, mas atualiza gradualmente; além disso, a NVIDIA também está aumentando ativamente a capacidade de produção.
Ter 400.000 H100s no mercado como um todo não está fora de alcance, especialmente considerando que todos estão implantando H100s de 4 ou 5 dígitos em grande número atualmente.
—— Um executivo de nuvem privada
Resumir
• A maioria dos grandes CSPs (Azure, AWS, GCP e Oracle) e nuvens privadas (CoreWeave, Lambda e vários outros) preferem mais GPUs H100 do que apenas poder acessá-los, a maioria das grandes ofertas de IA A empresa também está buscando mais GPUs H100 .
• Normalmente, essas empresas desejam um chassi HGX H100 de 8GPU com placas SXM. Dependendo das especificações e do suporte, cada servidor 8GPU custa aproximadamente US$ 3 a 4 milhões. Pode haver excesso de demanda por centenas de milhares de GPUs H100, com um valor total de mais de US$ 15 bilhões;
• Com oferta limitada, a NVIDIA poderia ter aumentado os preços para encontrar um preço de equilíbrio de mercado e, até certo ponto, o fez. Em suma, a decisão final sobre como alocar a GPU H100 depende de quais clientes a própria NVIDIA prefere alocá-la.
03.H100 Análise do lado da oferta
** Gargalo da TSMC **
Os H100s são produzidos pela TSMC (TSMC), **A NVIDIA pode escolher outras fábricas de chips para produzir mais H100s? Pelo menos ainda não. **
A NVIDIA cooperou com a Samsung no passado, mas a Samsung não conseguiu atender às suas necessidades de GPUs de ponta, portanto, atualmente, a NVIDIA só pode usar GPUs H100s e outras GPUs de 5 nm produzidas pela TSMC. **Talvez no futuro a NVIDIA coopere com a Intel ou continue a cooperar com a Samsung em tecnologias relacionadas, mas nenhuma dessas situações acontecerá no curto prazo, portanto, a escassez de oferta do H100 não será aliviada. **
A tecnologia de 5 nanômetros (N5) da TSMC entrará em produção em massa em 2020. A tecnologia N5 é a segunda tecnologia de processo EUV da TSMC, oferecendo velocidade mais rápida e menor consumo de energia do que a tecnologia N7 anterior. Além disso, a TSMC também planeja lançar a tecnologia de 4 nanômetros (N4), que é uma versão aprimorada da tecnologia N5 que melhorará ainda mais o desempenho e o consumo de energia, e planeja iniciar a produção em massa em 2022.
O H100 é produzido com base no processo TSMC 4N, que pertence ao 5nm aprimorado na série 5nm, não ao processo real de 4nm. **Além da NVIDIA, a Apple também está usando essa tecnologia, mas eles mudaram principalmente para o N3 e mantiveram a maior parte da capacidade do N3. **Além disso, Qualcomm e AMD são grandes clientes da série N5.
O A100 usa o processo N7 da TSMC.
7 nanômetros (N7) é o nó de processo que a TSMC colocará em produção em massa em 2019. Com base no N7, a TSMC também introduziu o processo N7+, que é um processo de fabricação de 7 nm usando EUV (litografia ultravioleta extrema), que aumenta a densidade do transistor em 15% a 20%, reduzindo o consumo de energia do chip.
Geralmente, a capacidade do processo front-end (Fab Capacity) será planejada com mais de 12 meses de antecedência. É apontado que a TSMC e seus principais clientes planejarão em conjunto a demanda de produção para o próximo ano, então a atual escassez de oferta do H100 se deve em parte ao julgamento incorreto da TSMC e da NVIDIA sobre a demanda do H100 deste ano no ano anterior.
Capacidade fabulosa:
No fluxo do processo do chip semicondutor, Fab é a abreviatura de FABRICATION (processing, manufacturing) e Fab Capacity pode ser considerado como capacidade de capacidade.
Segundo outra fonte, normalmente demora 6 meses para que o H100 seja vendido aos clientes (produção, embalagem e testes) desde o início da produção, mas essa situação ainda não foi confirmada.
Um profissional aposentado da indústria de semicondutores apontou que a capacidade de produção de wafer não é o gargalo do TSMC, mas o verdadeiro gargalo está no já mencionado CoWoS (empilhamento tridimensional).
CoWoS (Chip no wafer no substrato, empilhamento tridimensional):
É uma tecnologia de produção integrada 2.5D da TSMC. Primeiro, o chip é conectado ao wafer de silício por meio do processo de embalagem CoW (Chip on Wafer) e, em seguida, o chip CoW é conectado ao substrato (Substrate) e integrado ao CoWoS .
De acordo com o DigiTimes, a TSMC começou a expandir sua capacidade de produção de CoWoS e planeja aumentar a capacidade de produção de CoWoS de 8.000 wafers por mês para 11.000 wafers por mês até o final de 2023 e para cerca de 14.500 a 16.600 wafers por mês até o final de 2024. Grandes gigantes da tecnologia, como NVIDIA, Amazon, Broadcom, Cisco e Xilinx, aumentaram a demanda por embalagens CoWoS avançadas da TSMC.
Memória H100
**Memory Type (Memory Bype), Memory Bus Width (Memory Bus Width) e Memory Clock Speed (Memory Clock Speed) afetam conjuntamente a largura de banda da memória da GPU. **A NVIDIA projetou a largura do barramento e a velocidade do clock do H100 como parte da arquitetura da GPU. A memória HBM3 é usada principalmente no H100 SXM e o HBM2e é usado principalmente no H100 PCIe.
HBM é difícil de produzir e a oferta é muito limitada, então produzir HBM é um pesadelo. Mas uma vez que o HBM é produzido, o resto do projeto torna-se fácil.
——Pesquisador de Deepl Learning
**Tipo de memória, largura do barramento de memória e velocidade do clock da memória são três indicadores importantes da memória do computador. **
Largura do barramento de memória:
Refere-se à largura do canal de transmissão de dados entre o módulo de memória e a placa-mãe. Uma largura de barramento de memória maior pode fornecer um caminho de dados maior, aumentando assim a velocidade de transmissão de dados entre a memória e o processador.
Velocidade do clock da memória:
Refere-se à frequência de clock de trabalho do módulo de memória. Uma velocidade de clock de memória mais alta significa que a memória pode executar operações de leitura e gravação mais rapidamente e fornecer uma velocidade de transmissão de dados mais alta.
HBM (memória de alta largura de banda):
É uma tecnologia de memória de alta largura de banda usada para fornecer velocidades rápidas de acesso à memória em unidades de processamento gráfico (GPUs) e outros dispositivos de computação de alto desempenho. A tecnologia de memória usada em placas gráficas tradicionais e dispositivos de computação geralmente é baseada no design GDDR (Graphics Double Data Rate), que possui um certo equilíbrio entre desempenho e consumo de energia. A tecnologia HBM alcança maior largura de banda e menor consumo de energia colocando pilhas de memória em chips GPU e empilhando vários chips DRAM juntos por meio de conexões verticais de alta velocidade (TSVs).
Para a memória HBM3, a NVIDIA pode usar todos ou principalmente SK Hynix. Não é certo se o H100 da NVIDIA usa a memória da Samsung, mas é certo que a NVIDIA atualmente não usa a memória da Micron.
No que diz respeito ao HBM3, de um modo geral, a SK Hynix tem a maior produção, seguida pela Samsung, e a terceira Micron classificada tem uma grande diferença de produção com as duas primeiras. Parece que a SK Hynix aumentou a produção, mas a NVIDIA ainda quer que eles produzam mais, enquanto a Samsung e a Micron ainda não conseguiram aumentar a produção.
**O que mais é usado na fabricação de GPUs? **
Além disso, a produção de GPU também envolverá muitos materiais e peças metálicas. A escassez de matéria-prima nesses links também causará gargalos no fornecimento de GPU, como:
**• Metais e produtos químicos: **Inclui silício (metalóides) como cobre, tântalo, ouro, alumínio, níquel, estanho, índio e paládio, que são utilizados em várias etapas da produção, desde a fabricação da rodada de silício até a montagem final da GPU , como silício, terras raras, etc.;
**• Componentes e materiais de embalagem: **Como substratos, esferas e fios de solda, compostos de dissipação de calor, etc., que são usados para completar a montagem e ligação de vários componentes da GPU e são críticos para a operação da GPU GPU;
**• Consumo de energia:**Devido ao uso de equipamentos mecânicos de alta precisão durante o processo de fabricação dos chips GPU, é necessária uma grande quantidade de eletricidade.
**Como a NVIDIA está lidando com a escassez do H100? **
A NVIDIA revelou que aumentará o fornecimento no segundo semestre deste ano. O CFO da NVIDIA disse no relatório financeiro que a empresa está fazendo o possível para resolver o problema de fornecimento, mas fora isso, eles não transmitiram mais informações, nem eles têm quaisquer números específicos relacionados ao H100. .
"Estamos trabalhando em nossos problemas de abastecimento para o trimestre, mas também compramos muito estoque para o segundo semestre do ano."
"Acreditamos que a oferta no segundo semestre será significativamente maior do que no primeiro semestre."
-- Colette Kress, CFO da Nvidia, na teleconferência de resultados de fevereiro a abril de 2023
Um executivo de uma empresa de nuvem privada acredita que **um círculo vicioso pode surgir no mercado a seguir, ou seja, a escassez faz com que a capacidade da GPU seja considerada um fosso para empresas de IA, o que leva a mais acúmulo de GPU, o que, por sua vez, agrava ainda mais a escassez de GPUs. **
De acordo com o intervalo histórico entre o lançamento de diferentes arquiteturas pela NVIDIA, o modelo de próxima geração do H100 pode não ser lançado até o final de 2024 (meados de 2024 a início de 2025). Antes disso, o H100 sempre será o produto de nível superior da GPU NVIDIA (GH200 e DGX GH200 não são contados, eles não são GPU puros e ambos usam o H100 como GPU).
Além disso, espera-se que haja uma versão de 120 GB com memória maior no futuro.
04. Como obter H100
Vendedor de H100
Fabricantes de equipamentos originais (OEMs), como Dell, HPE, Lenovo, Supermicro e Quanta, estão vendendo o H100 e o HGX H100, enquanto o pedido do InfiniBand precisa ser feito por meio da NVIDIA Mellanox.
Mellanox é um dos principais fornecedores globais de InfiniBand. Em 2015, a participação da Mellanox no mercado global de IB atingiu 80%. Em 2019, a NVIDIA adquiriu a Mellanox por US$ 125 por ação, totalizando um valor de transação de aproximadamente US$ 6,9 bilhões. Essa aquisição permite que a NVIDIA expanda ainda mais sua participação no mercado de computação de alto desempenho e data centers, além de fortalecer a competitividade da NVIDIA no campo de IA.
Combinando a tecnologia de interconexão de alta velocidade da Mellanox com os aceleradores de GPU da NVIDIA, a NVIDIA pode fornecer centros de dados com maior largura de banda e soluções de menor latência. Além da Mellanox, a tecnologia IB da QLogic, outro fornecedor na área de IB, foi adquirida pela Intel Corporation em 2012.
Nuvens de GPU como CoreWeave e Lambda compram GPUs de OEMs e as alugam para Startups. Os players de nuvem de hiperescala (Azure, GCP, AWS, Oracle) podem comprar mais diretamente com a NVIDIA, mas às vezes também trabalham com OEMs.
Para DGX, a compra também é feita via OEM. Embora os clientes possam se comunicar com a NVIDIA sobre os requisitos de compra, a compra é feita por OEM em vez de fazer um pedido de compra diretamente com a NVIDIA.
Os prazos de entrega para os servidores 8 GPU HGX são terríveis e os servidores 4 GPU HGX são muito bons, mas a realidade é que todo mundo quer servidores 8 GPU.
**• Quanto tempo leva desde o pedido até a implantação do H100? **
A implantação é um processo em fases. Digamos que um pedido de 5.000 GPUs, eles podem obter acesso a 2.000 ou 4.000 GPUs em 4 a 5 meses e, em seguida, as GPUs restantes em 6 meses ou mais.
Para Startup, se você deseja comprar uma GPU, não faça um pedido de um OEM ou revendedor. Eles geralmente escolhem serviços de nuvem pública, como Oracle, ou alugam direitos de acesso a nuvens privadas, como Lambda e CoreWeave, ou use serviços como FluidStack e OEMs e provedores que trabalham com data centers alugam acesso.
**• A empresa deve construir seu próprio data center ou colocation? **
Para o estabelecimento de um data center, os fatores que precisam ser considerados incluem o tempo para estabelecer o data center, se há talentos e experiência em hardware e a escala de investimento de capital.
Alugar e hospedar um servidor é muito mais fácil. Se você deseja construir seu próprio data center, precisa instalar uma linha de fibra escura até seu local para se conectar à Internet, e o custo da fibra é de US$ 10.000 por quilômetro. Durante o boom da Internet, a maior parte da infraestrutura já estava construída e paga. Agora, você pode apenas alugar, e é bem barato.
—— Um executivo de nuvem privada
Escolher alugar ou construir um data center é uma decisão ou uma ou outra. De acordo com as necessidades reais, as empresas podem ter as seguintes opções diferentes:
Nuvem sob demanda: use exclusivamente serviços de nuvem para locação;
Nuvem reservada;
Hospedagem (adquirir um servidor, cooperar com um provedor para hospedar e gerenciar o servidor);
Auto-hospedagem (comprar e hospedar você mesmo um servidor).
A maioria das startups que precisam de muito H100 optarão por nuvem reservada ou colocation.
**Como as empresas escolhem uma empresa de serviços em nuvem? **
Há uma visão de que a infraestrutura da Oracle não é tão confiável quanto as três principais nuvens, mas ela está disposta a dedicar mais tempo ao suporte técnico ao cliente. Alguns praticantes de empresas de nuvem privada disseram que 100% deles terão um grande número de clientes insatisfeitos com os serviços baseados em Oracle, e alguns CEOs de outras empresas acreditam que os recursos de rede da Oracle são mais fortes.
**Geralmente, o Startup selecionará a empresa com a combinação mais forte de suporte de serviço, preço e capacidade. **
As principais diferenças entre várias grandes empresas de serviços em nuvem são:
**• Rede: **A AWS e o Google Cloud foram mais lentos para adotar o InfiniBand, pois têm suas próprias abordagens, mas a maioria das startups que procuram grandes clusters A100/H100 estão procurando o InfiniBand;
**• Disponibilidade: **Por exemplo, a maior parte do poder de computação H100 do Azure é usada pelo OpenAI, o que significa que pode não haver muito poder de computação disponível para outros clientes.
**Embora não haja base factual, há especulações de que a NVIDIA está mais inclinada a priorizar o fornecimento de GPU para provedores de serviços em nuvem que não desenvolveram chips de aprendizado de máquina concorrentes. **Todos os três principais provedores de serviços em nuvem estão atualmente desenvolvendo seus próprios chips de aprendizado de máquina, mas as alternativas NVIDIA da AWS e do Google já estão no mercado e roubando parte da participação de mercado da NVIDIA. Isso também levou a algumas especulações do mercado de que a NVIDIA está mais disposta a cooperar com a Oracel por causa disso.
Algumas das grandes empresas de nuvem têm preços melhores do que outras. Como observou um executivo de nuvem privada, "por exemplo, o A100 no AWS/AZURE é muito mais caro que o GCP".
A Oracle me disse que terá "dezenas de milhares de H100s" em serviço ainda este ano. Mas em termos de preços, eles são mais altos do que outras empresas. Eles não me deram preços para o H100, mas para o A100 80GB, eles me cotaram perto de US $ 4/hora, o que é quase 2x mais do que o GCP estava cotando, e com o mesmo consumo de energia e esforço.
anônimo
Nuvens menores têm uma vantagem em termos de preços, exceto em alguns casos em que uma das grandes empresas de nuvem pode fazer um negócio estranho em troca de ações.
Então, no geral, em termos de proximidade da cooperação com NVIDIA, Oracle e Azure > GCP e AWS, mas isso é apenas um palpite.
A Oracle foi pioneira nos A100s e hospedou clusters baseados em Nvidia em parceria com a Nvidia, que também é cliente do Azure.
**• Qual grande empresa de nuvem tem o melhor desempenho de rede? **
Azure, CoreWeave e Lambda usam InfiniBand. O desempenho de rede da Oracle é bom em 3200 Gbps, mas usa Ethernet em vez de InfiniBand e pode ser cerca de 15 a 20% mais lento que o IB para casos de uso como treinamento LLM de alto parâmetro. As redes da AWS e GCP não são tão boas.
**• Como as empresas escolhem os serviços de nuvem atualmente? **
Dados estatísticos de 15 empresas mostram que todas as 15 empresas pesquisadas escolherão AWS, GCP ou Azure, e a Oracle não está entre elas.
A maioria das empresas tende a usar sua nuvem existente. Mas para equipes empreendedoras, suas escolhas são mais baseadas na realidade: quem pode fornecer poder de computação escolherá qualquer um.
**• Com quem a NVIDIA está trabalhando no DGX Cloud? **
"A Nvidia está fazendo parceria com os principais provedores de serviços em nuvem para hospedar a DGX Cloud Infrastructure, começando com a Oracle Cloud Infrastructure" - venda com a Nvidia, mas alugue por meio de provedores de nuvem existentes (primeiro com a Oracle, depois com o Azure, seguido pelo Google Cloud, que não funcionou com AWS).
O CEO da NVIDIA, Jensen Huang, disse na teleconferência de resultados da NVIDIA que "a combinação ideal é 10% NVIDIA DGX cloud e 90% CSP cloud".
• A programação H100 dos gigantes da nuvem:
CoreWeave foi um dos primeiros. Como investidora da CoreWeave e para fortalecer a concorrência entre as grandes empresas de nuvem, a NVIDIA foi a primeira a concluir a entrega da CoreWeave.
A programação H100 de outras empresas de serviços em nuvem é a seguinte:
• O Azure anunciou a disponibilidade do H100 para visualização em 13 de março;
• A Oracle anunciou fornecimento limitado de H100 em 21 de março;
• A Lambda Labs anunciou em 21 de março que lançará o H100 no início de abril;
• A AWS anunciou em 21 de março que o H100 estará em pré-visualização em algumas semanas;
• O Google Cloud anunciou o início da visualização privada do H100 em 10 de maio.
**• Quais serviços de nuvem as diferentes empresas estão usando? **
• OpenAI: Azure
• Inflexão: Azure e CoreWeave
• Anthropic: AWS e Google Cloud
• Cohere: AWS e Google Cloud
• Rosto Abraços: AWS
• IA de estabilidade: CoreWeave e AWS
• Character.ai: Google Cloud
• X.ai: Oráculo
• NVIDIA: Azure
**Como obter mais cota de GPU? **
O gargalo final é se a distribuição do poder de computação pode ser obtida da NVIDIA.
**• Como a NVIDIA seleciona os clientes? **
A NVIDIA geralmente aloca um certo número de GPUs para cada cliente, e neste processo **A NVIDIA está mais preocupada com "quem é o cliente final", por exemplo, o Azure disse "queremos comprar 10.000 H100s para suportar o Inflection" , e o resultado correspondente ao Azure dizendo "Compramos 10.000 H100s para o Azure" é diferente. **Se a NVIDIA estiver interessada em um determinado cliente final, é possível que a empresa de nuvem obtenha cota de GPU adicional. Portanto, a NVIDIA espera saber o máximo possível quem são os clientes finais, e eles estarão mais inclinados a grandes empresas ou startups com fortes endossos.
Sim, parece ser o caso. A Nvidia gosta de dar acesso à GPU para startups de IA (muitas das quais têm laços estreitos com a Nvidia). A Inflection, uma empresa de IA investida pela Nvidia, está testando um enorme cluster H100 no CoreWeave.
—— Um executivo de nuvem privada
Se uma determinada empresa de nuvem trouxer um cliente final para a NVIDIA e expressar que está pronta para comprar uma certa quantidade de H100, e a NVIDIA estiver interessada nesse cliente final, a NVIDIA geralmente fornecerá uma determinada cota, o que na verdade aumentará o valor que a NVIDIA aloca para o cliente final A capacidade total da empresa de nuvem, porque essa alocação é independente da cota originalmente dada à empresa de nuvem pela NVIDIA.
A alocação de grande capacidade da NVIDIA para nuvens privadas é um caso especial: **CoreWeave tem mais H100s do que GCP. A NVIDIA reluta em alocar recursos significativos para empresas que tentam competir diretamente com ela (AWS Inferentia e Tranium, Google TPUs, Azure Project Athena). **
Mas, no final das contas, se você enviar um pedido de compra e dinheiro para a NVIDIA, se comprometer com um acordo maior com mais financiamento inicial e indicar seu perfil de baixo risco, certamente obterá mais cota de GPU do que qualquer outra pessoa.
05. Resumo
Embora, como disse Sam Altman, "a era de usar modelos grandes esteja chegando ao fim", por enquanto ainda estamos limitados pela GPU. Por um lado, empresas como a OpenAI já possuem excelentes produtos PMF como o ChatGPT, mas por serem limitadas por GPUs, precisam adquirir uma grande quantidade de poder de computação. Por outro lado, muitas equipes estão trabalhando na possibilidade de participar em LLM no futuro Hoarding GPUs, independentemente de seu potencial para criar algo como ChatGPT.
Mas não há dúvida de que o direito de palavra da NVIDIA não será abalado.
Nesse estágio, o melhor produto LLM que o PMF faz é o ChatGPT. O exemplo a seguir usa o ChatGPT para explicar por que há escassez de GPUs:
Como o ChatGPT é tão popular entre os usuários, seu ARR (receita recorrente anual) pode exceder 500 milhões de dólares americanos;
ChatGPT é executado na API de GPT-4 e GPT-3.5;
As APIs do GPT-4 e GPT-3.5 requerem uma GPU para serem executadas, e um grande número de GPUs é necessário. A OpenAI espera liberar mais funções para o ChatGPT e sua API, mas isso não pode ser realizado devido ao número limitado de GPUs;
OpenAI comprou um grande número de GPUs NVIDIA através da Microsoft (Azure);
Para fabricar a GPU H100 SXM, a NVIDIA usa TSMC para fabricação e usa a tecnologia de embalagem CoWoS da TSMC e HBM3 principalmente da SK Hynix.
Além da OpenAI, existem muitas empresas no mercado que estão treinando seus próprios modelos grandes. Vamos deixar de lado quantas bolhas existem no LLM e qual a probabilidade de produtos PMF aparecerem no final, mas, em geral, a concorrência do LLM tem aumentou a demanda do mercado por GPUs. Além disso, existem algumas empresas que, mesmo que não precisem de GPUs por enquanto, começarão a estocá-las com antecedência porque estão preocupadas com o futuro. Então é como "a expectativa de um déficit de oferta exacerba o déficit de oferta"**.
Portanto, outra força que impulsiona a demanda por GPUs são as empresas que desejam criar novos LLMs ou participar da IA no futuro:
A importância dos grandes modelos tornou-se um consenso: se é uma empresa madura, espera treinar o LLM em seus próprios dados e espera que traga mais valor comercial; como uma empresa iniciante, espera construir sua possuir LLM e transformá-lo em valor comercial. A GPU é necessária apenas para treinar modelos grandes;
Comunicação entre essas empresas e grandes fornecedores de nuvem (Azure, Google Cloud, AWS), tentando obter H100 suficiente;
Durante o processo, eles descobriram que os fornecedores de nuvem não tinham H100 suficiente para alocar, e alguns fornecedores de nuvem também tinham configurações de rede defeituosas, então CoreWeave, Oracle, Lambda e FluidStack também compraram GPUs e as possuem, talvez eles também discutam com OEM e NVIDIA;
No final, eles conseguiram muitas GPUs;
Agora, eles estão tentando adequar seu produto ao mercado;
Caso ainda não tenha ficado claro, o caminho não é fácil - lembre-se de que a OpenAI alcançou o ajuste do produto ao mercado em um modelo menor e depois o ampliou. Mas agora, para alcançar o ajuste do produto ao mercado, você precisa se adequar ao caso de uso do usuário melhor do que o modelo do OpenAI; portanto, para começar, você precisa de mais GPUs do que o OpenAI.
**Pelo menos até o final de 2023, haverá escassez de empresas implantando centenas ou milhares de H100s, talvez até o final de 2023, a situação ficará mais clara, mas parece que a escassez de GPUs pode continuar até 2024. **
Jornada de oferta e demanda de GPU
Referência
Comentário de um fundador de startup de LLMs para empresas personalizado
Mensagem de um em um provedor de nuvem
Conversas com s em empresas de nuvem e provedores de GPU
Teleconferência de resultados do primeiro trimestre de 2023 da Tesla (cobre 1º de janeiro de 2023 a 31 de março de 2023)
Um comentário de um em uma empresa de nuvem
Uma estimativa aproximada de uma empresa de nuvem
︎
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
H100 Análise de oferta e demanda: quanto tempo durará a guerra dos chips?
Autor: Clay Pascal
Compilado por: wenli, Lavida, yunhao
Recomendado por: Cage, Huaiwei
Fonte: Unicórnios Ultramarinos
O avanço do modelo grande é baseado na melhoria do poder de computação do hardware e das capacidades de computação em nuvem. A NVIDIA H100, que é considerada a "bomba nuclear" da GPU, está enfrentando a escassez mais séria da história. Sam Altman afirmou diretamente que a escassez de GPUs limita a velocidade das atualizações de tecnologia da OpenAI em termos de ajuste fino, capacidade dedicada, janelas de contexto de 32K e multimodalidade.
Este artigo foi compilado do GPU Utils. O autor discute principalmente quanto tempo as GPUs (especialmente NVIDIA H100) irão durar do ponto de vista da oferta e demanda.
Do ponto de vista da demanda, a NVIDIA H100 é, sem dúvida, uma demanda rígida para treinamento de grandes modelos. Segundo estimativas, a demanda atual por H100 no mercado é de cerca de 432.000 folhas, o que equivale a um valor total de cerca de 35.000 dólares americanos por folha. Com GPU de US$ 15 bilhões**, o número de 432 mil não inclui empresas como ByteDance (TikTok), Baidu e Tencent, que precisam de muito H800.
Do lado da oferta, a escassez de H100 é diretamente limitada pela capacidade de produção da TSMC e, a curto prazo, a NVIDIA não tem outras fábricas de chips alternativas. Por causa das remessas limitadas, a NVIDIA também tem sua própria estratégia sobre como alocar essas GPUs. Para a NVIDIA, como garantir que essas GPUs limitadas fluam para azarões da IA, em vez de concorrentes em potencial, como Google, Microsoft e AWS, é muito importante.
Quanto tempo durará essa corrida armamentista de IA em torno do H100? A resposta ainda não está clara. Embora a NVIDIA tenha dito que aumentará a oferta na segunda metade do ano, parece que a escassez de GPUs pode continuar até 2024.
Em torno da escassez do H100, o mercado pode entrar em um "círculo vicioso": a escassez faz com que a capacidade da GPU seja considerada um fosso para empresas de IA, o que leva a mais acúmulo de GPU, o que intensifica ainda mais a escassez de GPU.
**A seguir está o índice deste artigo, e recomenda-se a sua leitura em combinação com os pontos principais. **
👇
01 fundo
02 Análise de requisitos para H100
03 H100 Análise do lado da oferta
04 Como obter H100
05 Resumo
01.Fundo
Até agosto de 2023, o desenvolvimento do campo da inteligência artificial foi limitado pelo gargalo do fornecimento de GPU.
"Uma das razões pelas quais o boom da IA é subestimado é a escassez de GPU/TPU. A escassez de GPUs e TPUs limita a velocidade de introdução do produto e o progresso do treinamento do modelo, mas essas restrições estão ocultas. Estamos vendo principalmente o aumento do preço das ações da NVIDIA , não o progresso de P&D é limitado.As coisas vão melhorar quando a oferta e a demanda estiverem equilibradas.
—Adam D'Angelo, CEO da Quora, Poe.com, ex-CTO do Facebook
Sam Altman disse que a escassez de GPUs limitou o progresso dos projetos OpenAI, como ajuste fino, capacidade dedicada, janelas de contexto de 32K, multimodalidade, etc.
Clusters H100 de grande escala de provedores de nuvem pequenos e grandes estão ficando sem capacidade.
"Todo mundo quer que a NVIDIA faça mais A/H100s."
"Devido à atual escassez de GPU, é melhor para a OpenAI que menos pessoas usem nossos produtos";
"Na verdade, ficaríamos felizes se as pessoas usassem menos os produtos OpenAI porque não temos GPUs suficientes".
—Sam Altman, CEO, OpenAI
Por um lado, as palavras de Sam Altman mostram sutilmente que os produtos da OpenAI são amados por usuários de todo o mundo, mas, ao mesmo tempo, também ilustram o fato de que a OpenAI precisa de mais GPUs para promover e atualizar ainda mais suas funções.
O Azure e a Microsoft também estão enfrentando uma situação semelhante e uma pessoa anônima mencionou:
• A empresa está restringindo o uso de GPUs pelos funcionários, e todos precisam fazer fila para se candidatar a poder de computação como estudantes universitários na década de 1970 para usar computadores. Do meu ponto de vista, o OpenAI está atualmente sugando todos os recursos da GPU;
• Em junho deste ano, a cooperação entre a Microsoft e a CoreWeave é essencialmente para aprimorar a fonte de alimentação de GPU/computação da Microsoft.
CoreWeave :
Provedores de serviços de computação em nuvem, de acordo com o site oficial da CoreWeave, seus serviços são 80% mais baratos do que os fornecedores tradicionais de computação em nuvem. Em abril de 2023, a CoreWeave recebeu o investimento da rodada B da NVIDIA e obteve um grande número de novas placas H100. Em junho, a Microsoft também assinou um acordo com a CoreWeave. A Microsoft investirá bilhões de dólares nos próximos anos para a construção de infraestrutura de computação em nuvem.
Em julho, a CoreWeave lançou o projeto de supercomputador de IA mais rápido do mundo em parceria com a NVIDIA, e a Inflection AI criou um dos modelos de linguagem de grande escala mais complexos do mundo na CoreWeave Cloud usando infraestrutura que oferece suporte a envios de MLPerf. Além disso, a CoreWeave usou a placa aceleradora NVIDIA H100 em suas mãos como garantia e anunciou em agosto que concluiu um financiamento de dívida de US$ 2,3 bilhões.
Resumindo, a oferta de GPUs H100 já é bastante escassa. Existem até rumores de que **Azure e GCP estão praticamente esgotando a capacidade e a AWS está esgotando a capacidade. **
A razão para a escassez é que a NVIDIA fornece apenas algumas GPUs H100 para esses provedores de nuvem. Como a saída da GPU H100 da NVIDIA não pode atender à demanda, o poder de computação que esses provedores de nuvem podem fornecer naturalmente começará a ser escasso.
Se você quiser entender o gargalo do poder de computação, concentre-se nas seguintes questões:
• Quais são as razões específicas para esta situação? :
Qual é o tamanho da demanda? Por exemplo, em quais campos a demanda por inteligência artificial está aumentando com relativa rapidez;
Qual é o tamanho da oferta? Se a capacidade de produção dos fabricantes de GPU, como a NVIDIA, é suficiente para atender à demanda;
• Quanto tempo durará esta escassez? Quando a oferta e a demanda de GPUs atingirão gradualmente um ponto de equilíbrio?
• Quais são as maneiras pelas quais essa escassez pode ser efetivamente aliviada?
02.H100 Análise de Requisitos
Analise os principais problemas de gargalos de poder de computação do lado da demanda:
Especificamente, o que as pessoas querem comprar, mas têm dificuldade em conseguir?
Qual é o tamanho da demanda por GPU no mercado atual?
Por que as empresas preferem NVIDIA H100 em vez de diferentes GPUs?
Que tipos de GPUs existem atualmente no mercado?
Onde as empresas podem comprar GPUs? Quais são os seus preços?
**Quem são os demandantes do H100? **
Empresas com demanda superior a 1.000 H100 ou A100:
• Treinamento de startups LLM:
OpenAI (via Azure), Anthropic, Inflection (via Azure e CoreWeave), Mistral AI;
• Provedores de Serviços de Nuvem (CSPs):
Além dos três gigantes do Azure, GCP e AWS, também existem provedores de nuvem Oracle e GPU, como CoreWeave e Lambda;
• Outros gigantes da tecnologia:
Por exemplo, Tesla (**pegando nota: **Meta, Apple e outros gigantes que o autor original não mencionou aqui também têm muita demanda por GPUs, Google usa principalmente TPU para processar cálculos, e a demanda por H100 é principalmente Google Cloud Platform).
Além das empresas acima, se a empresa precisar fazer muitos ajustes finos do LLM, também precisará reservar pelo menos 100 H100 ou A100.
Para empresas que usam nuvens privadas (CoreWeave, Lambda) e empresas com centenas a milhares de ações H100, elas se deparam quase principalmente com o trabalho do LLM e alguns modelos de difusão (Modelo de Difusão). Algumas empresas optam por ajustar os modelos existentes, mas mais startups de IA estão construindo novos modelos grandes do zero. **Essas empresas normalmente assinam contratos com provedores de serviços de nuvem privados na faixa de US$ 10 a 50 milhões por 3 anos e usam algumas centenas a alguns milhares de GPUs. **
Para empresas que usam apenas um pequeno número de GPUs H100 sob demanda, as tarefas relacionadas ao LLM representam uma grande parte do uso da GPU, e o LLM pode usar mais de 50% da GPU.
Atualmente, as nuvens privadas estão sendo favorecidas pelas empresas e, embora essas empresas geralmente escolham os grandes provedores de serviços de nuvem padrão, elas também correm o risco de serem eliminadas.
**• Os grandes laboratórios de IA são mais limitados por tarefas de inferência ou tarefas de treinamento? **
Esta questão depende de quão atraente é o seu produto. Em outras palavras, a atratividade dos produtos da empresa é muito importante na determinação da alocação de recursos.No caso de recursos limitados, as prioridades de raciocínio e treinamento muitas vezes têm ênfase própria. A visão de Sam Altman é que, se uma escolha deve ser feita, OpenAI está mais inclinado a aprimorar as capacidades de raciocínio, mas atualmente OpenAI é limitado em ambos os aspectos.
Por que o H100 é necessário apenas para o treinamento LLM
A maior parte do mercado atual usa GPUs NVIDIA H100. Isso ocorre porque a GPU H100 é a mais rápida em termos de inferência e treinamento LLM, além de ter o melhor desempenho de custo de inferência. Especificamente, a maioria das empresas opta por usar o servidor 8-GPU HGX H100 SXM.
Na minha análise, para o mesmo trabalho, o H100 é mais vantajoso em termos de custo. A GPU V100 é uma boa opção se você encontrar uma unidade usada, mas isso geralmente não é possível.
—— uma pessoa anônima
Em termos de inferência, descobrimos que a GPU A10G é mais do que adequada e muito mais barata.
—— Um executivo de nuvem privada
Percebemos que o Falcon 40b e o llama2 70b também estão sendo muito utilizados, onde esta afirmação não é mais precisa. Portanto, a velocidade de interconexão é muito importante para tarefas de inferência.
— (Outro) Executivo de Nuvem Privada
Falcão 40b:
Falcon é um modelo básico de linguagem grande com 40 bilhões de parâmetros, Falcon 40b visa usar menos poder de computação de treinamento para obter melhores resultados, o modelo representa apenas 75% da computação de treinamento GPT-3, 40% de Chinchilla e PaLM-62B 80% de treinamento. Em 25 de maio de 2023, o Instituto de Inovação Tecnológica dos Emirados Árabes Unidos anunciou que abriria o código do Falcon 9 para pesquisa e uso comercial. Após seu lançamento, ele liderou a lista LLM de código aberto Hugging Face.
**• Quais são as necessidades comuns das equipes empreendedoras LLM? **
**Para startups LLM, eles geralmente escolhem GPU H100 com InfiniBand de 3,2 Tb/s para treinamento LLM. Embora quase todos prefiram o H100 na sessão de treinamento, na sessão de inferência, essas empresas prestam mais atenção ao desempenho de custo, ou seja, o desempenho criado por dólar. **
Ainda existem alguns problemas com o desempenho por dólar das GPUs H100 em comparação com o A100, mas os H100s ainda são preferidos por causa de sua melhor escalabilidade e tempos de treinamento mais rápidos, enquanto a velocidade/compressão inicia, treina ou melhora O tempo do modelo é crítico para iniciantes.
"Para treinamento de vários nós, todos exigem uma GPU A100 ou H100 com rede InfiniBand. O único requisito não A/H100 que observamos foi para inferência, em que a carga de trabalho era de GPU única ou nó único."
—— Um executivo de nuvem privada
Os principais fatores que afetam o treinamento LLM são:
**• Largura de banda da memória: **Diante de uma grande quantidade de dados carregados da memória, uma maior largura de banda da memória pode acelerar o carregamento dos dados;
**• Poder computacional do modelo (FLOPS, operações de ponto flutuante por segundo): ** Tensor kernel ou unidade equivalente de multiplicação de matrizes, que afeta principalmente a velocidade de cálculo;
**• Cache e latência do cache: **O cache pode armazenar dados temporariamente para acesso repetido, o que tem um impacto significativo no desempenho;
**• Recursos adicionais: **Como FP8 (número de ponto flutuante de 8 bits), etc., formatos numéricos de baixa precisão podem acelerar o treinamento e a inferência;
**• Desempenho computacional: ** está relacionado ao número de núcleos GPU CUDA, e afeta principalmente o número de tarefas que podem ser executadas em paralelo;
**• Velocidade de interconexão: **Para largura de banda de interconexão rápida entre nós, como InfiniBand, esse fator afetará a velocidade do treinamento distribuído.
**O H100 é preferível ao A100 devido, em parte, à menor latência do cache do H100 e à capacidade de computação do FP8. **
O H100 é realmente a primeira escolha, pois é até 3x mais eficiente que o A100, mas custa apenas 1,5 - 2x o A100. Como considerar o custo de todo o sistema, o desempenho por dólar do H100 também é muito maior, se você considerar o desempenho do sistema, o desempenho por dólar pode ser de 4 a 5 vezes maior.
—— Um pesquisador de aprendizado profundo
**Por que a precisão numérica é tão importante? **
Números de ponto flutuante de baixa precisão podem melhorar a velocidade de treinamento e inferência. Por exemplo, FP16 ocupa metade da memória de FP32 e é três vezes mais rápido que FP32 em termos de velocidade de cálculo. No processo de treinamento LLM, para garantir o equilíbrio entre velocidade e precisão, métodos como precisão mista e precisão adaptativa são usados para acelerar grandes modelos de linguagem. Portanto, o suporte de precisão múltipla é uma das considerações importantes para o treinamento de modelos de linguagem grandes. O Google propôs o formato numérico BFP16, que expande o alcance numérico enquanto reduz a precisão, e o desempenho é melhor que o FP 32.
**• Além da GPU, quais são os links de custo no treinamento e operação do LLM? **
A GPU é atualmente o componente mais caro de toda a infraestrutura de treinamento do LLM, mas outros aspectos do custo não são baixos, o que também tem impacto nos custos de treinamento e operação do LLM:
A memória do sistema e os SSDs NVMe são caros: modelos grandes exigem muita memória de alta velocidade e SSDs de alta velocidade para armazenar em cache e carregar dados, e ambos os componentes são caros;
Redes de alta velocidade são caras: Redes de alta velocidade como InfiniBand (usadas para comunicação entre nós) são muito caras, especialmente para treinamentos grandes e distribuídos.
Talvez 10% a 15% do custo total de execução de um cluster vá para eletricidade e hospedagem, divididos aproximadamente igualmente entre os dois. Os custos de eletricidade incluem eletricidade, custos de construção do data center, custos de terreno e funcionários, etc., cerca de 5% a 8%; custos de hospedagem incluem terrenos, edifícios, funcionários, etc., cerca de 5% a 10%. **
Nossa principal preocupação é rede e centro de dados confiável. A AWS não era uma boa opção devido a limitações de rede e hardware não confiável.
——Pesquisador de Aprendizagem Profunda
**• Como a tecnologia GPUDirect ajuda no treinamento LLM? **
O GPUDirect da NVIDIA não é necessário para o treinamento LLM, mas também pode ajudar no desempenho:
A tecnologia GPUDirect pode melhorar o desempenho, mas não necessariamente uma diferença supercrítica. Depende principalmente de onde está o gargalo do sistema. Para algumas arquiteturas/implementações de software, o gargalo do sistema não é necessariamente a rede. **Mas, no caso de rede, o GPUDirect pode melhorar o desempenho em 10% a 20%, o que é um número considerável para altos custos de execução de treinamento. **
No entanto, o GPUDirect RDMA agora é tão onipresente que sua popularidade quase fala por si. Acho que o suporte GPUDirect é fraco para redes não Infiniband, mas a maioria dos clusters GPU otimizados para treinamento de rede neural tem redes/placas Infiniband. O maior fator de desempenho é provavelmente o NVLink, já que é mais raro que o Infiniband, mas também é crítico apenas se você empregar uma estratégia de paralelização específica.
Portanto, recursos como rede poderosa e GPUDirect podem fazer com que softwares menos sofisticados funcionem imediatamente. No entanto, o GPUDirect não é estritamente necessário se o custo ou a infraestrutura legada for considerado.
—— Um pesquisador de aprendizado profundo
GPUDirect:
A tecnologia de transmissão de dados chamada GPUDirect Storage (GPUDirect Storage) introduzida pela NVIDIA é usada principalmente para acelerar a transmissão de dados armazenados em vários armazenamentos para a memória da GPU, o que pode aumentar a largura de banda de 2 a 8 vezes e também pode reduzir o custo final. o atraso final é de até 3,8 vezes. Antigamente, a CPU era responsável por carregar os dados da memória para a GPU, o que limitava muito o desempenho do hardware.
O caminho padrão para transferência de dados do disco NVMe para a memória GPU é usar o buffer de rejeição (Bounce Buffer) na memória do sistema, que é uma cópia de dados adicional. O núcleo da tecnologia de armazenamento GPUDirect é evitar o uso de cache de rebote para reduzir cópias de dados adicionais e usar o mecanismo de acesso direto à memória (Direct Memory Access, DMA) para colocar dados diretamente na memória da GPU.
**Por que a empresa LLM não pode usar a GPU da AMD? **
Um executivo de uma empresa de nuvem privada disse que é teoricamente viável comprar GPUs AMD, mas leva um certo tempo desde a compra até a operação efetiva do equipamento. Portanto, CUDA é o fosso atual da NVIDIA.
Um estudo MosaicML mencionou que as GPUs AMD também são adequadas para tarefas de treinamento de modelos grandes. Eles experimentaram uma tarefa de treinamento simples baseada em PyTorch sem qualquer modificação de código em comparação com a execução em NVIDIA. Os autores mostram que, desde que a base de código seja construída no PyTorch, ela pode ser usada diretamente no AMD sem adaptação adicional. No futuro, o autor planeja verificar o desempenho do sistema AMD em um cluster de computação maior.
Ao mesmo tempo, também há uma visão de que, considerando que o custo de treinamento de um modelo é próximo a 300 milhões de dólares, ninguém se arriscará a contar com chips da AMD ou de outras startups em larga escala, principalmente quando a demanda por chips é na ordem de mais de 10.000.
Um aposentado da indústria de semicondutores também mencionou que a situação de fornecimento da AMD não é otimista e a capacidade de produção de CoWoS da TSMC foi absorvida pela NVIDIA, portanto, embora o MI250 possa ser uma alternativa viável, também é difícil de obter.
H100 VS A100
NVIDIA A100:
A atualização do NVIDIA V100, em comparação com o V100, o desempenho do A100 foi aprimorado em 20 vezes, o que é muito adequado para tarefas como IA e análise de dados. Composto por 54 bilhões de transistores, o A100 integra núcleos Tensor de terceira geração com aceleração para operações de matriz esparsa, especialmente úteis para raciocínio e treinamento de IA. Além disso, várias GPUs A100 podem ser aproveitadas para maiores cargas de trabalho de inferência de IA com a tecnologia de interconexão NVIDIA NVLink.
NVIDIA H100:
A próxima geração do A100 é o chip mais recente otimizado para modelos grandes. Ele é baseado na arquitetura Hopper, construída usando o processo de versão personalizada de 5nm da TSMC (4N), e um único chip contém 80 bilhões de transistores. Especificamente, a NVIDIA propôs o Transformer Engine, que integra vários cálculos de precisão e os recursos de processamento dinâmico da rede neural Transformer, permitindo que a GPU H100 reduza bastante o tempo de treinamento do modelo. Com base no H100, a NVIDIA também lançou uma série de produtos como estações de trabalho de aprendizado de máquina e supercomputadores, como 8 H100s e 4 NVLinks combinados para formar uma GPU gigante - DGX H100.
Em comparação com o A100, a velocidade de inferência de 16 bits do H100 é cerca de 3,5 vezes mais rápida e a velocidade de treinamento de 16 bits é cerca de 2,3 vezes mais rápida.
A maioria das pessoas tende a comprar o H100 para treinamento e inferência de modelo e usar o A100 principalmente para inferência de modelo. No entanto, pode-se também considerar os seguintes fatores:
**• Custo: **H100 é mais caro que A100;
**• Capacidade: **A100 e H100 são diferentes em poder de computação e memória;
**• Uso de novo hardware: **A adoção do H100 requer ajustes correspondentes no software e no fluxo de trabalho;
**• Risco: ** Existem mais riscos desconhecidos na definição de H100;
**• SOFTWARE OTIMIZADO: **Alguns softwares foram otimizados para o A100.
No geral, apesar do desempenho superior do H100, há momentos em que faz sentido escolher o A100,** o que torna a atualização do A100 para o H100 não uma decisão fácil com muitos fatores a serem considerados. **
Na verdade, o A100 se tornaria o V100 que é hoje em alguns anos. Considerando as restrições de desempenho, acho que quase ninguém treinará o LLM no V100 agora. Mas o V100 ainda está sendo usado para inferência e outras tarefas. Da mesma forma, o preço do A100 pode cair à medida que mais empresas de IA recorrerem ao H100 para treinar novos modelos, mas sempre haverá demanda para o A100, especialmente para inferência.
Acho que isso pode levar a uma inundação de A100s no mercado novamente, já que algumas startups altamente financiadas acabam fechando as portas.
— (Outro) Executivo de Nuvem Privada
Mas, com o tempo, as pessoas usarão o A100 para mais e mais tarefas de inferência, em vez de treinar os modelos maiores e mais recentes. **O desempenho do V100 não pode mais suportar o treinamento de modelos grandes, e as placas gráficas de alta memória são mais adequadas para modelos grandes; portanto, as equipes de ponta preferem H100 ou A100.
A principal razão para não usar o V100 é a falta de tipos de dados brainfloat16 (bfloat16, BF16). Sem esse tipo de dados, é difícil treinar modelos facilmente. A principal razão para o baixo desempenho de OPT e BLOOM é a ausência desse tipo de dados (OPT foi treinado em float16, BLOOM foi principalmente prototipagem feita em FP16, o que impossibilitou a generalização dos dados para execuções de treinamento feitas em BF16).
——Pesquisador de Aprendizagem Profunda
**• Qual a diferença entre as GPUs Nvida H100, GH200, DGX GH200, HGX H100 e DGX H100? **
• H100 = 1x GPU H100;
• HGX H100 = Plataforma de referência do servidor NVIDIA. Usado por OEMs para construir servidores 4-GPU ou 8-GPU, fabricados por OEMs terceirizados, como a Supermicro;
• DGX H100 = servidor NVIDIA H100 oficial com 8x H100, NVIDIA é seu único fornecedor;
• GH200 = 1x GPU H100 mais 1x CPU Grace;
• DGX GH200 = 256x GH200, chegando no final de 2023, provavelmente apenas da NVIDIA;
• MGX para grandes empresas de computação em nuvem.
Destes, a maioria das empresas optou por comprar o 8-GPU HGX H100 em vez dos servidores DGX H100 ou 4-GPU HGX H100.
**Quanto custam essas GPUs separadamente? **
1x DGX H100 (SXM) com 8x H100 GPUs custa $ 460.000, incluindo serviços de suporte necessários, etc., cerca de $ 100.000. As startups podem obter um desconto inicial de cerca de $ 50.000 para até 8 caixas DGX H100, para um total de 64 H100s.
As especificações específicas da GPU são as seguintes:
1x HGX H100 (SXM) com 8x H100 GPUs pode custar entre $ 300.000-380.000, dependendo das especificações (rede, armazenamento, memória, CPU) e margens do fornecedor e níveis de suporte. Se as especificações forem exatamente as mesmas do DGX H100, as empresas podem pagar um preço mais alto de US$ 360.000 a US$ 380.000, incluindo suporte.
1x HGX H100 (PCIe) com 8x H100 GPUs custa aproximadamente US$ 300.000 incluindo suporte, dependendo das especificações.
O preço de mercado de uma placa PCIe é de cerca de US$ 30.000 a US$ 32.000.
As placas gráficas SXM não são vendidas como placas únicas, portanto, o preço é difícil. Geralmente vendido apenas como servidores 4GPU e 8GPU.
Cerca de 70-80% da demanda no mercado é para SXM H100, e o restante é para PCIe H100. A demanda pelo segmento SXM está aumentando, já que apenas placas PCIe estavam disponíveis nos meses anteriores. Dado que a maioria das empresas está comprando 8GPU HGX H100s (SXMs), isso representa cerca de US$ 360.000 a US$ 380.000 por 8 H100s, incluindo outros componentes do servidor.
DGX GH200 contém 256x GH200, e cada GH200 contém 1x H100 GPU e 1x Grace CPU. Segundo estimativas, o custo do DGX GH200 pode estar entre 15 milhões e 25 milhões de dólares americanos.
**Qual é a demanda do mercado por GPU? **
• O treinamento GPT-4 pode ser feito em 10.000 a 25.000 folhas A100;
• Meta tem cerca de 21.000 A100s, Tesla tem cerca de 7.000 A100s e Stability AI tem cerca de 5.000 A100s;
• O treinamento do Falcon 40B foi realizado em 384 A100s;
• A inflexão usa 3500 folhas H100 em seu modelo equivalente GPT-3.5.
Teremos 22.000 GPUs em uso até dezembro e mais de 3.500 unidades em uso hoje.
— Mustafa Suleyman, CEO, Inflection AI
**De acordo com Elon Musk, o treinamento GPT-5 pode usar 30.000-50.000 H100. **Morgan Stanley propôs em fevereiro de 2023 que o GPT-5 usaria 25.000 GPUs, e eles também propuseram na época que o GPT-5 já estava em treinamento, mas Sam Altman posteriormente negou isso em maio deste ano, dizendo que o OpenAI não treinou GPT-5, então as informações do Morgan Stanley podem não ser precisas.
O GCP tem cerca de 25.000 H100s e o Azure pode ter de 10.000 a 40.000 H100s. Deve ser semelhante para o Oracle. Além disso, a maior parte da capacidade do Azure será provisionada para OpenAI.
A CoreWeave mantém aproximadamente 35.000 a 40.000 H100s, mas isso é baseado em pedidos, não em reais.
**Quantos H100 a Startup encomendou? **Se usado para tarefa de ajuste fino de LLM, geralmente dezenas ou centenas de folhas são solicitadas; se usado para treinamento de LLM, milhares de folhas são necessárias.
**Quanto H100 uma empresa do setor LLM pode precisar? **
• OpenAI pode precisar de 50.000, Inflection pode precisar de 24.000 e Meta pode precisar de 25.000 (também há ditados de que Meta realmente precisa de 100.000 ou mais);
• Grandes provedores de serviços em nuvem, como Azure, Google Cloud, AWS e Oracle, podem precisar de 30.000 cada um;
• Provedores de serviços de nuvem privada, como Lambda e CoreWeave, e outras nuvens privadas podem chegar a 100.000;
• Anthropic, Helsing, Mistral, Character podem custar 10k cada.
Os números acima são estimativas e suposições, e alguns deles podem ser contados duas vezes, como clientes que alugam a nuvem. **Em geral, de acordo com os cálculos atuais, o número de H100s é de cerca de 432.000. Se calculado em cerca de US$ 35.000 cada, esta é uma GPU com um valor total de cerca de US$ 15 bilhões. Além disso, o número de 432.000 não inclui empresas chinesas como ByteDance (TikTok), Baidu e Tencent, que exigem muitos H800s. **
Além disso, algumas empresas financeiras também estão implantando A100/H100 variando de centenas a milhares: como Jane Street, JP Morgan, Two Sigma e Citadel.
**Como isso se compara à receita do data center da NVIDIA? **Receita de data center da NVIDIA de US$ 4,28 bilhões de fevereiro a abril de 2023. Entre 25 de maio e julho de 2023, a receita do data center pode ficar em torno de US$ 8 bilhões. **Isso se baseia principalmente na suposição de que a orientação de receita mais alta da NVIDIA para o trimestre se deve principalmente a receitas mais altas de data center, em vez de receitas mais altas de outras áreas de negócios. **
Portanto, pode levar algum tempo para que a escassez de oferta diminua. Mas é possível que a escassez de poder de computação tenha sido exagerada. Em primeiro lugar, a maioria das empresas não compra todo o H100 de que precisa imediatamente, mas atualiza gradualmente; além disso, a NVIDIA também está aumentando ativamente a capacidade de produção.
Ter 400.000 H100s no mercado como um todo não está fora de alcance, especialmente considerando que todos estão implantando H100s de 4 ou 5 dígitos em grande número atualmente.
—— Um executivo de nuvem privada
Resumir
• A maioria dos grandes CSPs (Azure, AWS, GCP e Oracle) e nuvens privadas (CoreWeave, Lambda e vários outros) preferem mais GPUs H100 do que apenas poder acessá-los, a maioria das grandes ofertas de IA A empresa também está buscando mais GPUs H100 .
• Normalmente, essas empresas desejam um chassi HGX H100 de 8GPU com placas SXM. Dependendo das especificações e do suporte, cada servidor 8GPU custa aproximadamente US$ 3 a 4 milhões. Pode haver excesso de demanda por centenas de milhares de GPUs H100, com um valor total de mais de US$ 15 bilhões;
• Com oferta limitada, a NVIDIA poderia ter aumentado os preços para encontrar um preço de equilíbrio de mercado e, até certo ponto, o fez. Em suma, a decisão final sobre como alocar a GPU H100 depende de quais clientes a própria NVIDIA prefere alocá-la.
03.H100 Análise do lado da oferta
** Gargalo da TSMC **
Os H100s são produzidos pela TSMC (TSMC), **A NVIDIA pode escolher outras fábricas de chips para produzir mais H100s? Pelo menos ainda não. **
A NVIDIA cooperou com a Samsung no passado, mas a Samsung não conseguiu atender às suas necessidades de GPUs de ponta, portanto, atualmente, a NVIDIA só pode usar GPUs H100s e outras GPUs de 5 nm produzidas pela TSMC. **Talvez no futuro a NVIDIA coopere com a Intel ou continue a cooperar com a Samsung em tecnologias relacionadas, mas nenhuma dessas situações acontecerá no curto prazo, portanto, a escassez de oferta do H100 não será aliviada. **
A tecnologia de 5 nanômetros (N5) da TSMC entrará em produção em massa em 2020. A tecnologia N5 é a segunda tecnologia de processo EUV da TSMC, oferecendo velocidade mais rápida e menor consumo de energia do que a tecnologia N7 anterior. Além disso, a TSMC também planeja lançar a tecnologia de 4 nanômetros (N4), que é uma versão aprimorada da tecnologia N5 que melhorará ainda mais o desempenho e o consumo de energia, e planeja iniciar a produção em massa em 2022.
O H100 é produzido com base no processo TSMC 4N, que pertence ao 5nm aprimorado na série 5nm, não ao processo real de 4nm. **Além da NVIDIA, a Apple também está usando essa tecnologia, mas eles mudaram principalmente para o N3 e mantiveram a maior parte da capacidade do N3. **Além disso, Qualcomm e AMD são grandes clientes da série N5.
O A100 usa o processo N7 da TSMC.
7 nanômetros (N7) é o nó de processo que a TSMC colocará em produção em massa em 2019. Com base no N7, a TSMC também introduziu o processo N7+, que é um processo de fabricação de 7 nm usando EUV (litografia ultravioleta extrema), que aumenta a densidade do transistor em 15% a 20%, reduzindo o consumo de energia do chip.
Geralmente, a capacidade do processo front-end (Fab Capacity) será planejada com mais de 12 meses de antecedência. É apontado que a TSMC e seus principais clientes planejarão em conjunto a demanda de produção para o próximo ano, então a atual escassez de oferta do H100 se deve em parte ao julgamento incorreto da TSMC e da NVIDIA sobre a demanda do H100 deste ano no ano anterior.
Capacidade fabulosa:
No fluxo do processo do chip semicondutor, Fab é a abreviatura de FABRICATION (processing, manufacturing) e Fab Capacity pode ser considerado como capacidade de capacidade.
Segundo outra fonte, normalmente demora 6 meses para que o H100 seja vendido aos clientes (produção, embalagem e testes) desde o início da produção, mas essa situação ainda não foi confirmada.
Um profissional aposentado da indústria de semicondutores apontou que a capacidade de produção de wafer não é o gargalo do TSMC, mas o verdadeiro gargalo está no já mencionado CoWoS (empilhamento tridimensional).
CoWoS (Chip no wafer no substrato, empilhamento tridimensional):
É uma tecnologia de produção integrada 2.5D da TSMC. Primeiro, o chip é conectado ao wafer de silício por meio do processo de embalagem CoW (Chip on Wafer) e, em seguida, o chip CoW é conectado ao substrato (Substrate) e integrado ao CoWoS .
De acordo com o DigiTimes, a TSMC começou a expandir sua capacidade de produção de CoWoS e planeja aumentar a capacidade de produção de CoWoS de 8.000 wafers por mês para 11.000 wafers por mês até o final de 2023 e para cerca de 14.500 a 16.600 wafers por mês até o final de 2024. Grandes gigantes da tecnologia, como NVIDIA, Amazon, Broadcom, Cisco e Xilinx, aumentaram a demanda por embalagens CoWoS avançadas da TSMC.
Memória H100
**Memory Type (Memory Bype), Memory Bus Width (Memory Bus Width) e Memory Clock Speed (Memory Clock Speed) afetam conjuntamente a largura de banda da memória da GPU. **A NVIDIA projetou a largura do barramento e a velocidade do clock do H100 como parte da arquitetura da GPU. A memória HBM3 é usada principalmente no H100 SXM e o HBM2e é usado principalmente no H100 PCIe.
HBM é difícil de produzir e a oferta é muito limitada, então produzir HBM é um pesadelo. Mas uma vez que o HBM é produzido, o resto do projeto torna-se fácil.
——Pesquisador de Deepl Learning
**Tipo de memória, largura do barramento de memória e velocidade do clock da memória são três indicadores importantes da memória do computador. **
Largura do barramento de memória:
Refere-se à largura do canal de transmissão de dados entre o módulo de memória e a placa-mãe. Uma largura de barramento de memória maior pode fornecer um caminho de dados maior, aumentando assim a velocidade de transmissão de dados entre a memória e o processador.
Velocidade do clock da memória:
Refere-se à frequência de clock de trabalho do módulo de memória. Uma velocidade de clock de memória mais alta significa que a memória pode executar operações de leitura e gravação mais rapidamente e fornecer uma velocidade de transmissão de dados mais alta.
HBM (memória de alta largura de banda):
É uma tecnologia de memória de alta largura de banda usada para fornecer velocidades rápidas de acesso à memória em unidades de processamento gráfico (GPUs) e outros dispositivos de computação de alto desempenho. A tecnologia de memória usada em placas gráficas tradicionais e dispositivos de computação geralmente é baseada no design GDDR (Graphics Double Data Rate), que possui um certo equilíbrio entre desempenho e consumo de energia. A tecnologia HBM alcança maior largura de banda e menor consumo de energia colocando pilhas de memória em chips GPU e empilhando vários chips DRAM juntos por meio de conexões verticais de alta velocidade (TSVs).
Para a memória HBM3, a NVIDIA pode usar todos ou principalmente SK Hynix. Não é certo se o H100 da NVIDIA usa a memória da Samsung, mas é certo que a NVIDIA atualmente não usa a memória da Micron.
No que diz respeito ao HBM3, de um modo geral, a SK Hynix tem a maior produção, seguida pela Samsung, e a terceira Micron classificada tem uma grande diferença de produção com as duas primeiras. Parece que a SK Hynix aumentou a produção, mas a NVIDIA ainda quer que eles produzam mais, enquanto a Samsung e a Micron ainda não conseguiram aumentar a produção.
**O que mais é usado na fabricação de GPUs? **
Além disso, a produção de GPU também envolverá muitos materiais e peças metálicas. A escassez de matéria-prima nesses links também causará gargalos no fornecimento de GPU, como:
**• Metais e produtos químicos: **Inclui silício (metalóides) como cobre, tântalo, ouro, alumínio, níquel, estanho, índio e paládio, que são utilizados em várias etapas da produção, desde a fabricação da rodada de silício até a montagem final da GPU , como silício, terras raras, etc.;
**• Componentes e materiais de embalagem: **Como substratos, esferas e fios de solda, compostos de dissipação de calor, etc., que são usados para completar a montagem e ligação de vários componentes da GPU e são críticos para a operação da GPU GPU;
**• Consumo de energia:**Devido ao uso de equipamentos mecânicos de alta precisão durante o processo de fabricação dos chips GPU, é necessária uma grande quantidade de eletricidade.
**Como a NVIDIA está lidando com a escassez do H100? **
A NVIDIA revelou que aumentará o fornecimento no segundo semestre deste ano. O CFO da NVIDIA disse no relatório financeiro que a empresa está fazendo o possível para resolver o problema de fornecimento, mas fora isso, eles não transmitiram mais informações, nem eles têm quaisquer números específicos relacionados ao H100. .
"Estamos trabalhando em nossos problemas de abastecimento para o trimestre, mas também compramos muito estoque para o segundo semestre do ano."
"Acreditamos que a oferta no segundo semestre será significativamente maior do que no primeiro semestre."
-- Colette Kress, CFO da Nvidia, na teleconferência de resultados de fevereiro a abril de 2023
Um executivo de uma empresa de nuvem privada acredita que **um círculo vicioso pode surgir no mercado a seguir, ou seja, a escassez faz com que a capacidade da GPU seja considerada um fosso para empresas de IA, o que leva a mais acúmulo de GPU, o que, por sua vez, agrava ainda mais a escassez de GPUs. **
De acordo com o intervalo histórico entre o lançamento de diferentes arquiteturas pela NVIDIA, o modelo de próxima geração do H100 pode não ser lançado até o final de 2024 (meados de 2024 a início de 2025). Antes disso, o H100 sempre será o produto de nível superior da GPU NVIDIA (GH200 e DGX GH200 não são contados, eles não são GPU puros e ambos usam o H100 como GPU).
Além disso, espera-se que haja uma versão de 120 GB com memória maior no futuro.
04. Como obter H100
Vendedor de H100
Fabricantes de equipamentos originais (OEMs), como Dell, HPE, Lenovo, Supermicro e Quanta, estão vendendo o H100 e o HGX H100, enquanto o pedido do InfiniBand precisa ser feito por meio da NVIDIA Mellanox.
Mellanox é um dos principais fornecedores globais de InfiniBand. Em 2015, a participação da Mellanox no mercado global de IB atingiu 80%. Em 2019, a NVIDIA adquiriu a Mellanox por US$ 125 por ação, totalizando um valor de transação de aproximadamente US$ 6,9 bilhões. Essa aquisição permite que a NVIDIA expanda ainda mais sua participação no mercado de computação de alto desempenho e data centers, além de fortalecer a competitividade da NVIDIA no campo de IA.
Combinando a tecnologia de interconexão de alta velocidade da Mellanox com os aceleradores de GPU da NVIDIA, a NVIDIA pode fornecer centros de dados com maior largura de banda e soluções de menor latência. Além da Mellanox, a tecnologia IB da QLogic, outro fornecedor na área de IB, foi adquirida pela Intel Corporation em 2012.
Nuvens de GPU como CoreWeave e Lambda compram GPUs de OEMs e as alugam para Startups. Os players de nuvem de hiperescala (Azure, GCP, AWS, Oracle) podem comprar mais diretamente com a NVIDIA, mas às vezes também trabalham com OEMs.
Para DGX, a compra também é feita via OEM. Embora os clientes possam se comunicar com a NVIDIA sobre os requisitos de compra, a compra é feita por OEM em vez de fazer um pedido de compra diretamente com a NVIDIA.
Os prazos de entrega para os servidores 8 GPU HGX são terríveis e os servidores 4 GPU HGX são muito bons, mas a realidade é que todo mundo quer servidores 8 GPU.
**• Quanto tempo leva desde o pedido até a implantação do H100? **
A implantação é um processo em fases. Digamos que um pedido de 5.000 GPUs, eles podem obter acesso a 2.000 ou 4.000 GPUs em 4 a 5 meses e, em seguida, as GPUs restantes em 6 meses ou mais.
Para Startup, se você deseja comprar uma GPU, não faça um pedido de um OEM ou revendedor. Eles geralmente escolhem serviços de nuvem pública, como Oracle, ou alugam direitos de acesso a nuvens privadas, como Lambda e CoreWeave, ou use serviços como FluidStack e OEMs e provedores que trabalham com data centers alugam acesso.
**• A empresa deve construir seu próprio data center ou colocation? **
Para o estabelecimento de um data center, os fatores que precisam ser considerados incluem o tempo para estabelecer o data center, se há talentos e experiência em hardware e a escala de investimento de capital.
Alugar e hospedar um servidor é muito mais fácil. Se você deseja construir seu próprio data center, precisa instalar uma linha de fibra escura até seu local para se conectar à Internet, e o custo da fibra é de US$ 10.000 por quilômetro. Durante o boom da Internet, a maior parte da infraestrutura já estava construída e paga. Agora, você pode apenas alugar, e é bem barato.
—— Um executivo de nuvem privada
Escolher alugar ou construir um data center é uma decisão ou uma ou outra. De acordo com as necessidades reais, as empresas podem ter as seguintes opções diferentes:
Nuvem sob demanda: use exclusivamente serviços de nuvem para locação;
Nuvem reservada;
Hospedagem (adquirir um servidor, cooperar com um provedor para hospedar e gerenciar o servidor);
Auto-hospedagem (comprar e hospedar você mesmo um servidor).
A maioria das startups que precisam de muito H100 optarão por nuvem reservada ou colocation.
**Como as empresas escolhem uma empresa de serviços em nuvem? **
Há uma visão de que a infraestrutura da Oracle não é tão confiável quanto as três principais nuvens, mas ela está disposta a dedicar mais tempo ao suporte técnico ao cliente. Alguns praticantes de empresas de nuvem privada disseram que 100% deles terão um grande número de clientes insatisfeitos com os serviços baseados em Oracle, e alguns CEOs de outras empresas acreditam que os recursos de rede da Oracle são mais fortes.
**Geralmente, o Startup selecionará a empresa com a combinação mais forte de suporte de serviço, preço e capacidade. **
As principais diferenças entre várias grandes empresas de serviços em nuvem são:
**• Rede: **A AWS e o Google Cloud foram mais lentos para adotar o InfiniBand, pois têm suas próprias abordagens, mas a maioria das startups que procuram grandes clusters A100/H100 estão procurando o InfiniBand;
**• Disponibilidade: **Por exemplo, a maior parte do poder de computação H100 do Azure é usada pelo OpenAI, o que significa que pode não haver muito poder de computação disponível para outros clientes.
**Embora não haja base factual, há especulações de que a NVIDIA está mais inclinada a priorizar o fornecimento de GPU para provedores de serviços em nuvem que não desenvolveram chips de aprendizado de máquina concorrentes. **Todos os três principais provedores de serviços em nuvem estão atualmente desenvolvendo seus próprios chips de aprendizado de máquina, mas as alternativas NVIDIA da AWS e do Google já estão no mercado e roubando parte da participação de mercado da NVIDIA. Isso também levou a algumas especulações do mercado de que a NVIDIA está mais disposta a cooperar com a Oracel por causa disso.
Algumas das grandes empresas de nuvem têm preços melhores do que outras. Como observou um executivo de nuvem privada, "por exemplo, o A100 no AWS/AZURE é muito mais caro que o GCP".
A Oracle me disse que terá "dezenas de milhares de H100s" em serviço ainda este ano. Mas em termos de preços, eles são mais altos do que outras empresas. Eles não me deram preços para o H100, mas para o A100 80GB, eles me cotaram perto de US $ 4/hora, o que é quase 2x mais do que o GCP estava cotando, e com o mesmo consumo de energia e esforço.
Nuvens menores têm uma vantagem em termos de preços, exceto em alguns casos em que uma das grandes empresas de nuvem pode fazer um negócio estranho em troca de ações.
Então, no geral, em termos de proximidade da cooperação com NVIDIA, Oracle e Azure > GCP e AWS, mas isso é apenas um palpite.
A Oracle foi pioneira nos A100s e hospedou clusters baseados em Nvidia em parceria com a Nvidia, que também é cliente do Azure.
**• Qual grande empresa de nuvem tem o melhor desempenho de rede? **
Azure, CoreWeave e Lambda usam InfiniBand. O desempenho de rede da Oracle é bom em 3200 Gbps, mas usa Ethernet em vez de InfiniBand e pode ser cerca de 15 a 20% mais lento que o IB para casos de uso como treinamento LLM de alto parâmetro. As redes da AWS e GCP não são tão boas.
**• Como as empresas escolhem os serviços de nuvem atualmente? **
Dados estatísticos de 15 empresas mostram que todas as 15 empresas pesquisadas escolherão AWS, GCP ou Azure, e a Oracle não está entre elas.
A maioria das empresas tende a usar sua nuvem existente. Mas para equipes empreendedoras, suas escolhas são mais baseadas na realidade: quem pode fornecer poder de computação escolherá qualquer um.
**• Com quem a NVIDIA está trabalhando no DGX Cloud? **
"A Nvidia está fazendo parceria com os principais provedores de serviços em nuvem para hospedar a DGX Cloud Infrastructure, começando com a Oracle Cloud Infrastructure" - venda com a Nvidia, mas alugue por meio de provedores de nuvem existentes (primeiro com a Oracle, depois com o Azure, seguido pelo Google Cloud, que não funcionou com AWS).
O CEO da NVIDIA, Jensen Huang, disse na teleconferência de resultados da NVIDIA que "a combinação ideal é 10% NVIDIA DGX cloud e 90% CSP cloud".
• A programação H100 dos gigantes da nuvem:
CoreWeave foi um dos primeiros. Como investidora da CoreWeave e para fortalecer a concorrência entre as grandes empresas de nuvem, a NVIDIA foi a primeira a concluir a entrega da CoreWeave.
A programação H100 de outras empresas de serviços em nuvem é a seguinte:
• O Azure anunciou a disponibilidade do H100 para visualização em 13 de março;
• A Oracle anunciou fornecimento limitado de H100 em 21 de março;
• A Lambda Labs anunciou em 21 de março que lançará o H100 no início de abril;
• A AWS anunciou em 21 de março que o H100 estará em pré-visualização em algumas semanas;
• O Google Cloud anunciou o início da visualização privada do H100 em 10 de maio.
**• Quais serviços de nuvem as diferentes empresas estão usando? **
• OpenAI: Azure
• Inflexão: Azure e CoreWeave
• Anthropic: AWS e Google Cloud
• Cohere: AWS e Google Cloud
• Rosto Abraços: AWS
• IA de estabilidade: CoreWeave e AWS
• Character.ai: Google Cloud
• X.ai: Oráculo
• NVIDIA: Azure
**Como obter mais cota de GPU? **
O gargalo final é se a distribuição do poder de computação pode ser obtida da NVIDIA.
**• Como a NVIDIA seleciona os clientes? **
A NVIDIA geralmente aloca um certo número de GPUs para cada cliente, e neste processo **A NVIDIA está mais preocupada com "quem é o cliente final", por exemplo, o Azure disse "queremos comprar 10.000 H100s para suportar o Inflection" , e o resultado correspondente ao Azure dizendo "Compramos 10.000 H100s para o Azure" é diferente. **Se a NVIDIA estiver interessada em um determinado cliente final, é possível que a empresa de nuvem obtenha cota de GPU adicional. Portanto, a NVIDIA espera saber o máximo possível quem são os clientes finais, e eles estarão mais inclinados a grandes empresas ou startups com fortes endossos.
Sim, parece ser o caso. A Nvidia gosta de dar acesso à GPU para startups de IA (muitas das quais têm laços estreitos com a Nvidia). A Inflection, uma empresa de IA investida pela Nvidia, está testando um enorme cluster H100 no CoreWeave.
—— Um executivo de nuvem privada
Se uma determinada empresa de nuvem trouxer um cliente final para a NVIDIA e expressar que está pronta para comprar uma certa quantidade de H100, e a NVIDIA estiver interessada nesse cliente final, a NVIDIA geralmente fornecerá uma determinada cota, o que na verdade aumentará o valor que a NVIDIA aloca para o cliente final A capacidade total da empresa de nuvem, porque essa alocação é independente da cota originalmente dada à empresa de nuvem pela NVIDIA.
A alocação de grande capacidade da NVIDIA para nuvens privadas é um caso especial: **CoreWeave tem mais H100s do que GCP. A NVIDIA reluta em alocar recursos significativos para empresas que tentam competir diretamente com ela (AWS Inferentia e Tranium, Google TPUs, Azure Project Athena). **
Mas, no final das contas, se você enviar um pedido de compra e dinheiro para a NVIDIA, se comprometer com um acordo maior com mais financiamento inicial e indicar seu perfil de baixo risco, certamente obterá mais cota de GPU do que qualquer outra pessoa.
05. Resumo
Embora, como disse Sam Altman, "a era de usar modelos grandes esteja chegando ao fim", por enquanto ainda estamos limitados pela GPU. Por um lado, empresas como a OpenAI já possuem excelentes produtos PMF como o ChatGPT, mas por serem limitadas por GPUs, precisam adquirir uma grande quantidade de poder de computação. Por outro lado, muitas equipes estão trabalhando na possibilidade de participar em LLM no futuro Hoarding GPUs, independentemente de seu potencial para criar algo como ChatGPT.
Mas não há dúvida de que o direito de palavra da NVIDIA não será abalado.
Nesse estágio, o melhor produto LLM que o PMF faz é o ChatGPT. O exemplo a seguir usa o ChatGPT para explicar por que há escassez de GPUs:
Como o ChatGPT é tão popular entre os usuários, seu ARR (receita recorrente anual) pode exceder 500 milhões de dólares americanos;
ChatGPT é executado na API de GPT-4 e GPT-3.5;
As APIs do GPT-4 e GPT-3.5 requerem uma GPU para serem executadas, e um grande número de GPUs é necessário. A OpenAI espera liberar mais funções para o ChatGPT e sua API, mas isso não pode ser realizado devido ao número limitado de GPUs;
OpenAI comprou um grande número de GPUs NVIDIA através da Microsoft (Azure);
Para fabricar a GPU H100 SXM, a NVIDIA usa TSMC para fabricação e usa a tecnologia de embalagem CoWoS da TSMC e HBM3 principalmente da SK Hynix.
Além da OpenAI, existem muitas empresas no mercado que estão treinando seus próprios modelos grandes. Vamos deixar de lado quantas bolhas existem no LLM e qual a probabilidade de produtos PMF aparecerem no final, mas, em geral, a concorrência do LLM tem aumentou a demanda do mercado por GPUs. Além disso, existem algumas empresas que, mesmo que não precisem de GPUs por enquanto, começarão a estocá-las com antecedência porque estão preocupadas com o futuro. Então é como "a expectativa de um déficit de oferta exacerba o déficit de oferta"**.
Portanto, outra força que impulsiona a demanda por GPUs são as empresas que desejam criar novos LLMs ou participar da IA no futuro:
A importância dos grandes modelos tornou-se um consenso: se é uma empresa madura, espera treinar o LLM em seus próprios dados e espera que traga mais valor comercial; como uma empresa iniciante, espera construir sua possuir LLM e transformá-lo em valor comercial. A GPU é necessária apenas para treinar modelos grandes;
Comunicação entre essas empresas e grandes fornecedores de nuvem (Azure, Google Cloud, AWS), tentando obter H100 suficiente;
Durante o processo, eles descobriram que os fornecedores de nuvem não tinham H100 suficiente para alocar, e alguns fornecedores de nuvem também tinham configurações de rede defeituosas, então CoreWeave, Oracle, Lambda e FluidStack também compraram GPUs e as possuem, talvez eles também discutam com OEM e NVIDIA;
No final, eles conseguiram muitas GPUs;
Agora, eles estão tentando adequar seu produto ao mercado;
Caso ainda não tenha ficado claro, o caminho não é fácil - lembre-se de que a OpenAI alcançou o ajuste do produto ao mercado em um modelo menor e depois o ampliou. Mas agora, para alcançar o ajuste do produto ao mercado, você precisa se adequar ao caso de uso do usuário melhor do que o modelo do OpenAI; portanto, para começar, você precisa de mais GPUs do que o OpenAI.
**Pelo menos até o final de 2023, haverá escassez de empresas implantando centenas ou milhares de H100s, talvez até o final de 2023, a situação ficará mais clara, mas parece que a escassez de GPUs pode continuar até 2024. **
Referência
Comentário de um fundador de startup de LLMs para empresas personalizado
Mensagem de um em um provedor de nuvem
Conversas com s em empresas de nuvem e provedores de GPU
Teleconferência de resultados do primeiro trimestre de 2023 da Tesla (cobre 1º de janeiro de 2023 a 31 de março de 2023)
Um comentário de um em uma empresa de nuvem
Uma estimativa aproximada de uma empresa de nuvem
︎