Análisis de oferta y demanda de H100: ¿Cuánto durará la guerra de chips?

Autor: Clay Pascal

Compilado por: wenli, Lavida, yunhao

Recomendado por: Jaula, Huaiwei

Fuente: Unicornios en el extranjero

Fuente de la imagen: Generada por Unbounded AI

El avance de los modelos grandes se basa en la mejora de la potencia informática del hardware y las capacidades de computación en la nube.NVIDIA H100, considerada como la "bomba nuclear" de GPU, se enfrenta a la escasez más grave de la historia. Sam Altman declaró directamente que la escasez de GPU limita la velocidad de las actualizaciones tecnológicas de OpenAI en términos de ajuste fino, capacidad dedicada, ventanas de contexto de 32K y multimodalidad.

Este artículo está compilado de GPU Utils. El autor analiza principalmente cuánto durarán las GPU (especialmente NVIDIA H100) desde la perspectiva de la oferta y la demanda.

Desde el punto de vista de la demanda, NVIDIA H100 es sin duda una demanda rígida para entrenar modelos grandes. Según estimaciones, la demanda actual de H100 en el mercado es de unas 432.000 hojas, lo que equivale a un valor total de unos 35.000 dólares estadounidenses por hoja. Con una GPU de 15.000 millones de dólares**, la cifra de 432.000 no incluye empresas como ByteDance (TikTok), Baidu y Tencent que necesitan mucho H800.

Por el lado de la oferta, la escasez de H100 está directamente limitada por la capacidad de producción de TSMC y, a corto plazo, NVIDIA no tiene otras fábricas de chips alternativas. Debido a los envíos limitados, NVIDIA también tiene su propia estrategia sobre cómo asignar estas GPU.Para NVIDIA, es muy importante cómo garantizar que estas GPU limitadas fluyan hacia los caballos oscuros de IA en lugar de competidores potenciales como Google, Microsoft y AWS.

¿Cuánto durará esta carrera armamentista de IA en torno al H100? La respuesta aún no está clara. Aunque NVIDIA dijo que aumentará la oferta en la segunda mitad del año, parece que la escasez de GPU puede continuar hasta 2024.

En torno a la escasez de H100, el mercado puede entrar en un "círculo vicioso": la escasez hace que la capacidad de GPU se considere un foso para las empresas de IA, lo que lleva a un mayor acaparamiento de GPU, lo que intensifica aún más la escasez de GPU.

**El siguiente es el índice de este artículo, y se recomienda leerlo en combinación con los puntos principales. **

👇

01 fondo

02 Análisis de requerimientos para H100

03 H100 Análisis del lado de la oferta

04 Cómo obtener H100

05 Resumen

01.Fondo

Hasta agosto de 2023, el desarrollo del campo de la inteligencia artificial se ha visto limitado por el cuello de botella del suministro de GPU.

"Una de las razones por las que se subestima el auge de la IA es la escasez de GPU/TPU. La escasez de GPU y TPU limita la velocidad de la introducción del producto y el progreso de la capacitación del modelo, pero estas limitaciones están ocultas. Principalmente estamos viendo que el precio de las acciones de NVIDIA se dispara , no se limita el progreso de I + D. Las cosas mejorarán cuando la oferta y la demanda estén equilibradas.

—Adam D'Angelo, director ejecutivo de Quora, Poe.com, ex director de tecnología de Facebook

Estos son los directores ejecutivos y las empresas más importantes para la oferta y la demanda de GPU y la IA

Sam Altman dijo que la escasez de GPU ha limitado el progreso de los proyectos de OpenAI, como el ajuste fino, la capacidad dedicada, las ventanas de contexto de 32K, la multimodalidad, etc.

Los clústeres H100 a gran escala de proveedores de nube pequeños y grandes se están quedando sin capacidad.

"Todo el mundo quiere que NVIDIA fabrique más A/H100".

  • Información de ejecutivos de proveedores de la nube

"Debido a la actual escasez de GPU, es mejor para OpenAI que menos personas usen nuestros productos";

"De hecho, estaríamos felices si la gente usara menos los productos OpenAI porque no tenemos suficientes GPU".

—Sam Altman, director ejecutivo, OpenAI

Por un lado, las palabras de Sam Altman muestran sutilmente que los productos de OpenAI han sido amados por usuarios de todo el mundo, pero al mismo tiempo, también ilustran el hecho de que OpenAI necesita más GPU para promover y actualizar aún más sus funciones.

Azure y Microsoft también enfrentan una situación similar, y una persona anónima mencionó:

• La empresa está restringiendo el uso de GPU por parte de los empleados, y todos tienen que hacer cola para solicitar poder de cómputo como los estudiantes universitarios en la década de 1970 para usar computadoras. Desde mi punto de vista, OpenAI actualmente está absorbiendo todos los recursos de la GPU;

• En junio de este año, la cooperación entre Microsoft y CoreWeave es esencialmente para mejorar la fuente de alimentación informática/GPU de Microsoft.

CoreWeave:

Los proveedores de servicios de energía de computación en la nube, según el sitio web oficial de CoreWeave, sus servicios son un 80% más baratos que los proveedores tradicionales de computación en la nube. En abril de 2023, CoreWeave recibió la inversión de ronda B de NVIDIA y obtuvo una gran cantidad de nuevas tarjetas H100. En junio, Microsoft también firmó un acuerdo con CoreWeave. Microsoft invertirá miles de millones de dólares en los próximos años para la construcción de infraestructura de computación en la nube.

En julio, CoreWeave lanzó el proyecto de supercomputadora de IA más rápido del mundo en asociación con NVIDIA, e Inflection AI creó uno de los modelos de lenguaje a gran escala más complejos del mundo en CoreWeave Cloud utilizando una infraestructura que admite envíos de MLPerf. Además, CoreWeave utilizó la tarjeta aceleradora NVIDIA H100 que tenía en sus manos como garantía y anunció en agosto que había completado una financiación de deuda de 2300 millones de dólares.

En resumen, la oferta de GPU H100 ya es bastante escasa. Incluso hay rumores de que **Azure y GCP prácticamente se están quedando sin capacidad, y AWS se está quedando sin capacidad. **

El motivo de la escasez es que NVIDIA solo suministra una cantidad determinada de GPU H100 a estos proveedores de la nube. Como la salida de la GPU H100 de NVIDIA no puede satisfacer la demanda, la potencia informática que estos proveedores de la nube pueden proporcionar, naturalmente, comenzará a escasear.

Si desea comprender el cuello de botella de la potencia informática, puede concentrarse en las siguientes preguntas:

• ¿Cuáles son las razones específicas de esta situación? :

  • ¿Qué tan grande es la demanda? Por ejemplo, en qué campos la demanda de inteligencia artificial está aumentando con relativa rapidez;

  • ¿Qué tan grande es el suministro? Si la capacidad de producción de los fabricantes de GPU como NVIDIA es suficiente para satisfacer la demanda;

• ¿Cuánto durará esta escasez? ¿Cuándo alcanzarán gradualmente la oferta y la demanda de GPU un punto de equilibrio?

• ¿Cuáles son las formas en que se puede aliviar efectivamente esta escasez?

02.H100 Análisis de requisitos

Analice los problemas clave de los cuellos de botella de potencia informática desde el lado de la demanda:

  1. Específicamente, ¿qué es lo que la gente quiere comprar pero tiene problemas para conseguir?

  2. ¿Qué tan grande es la demanda de GPU en el mercado actual?

  3. ¿Por qué las empresas prefieren NVIDIA H100 a otras GPU?

  4. ¿Qué tipos de GPU hay actualmente en el mercado?

  5. ¿Dónde pueden las empresas comprar GPU? ¿Cuáles son sus precios?

**¿Quiénes son los demandantes de H100? **

Empresas con demanda superior a 1.000 H100 o A100:

LLM de formación de empresas emergentes:

OpenAI (a través de Azure), Anthropic, Inflection (a través de Azure y CoreWeave), Mistral AI;

Proveedores de servicios en la nube (CSP):

Además de los tres gigantes de Azure, GCP y AWS, también hay proveedores de nube de Oracle y GPU como CoreWeave y Lambda;

Otros gigantes tecnológicos:

Por ejemplo, Tesla (**picking note: **Meta, Apple y otros gigantes que el autor original no mencionó aquí también tienen mucha demanda de GPU, Google usa principalmente TPU para procesar cálculos, y la demanda de H100 es principalmente plataforma en la nube de Google).

Además de las empresas anteriores, si la empresa necesita hacer muchos ajustes en LLM, también debe reservar al menos 100 H100 o A100.

Para las empresas que adoptan nubes privadas (CoreWeave, Lambda) y las empresas con cientos o miles de acciones H100, se enfrentan casi principalmente al trabajo de LLM y algunos modelos de difusión (Modelo de difusión). Algunas empresas optan por ajustar los modelos existentes, pero más nuevas empresas de IA están construyendo sus propios modelos grandes desde cero. **Estas empresas normalmente firman contratos con proveedores de servicios de nube privada en el rango de $10-50 millones por 3 años y usan de unos pocos cientos a unos pocos miles de GPU. **

Para las empresas que solo usan una pequeña cantidad de GPU H100 bajo demanda, las tareas relacionadas con LLM constituyen una gran parte de su uso de GPU, y LLM puede usar más del 50 % de la GPU.

En la actualidad, las empresas están favoreciendo las nubes privadas y, aunque estas empresas suelen elegir a los grandes proveedores de servicios de nube predeterminados, también corren el riesgo de ser eliminadas.

**• ¿Los grandes laboratorios de IA están más limitados por las tareas de inferencia o las tareas de capacitación? **

Esta pregunta depende de qué tan atractivo sea su producto. En otras palabras, el atractivo de los productos de la empresa es muy importante para determinar la asignación de recursos.En el caso de recursos limitados, las prioridades de razonamiento y capacitación a menudo tienen su propio énfasis. La opinión de Sam Altman es que si se debe hacer una elección, OpenAI está más inclinado a mejorar las capacidades de razonamiento, pero actualmente OpenAI está limitado en ambos aspectos.

Por qué solo se necesita H100 para la capacitación LLM

La mayor parte del mercado actual utiliza GPU NVIDIA H100. Esto se debe a que la GPU H100 es la más rápida en términos de inferencia y entrenamiento de LLM, y también tiene el mejor rendimiento de costos de inferencia. Específicamente, la mayoría de las empresas optan por utilizar el servidor HGX H100 SXM de 8 GPU.

Según mi análisis, para el mismo trabajo, H100 es más ventajoso en términos de costo. La GPU V100 es una buena opción si puede encontrar una unidad usada, pero eso a menudo no es posible.

—— una persona anónima

En términos de inferencia, encontramos que la GPU A10G es más que adecuada y mucho menos costosa.

—— Un ejecutivo de nube privada

Nos dimos cuenta de que Falcon 40b y llama2 70b también se están utilizando mucho, donde esta afirmación ya no es precisa. Por lo tanto, la velocidad de interconexión es muy importante para las tareas de inferencia.

— (Otro) Ejecutivo de Nube Privada

Halcón 40b:

Falcon es un modelo de lenguaje grande básico con 40 mil millones de parámetros, Falcon 40b tiene como objetivo utilizar menos potencia informática de entrenamiento para lograr mejores resultados, el modelo representa solo el 75 % de la informática de entrenamiento GPT-3, el 40 % de Chinchilla y el 80 % de PaLM-62B de entrenamiento. El 25 de mayo de 2023, el Instituto de Innovación Tecnológica de los Emiratos Árabes Unidos anunció que abriría el código Falcon 9 para uso comercial y de investigación. Después de su lanzamiento, una vez encabezó la lista LLM de código abierto Hugging Face.

**• ¿Cuáles son las necesidades comunes de los equipos emprendedores de LLM? **

**Para las empresas emergentes de LLM, a menudo eligen la GPU H100 con InfiniBand de 3,2 Tb/s para la capacitación de LLM. Aunque casi todo el mundo prefiere el H100 en la sesión de formación, en la sesión de inferencia, estas empresas prestan más atención al rendimiento de costes, es decir, el rendimiento creado por dólar. **

Todavía hay algunos problemas con el rendimiento por dólar de las GPU H100 en comparación con la A100, pero las H100 siguen siendo las preferidas debido a su mejor escalabilidad y tiempos de entrenamiento más rápidos, mientras que la velocidad/compresión inicia, entrena o mejora. La sincronización del modelo es fundamental para Inauguración.

"Para el entrenamiento de múltiples nodos, todos requieren una GPU A100 o H100 con red InfiniBand. El único requisito que no es A/H100 que observamos fue para la inferencia, donde la carga de trabajo era una sola GPU o un solo nodo".

—— Un ejecutivo de nube privada

Los principales factores que afectan la formación LLM son:

**• Ancho de banda de la memoria: **Ante una gran cantidad de datos cargados desde la memoria, un mayor ancho de banda de la memoria puede acelerar la carga de datos;

**• Potencia de cálculo del modelo (FLOPS, operaciones de punto flotante por segundo): ** Núcleo tensor o unidad de multiplicación de matriz equivalente, que afecta principalmente a la velocidad de cálculo;

**• Caché y latencia de caché: **La caché puede almacenar datos temporalmente para acceso repetido, lo que tiene un impacto significativo en el rendimiento;

**• Funciones adicionales: **Como FP8 (número de punto flotante de 8 bits), etc., los formatos numéricos de baja precisión pueden acelerar el entrenamiento y la inferencia;

**• Rendimiento informático: ** está relacionado con la cantidad de núcleos GPU CUDA y afecta principalmente la cantidad de tareas que se pueden ejecutar en paralelo;

**• Velocidad de interconexión: **Para un ancho de banda rápido de interconexión entre nodos como InfiniBand, este factor afectará la velocidad del entrenamiento distribuido.

** Se prefiere H100 sobre A100 debido en parte a la latencia de caché más baja de H100 y la capacidad de cómputo FP8. **

El H100 es realmente la primera opción, ya que es hasta 3 veces más eficiente que el A100 pero cuesta solo 1,5 - 2 veces el A100. Cómo considerar el costo de todo el sistema, el rendimiento por dólar del H100 también es mucho mayor, si considera el rendimiento del sistema, el rendimiento por dólar puede ser 4-5 veces mayor.

—— Un investigador de aprendizaje profundo

**¿Por qué es tan importante la precisión numérica? **

Los números de coma flotante de baja precisión pueden mejorar la velocidad de entrenamiento e inferencia. Por ejemplo, FP16 tiene la mitad de la huella de memoria que FP32 y es tres veces más rápido que FP32 en términos de velocidad de cálculo. En el proceso de entrenamiento de LLM, para garantizar el equilibrio entre velocidad y precisión, se utilizan métodos como la precisión mixta y la precisión adaptativa para acelerar modelos de lenguaje grandes. Por lo tanto, el soporte de precisión múltiple es una de las consideraciones importantes para el entrenamiento de modelos de lenguaje grande. Google propuso el formato numérico BFP16, que amplía el rango numérico al tiempo que reduce la precisión, y el rendimiento es mejor que el FP 32.

**• Además de la GPU, ¿cuáles son los vínculos de costos en la capacitación y operación de LLM? **

La GPU es actualmente el componente más costoso en toda la infraestructura de capacitación de LLM, pero otros aspectos del costo no son bajos, lo que también tiene un impacto en los costos operativos y de capacitación de LLM:

  1. La memoria del sistema y los SSD NVMe son costosos: los modelos grandes requieren una gran cantidad de memoria de alta velocidad y SSD de alta velocidad para almacenar en caché y cargar datos, y ambos componentes son costosos;

  2. Las redes de alta velocidad son caras: las redes de alta velocidad como InfiniBand (utilizadas para la comunicación entre nodos) son muy caras, especialmente para entrenamientos grandes y distribuidos.

Tal vez entre el 10 % y el 15 % del costo total de funcionamiento de un clúster se destine a la electricidad y el alojamiento, dividido aproximadamente en partes iguales entre los dos. Los costos de electricidad incluyen electricidad, costos de construcción del centro de datos, costos de terreno y empleados, etc., alrededor del 5% al 8%; los costos de hospedaje incluyen terrenos, edificios, empleados, etc., alrededor del 5% al 10%. **

Nuestra principal preocupación es la red y el centro de datos confiable. AWS no encajaba bien debido a las limitaciones de la red y al hardware poco confiable.

——Investigador de aprendizaje profundo

**• ¿Cómo ayuda la tecnología GPUDirect en la formación LLM? **

GPUDirect de NVIDIA no es necesario para la formación de LLM, pero también puede mejorar el rendimiento:

La tecnología GPUDirect puede mejorar el rendimiento, pero no necesariamente una diferencia supercrítica. Depende principalmente de dónde se encuentre el cuello de botella de su sistema. Para algunas arquitecturas/implementaciones de software, el cuello de botella del sistema no es necesariamente la red. **Pero en el caso de las redes, GPUDirect puede mejorar el rendimiento entre un 10 % y un 20 %, lo cual es un número considerable para los costosos costos de ejecución del entrenamiento. **

No obstante, GPUDirect RDMA ahora es tan omnipresente que su popularidad casi habla por sí misma. Creo que la compatibilidad con GPUDirect es débil para las redes que no son Infiniband, pero la mayoría de los clústeres de GPU optimizados para el entrenamiento de redes neuronales tienen redes/tarjetas Infiniband. El factor más importante para el rendimiento es probablemente NVLink, ya que es más raro que Infiniband, pero también es fundamental si emplea una estrategia de paralelización específica.

Por lo tanto, características como la red potente y GPUDirect pueden hacer que el software menos sofisticado funcione de forma inmediata. Sin embargo, GPUDirect no es estrictamente necesario si se considera el costo o la infraestructura heredada.

—— Un investigador de aprendizaje profundo

GPUDirect:

La tecnología de transmisión de datos llamada GPUDirect Storage (GPUDirect Storage) presentada por NVIDIA se utiliza principalmente para acelerar la transmisión de datos almacenados en varios almacenamientos a la memoria GPU, lo que puede aumentar el ancho de banda de 2 a 8 veces y también puede reducir el final. el retraso hasta el final es de hasta 3,8 veces. En el pasado, la CPU era responsable de cargar datos desde la memoria a la GPU, lo que limitaba en gran medida el rendimiento del hardware.

La ruta estándar para la transferencia de datos desde el disco NVMe a la memoria GPU es usar el búfer de rebote (Bounce Buffer) en la memoria del sistema, que es una copia de datos adicional. El núcleo de la tecnología de almacenamiento GPUDirect es evitar el uso de la memoria caché de rebote para reducir las copias de datos adicionales y utilizar el motor de acceso directo a la memoria (Acceso directo a la memoria, DMA) para colocar los datos directamente en la memoria de la GPU.

**¿Por qué la empresa LLM no puede usar la GPU de AMD? **

Un ejecutivo de una empresa de nube privada dijo que es teóricamente factible comprar GPU AMD, pero toma cierto tiempo desde la compra hasta la operación real del equipo. Entrar al mercado tarde. Por lo tanto, CUDA es el foso actual de NVIDIA.

Un estudio de MosaicML mencionó que las GPU AMD también son adecuadas para tareas de entrenamiento de modelos grandes. Experimentaron con una tarea de entrenamiento simple basada en PyTorch sin ninguna modificación de código en comparación con la ejecución en NVIDIA. Los autores muestran que, siempre que el código base se base en PyTorch, se puede usar directamente en AMD sin necesidad de adaptaciones adicionales. En el futuro, el autor planea verificar el rendimiento del sistema AMD en un clúster informático más grande.

Al mismo tiempo, también existe la opinión de que, considerando que el costo de la capacitación de un modelo es cercano a los 300 millones de dólares estadounidenses, nadie se arriesgará a depender de chips de AMD u otras empresas emergentes a gran escala, especialmente cuando la demanda de chips es alta. del orden de más de 10.000.

Un jubilado de la industria de los semiconductores también mencionó que la situación de suministro de AMD no es optimista y que NVIDIA absorbió la capacidad de producción de CoWoS de TSMC, por lo que aunque MI250 puede ser una alternativa viable, también es difícil de obtener.

H100 VS A100

NVIDIA A100:

La actualización de NVIDIA V100, en comparación con V100, el rendimiento de A100 se ha mejorado 20 veces, lo que es muy adecuado para tareas como IA y análisis de datos. El A100, que consta de 54 000 millones de transistores, integra núcleos Tensor de tercera generación con aceleración para operaciones de matriz dispersa, especialmente útiles para el razonamiento y la capacitación de IA. Además, se pueden aprovechar varias GPU A100 para cargas de trabajo de inferencia de IA más grandes con la tecnología de interconexión NVIDIA NVLink.

NVIDIA H100:

La próxima generación del A100 es el último chip optimizado para modelos grandes. Se basa en la arquitectura Hopper, construida utilizando el proceso de versión personalizada (4N) de 5nm de TSMC, y un solo chip contiene 80 mil millones de transistores. Específicamente, NVIDIA propuso Transformer Engine, que integra múltiples cálculos de precisión y las capacidades de procesamiento dinámico de la red neuronal de Transformer, lo que permite que la GPU H100 reduzca en gran medida el tiempo de entrenamiento del modelo. Basado en H100, NVIDIA también ha lanzado una serie de productos como estaciones de trabajo de aprendizaje automático y supercomputadoras, como 8 H100 y 4 NVLink combinados para formar una GPU gigante: DGX H100.

En comparación con el A100, la velocidad de inferencia de 16 bits del H100 es aproximadamente 3,5 veces más rápida y la velocidad de entrenamiento de 16 bits es aproximadamente 2,3 veces más rápida.

Comparación de velocidades A100 y H100

H100 Capacitación Ministerio de Educación

Aceleración H100 a escala

La mayoría de las personas tiende a comprar el H100 para entrenamiento e inferencia de modelos, y usa el A100 principalmente para inferencia de modelos. Sin embargo, también se pueden considerar los siguientes factores:

**• Costo: **H100 es más caro que A100;

**• Capacidad: **A100 y H100 son diferentes en potencia informática y memoria;

**• Uso de nuevo hardware: **La adopción de H100 requiere los ajustes correspondientes en el software y el flujo de trabajo;

**• Riesgo: ** Hay más riesgos desconocidos al establecer H100;

**• SOFTWARE OPTIMIZADO: **Algún software se ha optimizado para A100.

En general, a pesar del mayor rendimiento del H100, hay momentos en los que tiene sentido elegir el A100**, lo que hace que actualizar del A100 al H100 no sea una decisión fácil con muchos factores a considerar. **

De hecho, el A100 se convertiría en el V100 que es hoy en unos años. Teniendo en cuenta las limitaciones de rendimiento, creo que casi nadie entrenará LLM en V100 ahora. Pero el V100 todavía se usa para inferencias y otras tareas. Del mismo modo, el precio del A100 puede bajar a medida que más empresas de IA recurran al H100 para entrenar nuevos modelos, pero siempre habrá demanda del A100, especialmente para inferencia.

  • Ejecutivo de nube privada

Creo que eso podría conducir a una avalancha de A100 en el mercado nuevamente, ya que algunas nuevas empresas con grandes fondos terminarán quebrando.

— (Otro) Ejecutivo de Nube Privada

Pero con el tiempo, la gente usará el A100 para más y más tareas de inferencia en lugar de entrenar los modelos más recientes y más grandes. **El rendimiento de V100 ya no puede admitir el entrenamiento de modelos grandes, y las tarjetas gráficas de alta memoria son más adecuadas para modelos grandes, por lo que los equipos de vanguardia prefieren H100 o A100.

La principal razón para no usar V100 es la falta de tipos de datos brainfloat16 (bfloat16, BF16). Sin este tipo de datos, es difícil entrenar modelos fácilmente. La razón principal del bajo rendimiento de OPT y BLOOM es la ausencia de este tipo de datos (OPT se entrenó en float16, BLOOM fue principalmente creación de prototipos realizada en FP16, lo que hizo imposible generalizar los datos para las ejecuciones de entrenamiento realizadas en BF16).

——Investigador de aprendizaje profundo

**• ¿Cuál es la diferencia entre las GPU H100, GH200, DGX GH200, HGX H100 y DGX H100 de Nvida? **

• H100 = 1 GPU H100;

• HGX H100 = plataforma de referencia del servidor NVIDIA. Utilizado por OEM para construir servidores de 4 GPU u 8 GPU, fabricados por OEM de terceros como Supermicro;

• DGX H100 = Servidor oficial NVIDIA H100 con 8x H100, NVIDIA es su único proveedor;

• GH200 = 1 GPU H100 más 1 CPU Grace;

• DGX GH200 = 256x GH200, disponible a fines de 2023, probablemente solo de NVIDIA;

• MGX para grandes empresas de computación en la nube.

De estos, la mayoría de las empresas optaron por comprar los servidores HGX H100 de 8 GPU en lugar de los servidores DGX H100 o HGX H100 de 4 GPU.

**¿Cuánto cuestan estas GPU por separado? **

1x DGX H100 (SXM) con 8x GPU H100 cuesta $460 000, incluidos los servicios de soporte requeridos, etc., alrededor de $100 000. Las empresas emergentes pueden obtener un descuento inicial de aproximadamente $ 50,000 por hasta 8 cajas DGX H100, para un total de 64 H100.

Las especificaciones específicas de la GPU son las siguientes:

Especificaciones de la DGX H100

1x HGX H100 (SXM) con 8x GPU H100 puede costar entre $300,000 y $380,000 según las especificaciones (red, almacenamiento, memoria, CPU) y los márgenes del proveedor y los niveles de soporte. Si las especificaciones son exactamente las mismas que las del DGX H100, las empresas pueden pagar un precio más alto de $ 360,000 a $ 380,000, incluido el soporte.

1x HGX H100 (PCIe) con 8x GPU H100 cuesta aproximadamente $ 300,000, incluido el soporte, según las especificaciones.

El precio de mercado de una tarjeta PCIe es de alrededor de $30,000 a $32,000.

Las tarjetas gráficas SXM no se venden como tarjetas individuales, por lo que el precio es difícil. Generalmente solo se venden como servidores 4GPU y 8GPU.

Alrededor del 70-80 % de la demanda en el mercado es para SXM H100 y el resto es para PCIe H100. La demanda del segmento SXM va en aumento, ya que en meses anteriores solo estaban disponibles las tarjetas PCIe. Dado que la mayoría de las empresas están comprando 8GPU HGX H100 (SXM), eso es aproximadamente $ 360,000- $ 380,000 por 8 H100, incluidos otros componentes del servidor.

DGX GH200 contiene 256x GH200, y cada GH200 contiene 1x GPU H100 y 1x CPU Grace. Según las estimaciones, el costo de DGX GH200 puede oscilar entre 15 y 25 millones de dólares estadounidenses.

**¿Cuál es la demanda del mercado de GPU? **

• El entrenamiento de GPT-4 se puede realizar en 10 000 a 25 000 hojas A100;

• Meta tiene alrededor de 21,000 A100, Tesla tiene alrededor de 7,000 A100 y Stability AI tiene alrededor de 5,000 A100;

• El entrenamiento Falcon 40B se realizó en 384 A100;

• Inflection utiliza 3500 hojas H100 en su modelo equivalente GPT-3.5.

Tendremos 22 000 GPU en uso para diciembre y más de 3500 unidades en uso hoy.

— Mustafa Suleyman, director ejecutivo, Inflection AI

**Según Elon Musk, el entrenamiento GPT-5 puede usar 30,000-50,000 H100. **Morgan Stanley propuso en febrero de 2023 que GPT-5 usaría 25 000 GPU, y también propusieron en ese momento que GPT-5 ya estaba en entrenamiento, pero Sam Altman luego lo negó en mayo de este año, diciendo que OpenAI no entrenó GPT-5, por lo que la información de Morgan Stanley puede no ser precisa.

GCP tiene alrededor de 25 000 H100 y Azure puede tener entre 10 000 y 40 000 H100. Debería ser similar para Oracle. Además, la mayor parte de la capacidad de Azure se aprovisionará a OpenAI.

CoreWeave mantiene aproximadamente entre 35 000 y 40 000 H100, pero esto se basa en pedidos, no en datos reales.

**¿Cuántos H100 ordenó Startup? **Si se usa para la tarea de ajuste fino de LLM, generalmente se piden decenas o cientos de hojas; si se usa para capacitación de LLM, se requieren miles de hojas.

**¿Cuánto H100 podría necesitar una empresa del sector LLM? **

• OpenAI puede necesitar 50 000, Inflection puede necesitar 24 000 y Meta puede necesitar 25 000 (también hay dichos de que Meta en realidad necesita 100 000 o más);

• Los grandes proveedores de servicios en la nube, como Azure, Google Cloud, AWS y Oracle, pueden necesitar 30 000 cada uno;

• Los proveedores de servicios de nube privada, como Lambda y CoreWeave, y otras nubes privadas pueden sumar hasta 100 000;

• Anthropic, Helsing, Mistral, Character pueden costar 10k cada uno.

Los números anteriores son estimaciones y conjeturas, y algunos de ellos pueden contarse dos veces, como los clientes que arriendan la nube. **En general, según los cálculos actuales, el número de H100 es de aproximadamente 432 000. Si se calcula en aproximadamente 35 000 USD cada uno, se trata de una GPU con un valor total de aproximadamente 15 000 millones de USD. Además, la cifra de 432 000 no incluye empresas chinas como ByteDance (TikTok), Baidu y Tencent que requieren muchos H800. **

Además, algunas compañías financieras también están implementando A100/H100 que van desde cientos hasta miles: como Jane Street, JP Morgan, Two Sigma y Citadel.

**¿Cómo se compara esto con los ingresos del centro de datos de NVIDIA? **Ingresos del centro de datos de NVIDIA de $4.28 mil millones para febrero-abril de 2023. Entre el 25 de mayo y julio de 2023, los ingresos del centro de datos podrían rondar los $8 mil millones. **Esto se basa principalmente en la suposición de que la previsión de mayores ingresos de NVIDIA para el trimestre se debe principalmente al aumento de los ingresos del negocio del centro de datos en lugar de otras áreas del negocio. **

Por lo tanto, puede tomar algún tiempo para que se resuelva la escasez de suministro. Pero es posible que se haya exagerado la escasez de potencia informática. En primer lugar, la mayoría de las empresas no compran todos los H100 que necesitan de inmediato, sino que los actualizan gradualmente; además, NVIDIA también está aumentando activamente la capacidad de producción.

Tener 400.000 H100 en el mercado en su conjunto no está fuera de nuestro alcance, especialmente teniendo en cuenta que todo el mundo está implementando H100 de 4 o 5 cifras en grandes cantidades en estos días.

—— Un ejecutivo de nube privada

Resumir

• La mayoría de los grandes CSP (Azure, AWS, GCP y Oracle) y las nubes privadas (CoreWeave, Lambda y varias otras) prefieren más GPU H100 que solo poder acceder a ellas, la mayoría de las ofertas de IA más grandes La empresa también busca más GPU H100 .

• Por lo general, estas empresas desean un chasis 8GPU HGX H100 con tarjetas SXM. Dependiendo de las especificaciones y el soporte, cada servidor de 8GPU cuesta aproximadamente $3-4 millones. Puede haber un exceso de demanda de cientos de miles de GPU H100, con un valor total de más de $15 mil millones;

• Con una oferta limitada, NVIDIA podría haber subido los precios para encontrar un precio de equilibrio de mercado, y hasta cierto punto lo hizo. Con todo, la decisión final sobre cómo asignar la GPU H100 depende de a qué clientes prefiere asignarla NVIDIA.

03.H100 Análisis del lado de la oferta

Cuello de botella de TSMC

Los H100 son producidos por TSMC (TSMC), ** ¿NVIDIA puede elegir otras fábricas de chips para producir más H100? Al menos no todavía. **

NVIDIA ha cooperado con Samsung en el pasado, pero Samsung no ha podido satisfacer sus necesidades de GPU de última generación, por lo que actualmente NVIDIA solo puede usar GPU H100s y otras GPU de 5 nm producidas por TSMC. **Tal vez en el futuro, NVIDIA coopere con Intel o continúe cooperando con Samsung en tecnologías relacionadas, pero ninguna de estas situaciones ocurrirá a corto plazo, por lo que la escasez de suministro de H100 no se aliviará. **

La tecnología de 5 nanómetros (N5) de TSMC entrará en producción en masa en 2020. La tecnología N5 es la segunda tecnología de proceso EUV de TSMC, que ofrece una velocidad más rápida y un menor consumo de energía que la tecnología N7 anterior. Además, TSMC también planea lanzar la tecnología de 4 nanómetros (N4), que es una versión mejorada de la tecnología N5 que mejorará aún más el rendimiento y el consumo de energía, y planea comenzar la producción en masa en 2022.

El H100 se produce en base al proceso TSMC 4N, que pertenece a los 5nm mejorados de la serie 5nm, no al proceso real de 4nm. **Además de NVIDIA, Apple también está usando esta tecnología, pero se han movido principalmente a N3 y conservaron la mayor parte de la capacidad de N3. **Además, Qualcomm y AMD son grandes clientes de la serie N5.

El A100 utiliza el proceso N7 de TSMC.

7 nanómetros (N7) es el nodo de proceso que TSMC pondrá en producción en masa en 2019. Sobre la base de N7, TSMC también presentó el proceso N7+, que es un proceso de fabricación de 7 nm que utiliza EUV (litografía ultravioleta extrema), que aumenta la densidad del transistor entre un 15 % y un 20 % y reduce el consumo de energía del chip.

Por lo general, la capacidad del proceso inicial (Capacidad de fábrica) se planificará con más de 12 meses de anticipación. Se señala que TSMC y sus principales clientes planificarán conjuntamente la demanda de producción para el próximo año, por lo que la actual escasez de suministro de H100 se debe en parte al error de cálculo de TSMC y NVIDIA sobre la demanda de H100 de este año en el año anterior.

Capacidad de fábrica:

En el flujo de proceso de chips semiconductores, Fab es la abreviatura de FABRICATION (procesamiento, fabricación), y Fab Capacity puede considerarse como capacidad de capacidad.

Según otra fuente, el H100 suele tardar 6 meses en venderse a los clientes (producción, embalaje y pruebas) desde el inicio de la producción, pero esta situación aún no se ha confirmado.

Un profesional jubilado de la industria de los semiconductores señaló que la capacidad de producción de obleas no es el cuello de botella de TSMC, sino que el cuello de botella real radica en el mencionado CoWoS (apilamiento tridimensional).

CoWoS (chip sobre oblea sobre sustrato, apilamiento tridimensional):

Es una tecnología de producción integrada 2.5D de TSMC. Primero, el chip se conecta a la oblea de silicio a través del proceso de empaquetado CoW (Chip on Wafer), y luego el chip CoW se conecta al sustrato (sustrato) y se integra en CoWoS. .

Según DigiTimes, TSMC ha comenzado a expandir su capacidad de producción de CoWoS y planea aumentar la capacidad de producción de CoWoS de 8000 obleas por mes a 11 000 obleas por mes para fines de 2023, y a alrededor de 14 500 a 16 600 obleas por mes para fines de 2024. Los principales gigantes tecnológicos como NVIDIA, Amazon, Broadcom, Cisco y Xilinx han aumentado la demanda del paquete CoWoS avanzado de TSMC.

Memoria H100

**El tipo de memoria (Memory Bype), el ancho del bus de memoria (ancho del bus de memoria) y la velocidad del reloj de la memoria (velocidad del reloj de la memoria) afectan conjuntamente el ancho de banda de la memoria de la GPU. **NVIDIA diseñó el ancho del bus y la velocidad del reloj del H100 como parte de la arquitectura GPU. La memoria HBM3 se usa principalmente en H100 SXM y HBM2e se usa principalmente en H100 PCIe.

HBM es difícil de producir y la oferta es muy limitada, por lo que producir HBM es una pesadilla. Pero una vez que se produce el HBM, el resto del diseño se vuelve fácil.

——Un investigador de Deepl Learning

**El tipo de memoria, el ancho del bus de memoria y la velocidad del reloj de la memoria son tres indicadores importantes de la memoria de la computadora. **

Ancho del bus de memoria:

Se refiere al ancho del canal de transmisión de datos entre el módulo de memoria y la placa base. Un ancho de bus de memoria más amplio puede proporcionar una ruta de datos más grande, lo que aumenta la velocidad de transmisión de datos entre la memoria y el procesador.

Velocidad del reloj de la memoria:

Se refiere a la frecuencia de reloj de trabajo del módulo de memoria. Una velocidad de reloj de memoria más alta significa que la memoria puede realizar operaciones de lectura y escritura más rápido y proporcionar una velocidad de transmisión de datos más alta.

HBM (Memoria de ancho de banda alto):

Es una tecnología de memoria de gran ancho de banda que se utiliza para proporcionar velocidades rápidas de acceso a la memoria en unidades de procesamiento de gráficos (GPU) y otros dispositivos informáticos de alto rendimiento. La tecnología de memoria utilizada en las tarjetas gráficas tradicionales y los dispositivos informáticos suele basarse en el diseño GDDR (Graphics Double Data Rate), que tiene un cierto equilibrio entre el rendimiento y el consumo de energía. La tecnología de HBM logra un mayor ancho de banda y un menor consumo de energía colocando pilas de memoria en chips GPU y apilando varios chips DRAM a través de conexiones verticales de alta velocidad (TSV).

Para la memoria HBM3, NVIDIA puede usar todo o principalmente SK Hynix. No es seguro si el H100 de NVIDIA usa la memoria de Samsung, pero es seguro que NVIDIA actualmente no usa la memoria de Micron.

En lo que respecta a HBM3, en términos generales, SK Hynix tiene la mayor producción, seguida de Samsung, y Micron, que ocupa el tercer lugar, tiene una gran brecha de producción con los dos primeros. Parece que SK Hynix ha aumentado la producción, pero NVIDIA todavía quiere que produzcan más, mientras que Samsung y Micron aún no han logrado aumentar la producción.

**¿Qué más se utiliza en la fabricación de GPU? **

Además, la producción de GPU también involucrará una gran cantidad de materiales y piezas metálicas. La escasez de materias primas en estos enlaces también provocará el cuello de botella en el suministro de GPU, como:

**• Metales y productos químicos: **Incluye silicio (metaloides) como cobre, tántalo, oro, aluminio, níquel, estaño, indio y paladio, que se utilizan en varias etapas de producción, desde la fabricación de silicio redondo hasta el ensamblaje final de la GPU. , como silicio, tierras raras, etc.;

**• Componentes y materiales de empaque: **Como sustratos, bolas y cables de soldadura, compuestos de disipación de calor, etc., que se utilizan para completar el ensamblaje y el enlace de varios componentes de la GPU, y son fundamentales para el funcionamiento de la GPU;

**• Consumo de energía:**Debido al uso de equipos mecánicos de alta precisión durante el proceso de fabricación de chips GPU, se requiere una gran cantidad de electricidad.

**¿Cómo aborda NVIDIA la escasez de H100? **

NVIDIA reveló que aumentarán la oferta en la segunda mitad de este año. NVIDIA CFO dijo en el informe financiero que la compañía está haciendo todo lo posible para resolver el problema de suministro, pero aparte de eso, no transmitieron más información, ni tampoco tienen cifras específicas relacionadas con H100. .

"Estamos trabajando en nuestros problemas de suministro para el trimestre, pero también hemos comprado muchas acciones para la segunda mitad del año".

"Creemos que la oferta en la segunda mitad del año será significativamente mayor que en la primera mitad".

-- Colette Kress, CFO de Nvidia, en la llamada de ganancias de febrero-abril de 2023

Un ejecutivo de una empresa de nube privada cree que **a continuación, puede surgir un círculo vicioso en el mercado, es decir, la escasez hace que la capacidad de GPU se considere un foso para las empresas de IA, lo que lleva a un mayor acaparamiento de GPU, lo que a su vez exacerba aún más la escasez. de GPU. **

De acuerdo con el intervalo histórico entre el lanzamiento de diferentes arquitecturas de NVIDIA, es posible que el modelo de próxima generación H100 no se lance hasta finales de 2024 (mediados de 2024 a principios de 2025). Antes de eso, H100 siempre será el producto de nivel superior de NVIDIA GPU (GH200 y DGX GH200 no se cuentan, no son GPU puros y ambos usan H100 como GPU).

Además, se espera que haya una versión de 120 GB con mayor memoria en el futuro.

04. Cómo obtener H100

Vendedor de H100

Los fabricantes de equipos originales (OEM) como Dell, HPE, Lenovo, Supermicro y Quanta están vendiendo el H100 y el HGX H100, mientras que los pedidos de InfiniBand deben realizarse a través de NVIDIA Mellanox.

Mellanox es uno de los principales proveedores mundiales de InfiniBand. En 2015, la participación de Mellanox en el mercado global de IB alcanzó el 80 %. En 2019, NVIDIA adquirió Mellanox por $125 por acción, por un valor de transacción total de aproximadamente $6900 millones. Esta adquisición permite a NVIDIA expandir aún más su participación de mercado en centros de datos y computación de alto rendimiento, y fortalece la competitividad de NVIDIA en el campo de la IA.

Al combinar la tecnología de interconexión de alta velocidad de Mellanox con los aceleradores de GPU de NVIDIA, NVIDIA puede proporcionar a los centros de datos soluciones de mayor ancho de banda y menor latencia. Además de Mellanox, la tecnología IB de QLogic, otro proveedor en el campo IB, fue adquirida por Intel Corporation en 2012.

Las nubes de GPU como CoreWeave y Lambda compran GPU de OEM y las arriendan a Startups. Los jugadores de la nube a hiperescala (Azure, GCP, AWS, Oracle) pueden comprar más directamente con NVIDIA, pero a veces también trabajan con OEM.

Para DGX, la compra también se realiza a través de OEM. Aunque los clientes pueden comunicarse con NVIDIA sobre los requisitos de compra, la compra se realiza a través del OEM en lugar de realizar un pedido de compra directamente con NVIDIA.

Los tiempos de entrega de los servidores HGX de 8 GPU son pésimos y los de HGX de 4 GPU son bastante buenos, pero la realidad es que todo el mundo quiere servidores de 8 GPU.

**• ¿Cuánto tiempo transcurre desde que se realiza un pedido hasta que se implementa el H100? **

La implementación es un proceso por etapas. Digamos un pedido de 5000 GPU, es posible que obtengan acceso a 2000 o 4000 GPU en 4 o 5 meses, y luego a las GPU restantes en aproximadamente 6 meses.

Para Startup, si desea comprar una GPU, no realiza un pedido a un OEM o a un revendedor. Generalmente eligen servicios de nube pública como Oracle, o alquilan derechos de acceso a nubes privadas como Lambda y CoreWeave, o utilice servicios como FluidStack y los OEM y proveedores que trabajan con centros de datos arriendan el acceso.

**• ¿Debe la empresa construir su propio centro de datos o colocación? **

Para el establecimiento de un centro de datos, los factores que deben considerarse incluyen el tiempo para establecer el centro de datos, si hay talentos y experiencia en hardware y la escala de inversión de capital.

Alquilar y alojar un servidor es mucho más fácil. Si desea construir su propio centro de datos, debe colocar una línea de fibra oscura en su ubicación para conectarse a Internet, y el costo de la fibra es de $ 10,000 por kilómetro. Durante el auge de Internet, la mayor parte de la infraestructura ya estaba construida y pagada. Ahora, puedes simplemente alquilar, y es bastante barato.

—— Un ejecutivo de nube privada

Elegir alquilar o construir un centro de datos es una decisión de uno u otro. De acuerdo con las necesidades reales, las empresas pueden tener las siguientes opciones diferentes:

  1. Nube a pedido: use únicamente servicios en la nube para arrendamiento;

  2. Nube reservada;

  3. Alojamiento (compra de un servidor, cooperación con un proveedor para alojar y administrar el servidor);

  4. Hospedaje propio (comprar y hospedar un servidor usted mismo).

La mayoría de las Startups que necesitan mucho H100 optarán por la nube reservada o la colocación.

**¿Cómo eligen las empresas una empresa de servicios en la nube? **

Existe la opinión de que la infraestructura de Oracle no es tan confiable como las tres nubes principales, pero está dispuesto a dedicar más tiempo al soporte técnico del cliente. Algunos profesionales de empresas de nube privada dijeron que el 100 % de ellas tendrá una gran cantidad de clientes insatisfechos con los servicios basados en Oracle, y algunos directores ejecutivos de otras empresas creen que las capacidades de red de Oracle son más sólidas.

**Por lo general, Startup seleccionará a la empresa con la mejor combinación de soporte de servicio, precio y capacidad. **

Las principales diferencias entre varias grandes empresas de servicios en la nube son:

**• Redes: **AWS y Google Cloud han tardado más en adoptar InfiniBand, ya que tienen sus propios enfoques, pero la mayoría de las empresas emergentes que buscan grandes clústeres A100/H100 buscan InfiniBand;

**• Disponibilidad: **Por ejemplo, OpenAI utiliza la mayor parte de la potencia informática H100 de Azure, lo que significa que es posible que no haya mucha potencia informática disponible para otros clientes.

**Aunque no existe una base fáctica, se especula que NVIDIA está más inclinada a priorizar el suministro de GPU para los proveedores de servicios en la nube que no han desarrollado chips de aprendizaje automático de la competencia. **Los tres principales proveedores de servicios en la nube están desarrollando actualmente sus propios chips de aprendizaje automático, pero las alternativas NVIDIA de AWS y Google ya están en el mercado y le roban parte de la participación de mercado a NVIDIA. Esto también ha llevado a cierta especulación en el mercado de que NVIDIA está más dispuesta a cooperar con Oracle debido a esto.

Algunas de las grandes empresas de la nube tienen mejores precios que otras. Como señaló un ejecutivo de la nube privada: "Por ejemplo, A100 en AWS/AZURE es mucho más costoso que GCP".

Oracle me dijo que tendrán "decenas de miles de H100" en servicio a finales de este año. Pero en términos de precios, son más altos que otras compañías. No me dieron el precio para el H100, pero para el A100 de 80 GB, me cotizaron cerca de $ 4 por hora, que es casi 2 veces más de lo que cotizaba GCP, y con el mismo consumo de energía y esfuerzo.

  • Anónimo

Las nubes más pequeñas tienen una ventaja en términos de precios, excepto en algunos casos en los que una de las grandes empresas de la nube podría hacer un trato extraño a cambio de acciones.

Entonces, en general, en términos de la cercanía de la cooperación con NVIDIA, Oracle y Azure > GCP y AWS, pero esto es solo una suposición.

Oracle fue pionera en los A100 y alojó clústeres basados en Nvidia en asociación con Nvidia, que también es cliente de Azure.

**• ¿Qué gran empresa de nube tiene el mejor rendimiento de red? **

Azure, CoreWeave y Lambda usan InfiniBand. El rendimiento de la red de Oracle es bueno a 3200 Gbps, pero usa Ethernet en lugar de InfiniBand, y puede ser entre un 15 y un 20 % más lento que IB para casos de uso como capacitación LLM de alto parámetro. Las redes de AWS y GCP no son tan buenas.

**• ¿Cómo eligen las empresas los servicios en la nube en la actualidad? **

Los datos estadísticos de 15 empresas muestran que las 15 empresas encuestadas elegirán AWS, GCP o Azure, y Oracle no se encuentra entre ellas.

La mayoría de las empresas tienden a utilizar su nube existente. Pero para los equipos emprendedores, sus elecciones se basan más en la realidad: quien pueda proporcionar poder de cómputo elegirá cualquiera.

**• ¿Con quién está trabajando NVIDIA en DGX Cloud? **

"Nvidia se está asociando con los principales proveedores de servicios en la nube para alojar DGX Cloud Infrastructure, comenzando con Oracle Cloud Infrastructure": venda con Nvidia, pero alquile a través de los proveedores de la nube existentes (primero con Oracle, luego con Azure, seguido de Google Cloud, que no funcionó con AWS).

El CEO de NVIDIA, Jensen Huang, dijo en la llamada de ganancias de NVIDIA que "la combinación ideal es un 10 % de nube de NVIDIA DGX y un 90 % de nube de CSP".

• El horario H100 de los gigantes de la nube:

CoreWeave fue uno de los primeros. Como inversor de CoreWeave, y con el fin de fortalecer la competencia entre las grandes empresas de la nube, NVIDIA fue la primera en completar la entrega de CoreWeave.

El cronograma H100 de otras empresas de servicios en la nube es el siguiente:

• Azure anunció la disponibilidad de H100 para su versión preliminar el 13 de marzo;

• Oracle anunció un suministro limitado de H100 el 21 de marzo;

• Lambda Labs anunció el 21 de marzo que lanzará el H100 a principios de abril;

• AWS anunció el 21 de marzo que el H100 estará en versión preliminar en unas pocas semanas;

• Google Cloud anunció el inicio de la versión preliminar privada de H100 el 10 de mayo.

**• ¿Qué servicios en la nube utilizan las diferentes empresas? **

• OpenAI: Azure

• Inflexión: Azure y CoreWeave

• Antrópico: AWS 和 Google Cloud

• Cohere: AWS y Google Cloud

• Cara que abraza: AWS

• IA de estabilidad: CoreWeave y AWS

• Carácter.ai: Google Cloud

• X.ai: Oráculo

• NVIDIA: azul

**¿Cómo obtener más cuota de GPU? **

El cuello de botella final es si la distribución de la potencia informática se puede obtener de NVIDIA.

**• ¿Cómo selecciona NVIDIA a los clientes? **

NVIDIA suele asignar una cierta cantidad de GPU a cada cliente y, en este proceso, **NVIDIA está más preocupada por "quién es el cliente final", por ejemplo, Azure dijo "queremos comprar 10 000 H100 para admitir Inflection", y el el resultado correspondiente a Azure diciendo "Compramos 10 000 H100 para Azure" es diferente. **Si NVIDIA está interesada en un cliente final en particular, es posible que la empresa de la nube obtenga una cuota de GPU adicional. Por lo tanto, NVIDIA espera saber tanto como sea posible quiénes son los clientes finales, y estarán más inclinados a las grandes empresas o nuevas empresas con fuertes respaldos.

Sí, ese parece ser el caso. A Nvidia le gusta dar acceso a la GPU a las nuevas empresas de IA (muchas de las cuales tienen vínculos estrechos con Nvidia). Inflection, una empresa de IA en la que Nvidia invierte, está probando un enorme clúster H100 en CoreWeave.

—— Un ejecutivo de nube privada

Si una determinada empresa de la nube trae un cliente final a NVIDIA y expresa que está lista para comprar una cierta cantidad de H100, y NVIDIA está interesada en este cliente final, NVIDIA generalmente otorgará una cierta cuota, lo que en realidad aumentará la cantidad que NVIDIA asigna al cliente final La capacidad total de la empresa en la nube, ya que esta asignación es independiente de la cuota otorgada originalmente a la empresa en la nube por NVIDIA.

La asignación de gran capacidad de NVIDIA a nubes privadas es un caso especial: **CoreWeave tiene más H100 que GCP. NVIDIA es reacia a asignar recursos significativos a empresas que intentan competir directamente con ella (AWS Inferentia y Tranium, Google TPU, Azure Project Athena). **

Pero al final del día, si envía una orden de compra y dinero a NVIDIA, se compromete a un acuerdo más grande con más fondos por adelantado e indica su perfil de bajo riesgo, seguramente obtendrá más cuota de GPU que nadie.

05. Resumen

Aunque, como dijo Sam Altman, "la era de usar modelos grandes está llegando a su fin", de momento todavía estamos limitados por la GPU. Por un lado, empresas como OpenAI ya tienen excelentes productos PMF como ChatGPT, pero debido a que están limitados por las GPU, necesitan comprar una gran cantidad de potencia de cómputo. Por otro lado, muchos equipos están trabajando en la posibilidad de participar. en LLM en el futuro Acaparamiento de GPU independientemente de su potencial para crear algo como ChatGPT.

Pero no hay duda de que el derecho a hablar de NVIDIA no se verá afectado.

En esta etapa, el mejor producto LLM que hace PMF es ChatGPT. A continuación se usa ChatGPT como ejemplo para explicar por qué hay escasez de GPU:

  1. Debido a que ChatGPT es tan popular entre los usuarios, su ARR (ingresos anuales recurrentes) puede superar los 500 millones de dólares estadounidenses;

  2. ChatGPT se ejecuta en la API de GPT-4 y GPT-3.5;

  3. Las API de GPT-4 y GPT-3.5 requieren una GPU para ejecutarse y se requiere una gran cantidad de GPU. OpenAI espera lanzar más funciones para ChatGPT y su API, pero no se puede realizar debido a la cantidad limitada de GPU;

  4. OpenAI compró una gran cantidad de GPU NVIDIA a través de Microsoft (Azure);

  5. Para fabricar la GPU H100 SXM, NVIDIA utiliza TSMC para la fabricación y utiliza la tecnología de empaquetado CoWoS de TSMC y HBM3 principalmente de SK Hynix.

Además de OpenAI, todavía hay muchas empresas en el mercado que están entrenando sus propios modelos grandes. Dejemos de lado cuántas burbujas existen en LLM y qué probabilidades hay de que los productos PMF aparezcan al final, pero en general, la competencia LLM ha hecho subir la demanda del mercado de GPU. Además, hay algunas empresas que, aunque no necesiten GPU por el momento, comenzarán a almacenarlas por adelantado porque les preocupa el futuro. Entonces es algo así como "la expectativa de un déficit de suministro exacerba el déficit de suministro"**.

Por lo tanto, otra fuerza que impulsa la demanda de GPU son las empresas empresariales que desean crear nuevos LLM o participar en la IA en el futuro:

  1. La importancia de los modelos grandes se ha vuelto un consenso: si es una empresa madura, espera capacitar a LLM en sus propios datos y espera que traiga más valor comercial, como una empresa nueva, espera construir su propio LLM y transformarlo en valor comercial. La GPU solo se necesita para entrenar modelos grandes;

  2. Comunicación entre estas empresas y grandes proveedores de nube (Azure, Google Cloud, AWS), tratando de obtener suficiente H100;

  3. Durante el proceso, descubrieron que los proveedores de la nube no tenían suficiente H100 para asignar, y algunos proveedores de la nube también tenían configuraciones de red defectuosas, por lo que CoreWeave, Oracle, Lambda y FluidStack también compraron GPU y las poseyeron, tal vez también discutan con OEM y NVIDIA;

  4. Al final, obtuvieron muchas GPU;

  5. Ahora, están tratando de hacer coincidir su producto con el mercado;

  6. En caso de que aún no estuviera claro, el camino no es fácil: recuerde que OpenAI logró el ajuste del producto al mercado en un modelo más pequeño y luego lo amplió. Pero ahora, para lograr el ajuste del producto al mercado, debe adaptarse mejor al caso de uso de su usuario que el modelo de OpenAI, por lo que, para empezar, necesita más GPU que OpenAI.

**Al menos hasta fines de 2023, habrá escasez para las empresas que implementen cientos o miles de H100, tal vez para fines de 2023, la situación se aclare, pero parece que la escasez de GPU puede continuar hasta 2024. **

Recorrido de oferta y demanda de GPU

Referencia

Comentario de un fundador de startup personalizado de LLM para empresas

Mensaje de un proveedor de la nube

Conversaciones con s en empresas de la nube y proveedores de GPU

Tesla Q1 2023 (cubre del 1 de enero de 2023 al 31 de marzo de 2023) llamada de ganancias

Un comentario de una empresa en la nube

Un estadio de béisbol estimado de una empresa en la nube

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)