El 1 de septiembre de 2020, NVIDIA reveló su nueva línea de GPU para juegos: la serie RTX 3000, basada en su arquitectura Ampere. Discutiremos las novedades, el software impulsado por IA que lo acompaña y todos los detalles que hacen que esta generación sea realmente asombrosa.
Conozca las GPU de la serie RTX 3000
El anuncio principal de NVIDIA fueron sus nuevas y brillantes GPU, todas construidas sobre un proceso de fabricación personalizado de 8 nm, y todas aportando importantes aceleraciones tanto en el rendimiento de rasterización como de trazado de rayos .
En el extremo inferior de la línea, está el RTX 3070 , que cuesta 499 dólares. Es un poco caro para la tarjeta más barata presentada por NVIDIA en el anuncio inicial, pero es un robo absoluto una vez que se entera de que supera a la RTX 2080 Ti existente, una tarjeta de primera línea que se vende regularmente por más de $ 1400. Sin embargo, después del anuncio de NVIDIA, el precio de venta de terceros cayó, y una gran cantidad de ellos se vendieron por pánico en eBay por menos de $ 600.
No hay puntos de referencia sólidos como de la convocatoria, por lo que no está claro si la tarjeta es realmente objetiva “mejor” que un 2080 Ti, o si NVIDIA está retorciendo la comercialización de un bit. Los puntos de referencia que se ejecutaron estaban en 4K y probablemente tenían RTX activado, lo que puede hacer que la brecha parezca más grande de lo que será en los juegos puramente rasterizados, ya que la serie 3000 basada en Ampere funcionará más del doble en el trazado de rayos que Turing. Pero, dado que el trazado de rayos ahora es algo que no afecta mucho al rendimiento y que es compatible con la última generación de consolas, es un punto de venta importante que funcione tan rápido como el buque insignia de la última generación por casi un tercio del precio.
Tampoco está claro si el precio se mantendrá así. Los diseños de terceros regularmente agregan al menos $ 50 al precio, y con la alta demanda probable, no será sorprendente ver que se venda por $ 600 en octubre de 2020.
Justo por encima de eso está el RTX 3080 a $ 699, que debería ser el doble de rápido que el RTX 2080, y llegar alrededor de un 25-30% más rápido que el 3080.
Luego, en el extremo superior, el nuevo buque insignia es el RTX 3090 , que es cómicamente enorme. NVIDIA lo sabe muy bien y se refiere a él como «BFGPU», que según la empresa significa «Big Ferocious GPU».
NVIDIA no mostró ninguna métrica de rendimiento directa, pero la compañía mostró que ejecuta juegos de 8K a 60 FPS, lo cual es realmente impresionante. Por supuesto, es casi seguro que NVIDIA esté usando DLSS para alcanzar esa marca, pero los juegos de 8K son juegos de 8K.
Por supuesto, eventualmente habrá una 3060 y otras variaciones de tarjetas más orientadas al presupuesto, pero esas suelen llegar más tarde.
Para enfriar realmente las cosas, NVIDIA necesitaba un diseño renovado. El 3080 tiene una potencia nominal de 320 vatios, lo que es bastante alto, por lo que NVIDIA ha optado por un diseño de ventilador doble, pero en lugar de colocar ambos ventiladores vwinf en la parte inferior, NVIDIA ha colocado un ventilador en el extremo superior donde suele ir la placa posterior. El ventilador dirige el aire hacia arriba, hacia el enfriador de la CPU y hacia la parte superior de la carcasa.
A juzgar por cuánto puede verse afectado el rendimiento por un mal flujo de aire en una carcasa, esto tiene mucho sentido. Sin embargo, la placa de circuito está muy apretada debido a esto, lo que probablemente afectará los precios de venta de terceros.
DLSS: una ventaja de software
El trazado de rayos no es el único beneficio de estas nuevas tarjetas. En realidad, todo es un poco de un hack-RTX las series 2000 y 3000 serie no es que mucho mejor en hacer el trazado de rayos reales, en comparación con las generaciones anteriores de tarjetas. El trazado de rayos de una escena completa en un software 3D como Blender suele tardar unos segundos o incluso minutos por fotograma, por lo que no se puede aplicar la fuerza bruta en menos de 10 milisegundos.
Por supuesto, hay hardware dedicado para ejecutar cálculos de rayos, llamados núcleos RT, pero en gran medida, NVIDIA optó por un enfoque diferente. NVIDIA mejoró los algoritmos de eliminación de ruido, que permiten a las GPU generar una sola pasada muy barata que se ve terrible y, de alguna manera, a través de la magia de la inteligencia artificial, convertir eso en algo que un jugador quiere mirar. Cuando se combina con técnicas tradicionales basadas en rasterización, ofrece una experiencia agradable mejorada por efectos de trazado de rayos.
Sin embargo, para hacer esto rápido, NVIDIA ha agregado núcleos de procesamiento específicos de IA llamados núcleos Tensor. Estos procesan todas las matemáticas necesarias para ejecutar modelos de aprendizaje automático y lo hacen muy rápidamente. Son un cambio total para la IA en el espacio del servidor en la nube , ya que muchas empresas la utilizan ampliamente.
Más allá de la eliminación de ruido, el uso principal de los núcleos Tensor para los jugadores se llama DLSS, o supermuestreo de aprendizaje profundo. Toma un fotograma de baja calidad y lo escala a calidad nativa completa. Básicamente, esto significa que puede jugar con velocidades de cuadro de nivel de 1080p, mientras mira una imagen 4K.
Esto también ayuda bastante con el rendimiento del trazado de rayos: los puntos de referencia de PCMag muestran un RTX 2080 Super Running Control con una calidad ultra, con todas las configuraciones de trazado de rayos al máximo. En 4K, lucha con solo 19 FPS, pero con DLSS activado, obtiene 54 FPS mucho mejores. DLSS es un rendimiento gratuito para NVIDIA, hecho posible por los núcleos Tensor en Turing y Ampere. Cualquier juego que lo admita y esté limitado por GPU puede experimentar grandes aceleraciones solo con el software.
DLSS no es nuevo y se anunció como una característica cuando se lanzó la serie RTX 2000 hace dos años. En ese momento, era compatible con muy pocos juegos, ya que requería que NVIDIA entrenara y ajustara un modelo de aprendizaje automático para cada juego individual.
Sin embargo, en ese tiempo, NVIDIA lo ha reescrito por completo, llamando a la nueva versión DLSS 2.0. Es una API de propósito general, lo que significa que cualquier desarrollador puede implementarla, y la mayoría de las versiones principales ya la están utilizando. En lugar de trabajar en un fotograma, toma datos vectoriales de movimiento del fotograma anterior, de manera similar a TAA. El resultado es mucho más nítido que DLSS 1.0 y, en algunos casos, se ve mejor y más nítido incluso que la resolución nativa, por lo que no hay muchas razones para no activarlo.
Hay un inconveniente: al cambiar de escena por completo, como en las escenas de corte, DLSS 2.0 debe representar el primer fotograma con una calidad del 50% mientras espera los datos del vector de movimiento. Esto puede resultar en una pequeña caída de la calidad durante unos milisegundos. Pero el 99% de todo lo que mires se renderizará correctamente y la mayoría de las personas no lo notan en la práctica.
Arquitectura Ampere: construida para IA
Ampere es rápido. Realmente rápido, especialmente en los cálculos de IA. El núcleo RT es 1,7 veces más rápido que Turing, y el nuevo núcleo Tensor es 2,7 veces más rápido que Turing. La combinación de los dos es un verdadero salto generacional en el rendimiento del trazado de rayos.
A principios de mayo, NVIDIA lanzó la GPU Ampere A100 , una GPU de centro de datos diseñada para ejecutar IA. Con él, detallaron mucho de lo que hace que Ampere sea mucho más rápido. Para cargas de trabajo informáticas de alto rendimiento y centros de datos, Ampere es en general alrededor de 1,7 veces más rápido que Turing. Para el entrenamiento de IA, es hasta 6 veces más rápido.
Con Ampere, NVIDIA está utilizando un nuevo formato de número diseñado para reemplazar el estándar de la industria «Floating-Point 32» o FP32, en algunas cargas de trabajo. Bajo el capó, cada número que procesa su computadora ocupa un número predefinido de bits en la memoria, ya sean 8 bits, 16 bits, 32, 64 o incluso más. Los números que son más grandes son más difíciles de procesar, por lo que si puede usar un tamaño más pequeño, tendrá menos para procesar.
FP32 almacena un número decimal de 32 bits y usa 8 bits para el rango del número (cuán grande o pequeño puede ser) y 23 bits para la precisión. La afirmación de NVIDIA es que estos 23 bits de precisión no son del todo necesarios para muchas cargas de trabajo de inteligencia artificial, y puede obtener resultados similares y un rendimiento mucho mejor con solo 10 de ellos. Reducir el tamaño a solo 19 bits, en lugar de 32, hace una gran diferencia en muchos cálculos.
Este nuevo formato se llama Tensor Float 32, y los Tensor Cores en el A100 están optimizados para manejar el formato de tamaño extraño. Esto es, además de las reducciones de troqueles y los aumentos en el recuento de núcleos, cómo están obteniendo la velocidad masiva de 6x en el entrenamiento de IA.
Además del nuevo formato numérico, Ampere está experimentando importantes aceleraciones de rendimiento en cálculos específicos, como FP32 y FP64. Estos no se traducen directamente en más FPS para el profano, pero son parte de lo que lo hace casi tres veces más rápido en general en las operaciones de Tensor.
Luego, para acelerar aún más los cálculos, han introducido el concepto de escasez estructurada de grano fino , que es una palabra muy elegante para un concepto bastante simple. Las redes neuronales funcionan con grandes listas de números, llamadas ponderaciones, que afectan la salida final. Cuantos más números procese, más lento será.
Sin embargo, no todos estos números son realmente útiles. Algunos de ellos son literalmente cero, y básicamente pueden descartarse, lo que conduce a aceleraciones masivas cuando puede procesar más números al mismo tiempo. La dispersión esencialmente comprime los números, lo que requiere menos esfuerzo para hacer cálculos. El nuevo «Sparse Tensor Core» está diseñado para operar con datos comprimidos.
A pesar de los cambios, NVIDIA dice que esto no debería afectar notablemente la precisión de los modelos entrenados en absoluto.
Para los cálculos de Sparse INT8, uno de los formatos de números más pequeños, el rendimiento máximo de una sola GPU A100 es superior a 1,25 PetaFLOP, un número asombrosamente alto. Por supuesto, eso es solo cuando se procesa un tipo específico de número, pero de todos modos es impresionante.