Noticias
Schneider Electric avisa: los centros de datos actuales no están lo bastante preparados para la IA
Las cargas de trabajo relacionadas con la IA necesitan una infraestructura potente para funcionar. Y los centros de datos no estarían lo bastante optimizados para soportarlas. Por eso, desde Schneider Electric sugieren que sería una buena idea replantearse la manera en la que se construyen y planifican sus instalaciones. Así lo ha señalado en un estudio, en el que señala varios de los factores que hacen que adaptar las cargas de trabajo de IA sea problemático.
Schneider Electric también ofrece pistas y guías para el desarrollo de centros de datos en el futuro preparados para la Inteligencia Artificial, porque también apunta que es probable que en los actuales no tengan cabida sus recomendaciones.
El problema reside sobre todo en que las cargas de trabajo de IA necesitan a menudo una latencia baja, así como una red con un ancho de banda elevado, para poder funcionar de manera eficiente. Esto hace que sea necesario contar con racks más densos, además de añadir tensión a los sistemas de reparto de energía y gestión de la temperatura de la infraestructura de los centros de datos.
Así, que el consumo de las GPUs necesarias para el trabajo con IA supere los 700 vatios, y que el de los servidores supere los 10 kW. Si tenemos en cuenta que se necesitan cientos de estos sistemas para entrenar un modelo grande de lenguaje en un periodo de tiempo razonable, se puede ver mejor la magnitud del problema y la situación
Según Schneider Electric, estos consumos ya están fuera de línea con respecto a lo que la mayoría de centros de datos pueden gestionar, con entre 10 y 20 kW por rack. La cosa empeora por el hecho de que entrenar cargas de trabajo se beneficia mucho de la maximización del número de sistemas por rack, dado que así se reduce tanto la latencia de red como los costes asociados con la óptica.
Por lo tanto, ampliar los sistemas puede reducir la carga de cada rack. Pero para ello se necesitan ópticas más lentas, y además pueden darse cuellos de botella que perjudiquen el rendimiento de los clústeres.
Con la inferencia la situación no es tan complicada. Dado que consiste únicamente en poner a modelos ya entrenados a trabajar generando textos o imágenes, o analizando grandes cantidades de datos desestructurados, se necesitan menos aceleradores de IA para cada tarea que los requeridos para las cargas de trabajo de IA relacionadas con el entrenamiento de modelos.
En el informe se señalan, como hemos mencionado, varios cambios para que los centros de datos estén mejor preparados para trabajar con ellas. Entre ellos hay modificaciones para la energía de centros de datos, la refrigeración, la configuración de racks y la gestión del software.
El primer cambio implica el cambio de los sistemas de distribución de energía actuales por otros más potentes. Así se consigue reducir la cantidad de circuitos en los racks de alta densidad. Además, será necesario ofrecer la cantidad de energía adecuada a las configuraciones de rack más densas. Por eso, puede ser necesario contar con varias PDUs por cada rack.
En cuanto a la gestión del calor, Schneider recomienda utilizar refrigeración líquida. En cuanto al valor para pasar de refrigeración por aire a líquida, la compañía pone el umbral en los 20 kW por rack. Para ellos, en el caso de entrenamiento a menor escala o cargas de trabajo de inferencia, la refrigeración por aire es adecuada en este momento, siempre que se lleven a cabo prácticas de gestión del flujo de aire adecuadas.
Para la refrigeración líquida, la compañía apuesta por la refrigeración líquida directa, que elimina el calor pasando fluidos a través de placas frías colocadas en puntos de calor, como CPUs y GPUs. En el caso de la refrigeración por inmersión, Schneider Electric no la recomienda tanto. Sobre todo la que usa refrigerantes en dos fases.
Algunos de estos fluidos han sido incluso retirados del mercado por ser perjudiciales para el medio ambiente. Por lo tanto, en el caso de la refrigeración por inmersión, Schneider sugiere utilizar solo fluidos de una sola fase, a pesar de que sean menos eficientes en cuanto a transferencia de calor.
Los operadores de centros de datos, además de abordar cambios en el reparto de potencia y la gestión del calor, deberían valorar también la instalación de racks para tareas más pesadas. El informe también recomienda utilizar diversos tipos de infraestructura para centros de datos, potencia eléctrica y plataformas de software con sistemas de gestión de edificios para identificar los problemas que tenga cada infraestructura en concreto antes de que se extiendan a sistemas adyacentes y afecten más negativamente a las cargas de trabajo críticas.
-
OpiniónHace 6 días
10 predicciones para los proveedores de servicios gestionados en 2025
-
NoticiasHace 6 días
AMD despedirá al 4% de su plantilla mientras se centra en IA y centros de datos
-
NoticiasHace 2 días
El Capitan es el nuevo superordenador más potente y rápido del mundo
-
NoticiasHace 6 días
La Comisión Europea multa a Meta con 798 millones por perjudicar a la competencia de Marketplace