HPE amplía su colaboración con AMD para impulsar la infraestructura abierta de IA a escala de rack

El auge imparable de la inteligencia artificial (IA) ha transformado radicalmente la forma en que las empresas operan, innovan y compiten. Desde el procesamiento de lenguaje natural hasta la visión por computadora y los sistemas de recomendación, la IA está en el corazón de la próxima ola de disrupción tecnológica. Sin embargo, para que estas capacidades de IA puedan ser plenamente explotadas, se requiere una infraestructura de cómputo robusta, escalable y, crucialmente, flexible. Es en este contexto donde la reciente expansión de la colaboración entre Hewlett Packard Enterprise (HPE) y AMD adquiere una relevancia estratégica innegable, marcando un paso significativo hacia el desarrollo de infraestructuras abiertas de IA a escala de rack. Personalmente, creo que este tipo de alianzas son fundamentales no solo para la evolución tecnológica, sino para democratizar el acceso a la IA de alto rendimiento, evitando la concentración excesiva en un solo proveedor y fomentando la innovación a través de estándares abiertos.

Esta colaboración no es una mera extensión; es una declaración de intenciones. Busca afrontar los desafíos inherentes a la implementación de IA a gran escala, como la gestión de datos masivos, la necesidad de una capacidad de cómputo intensiva, las exigencias energéticas y de refrigeración, y la complejidad del software. Al centrarse en una infraestructura abierta y optimizada a nivel de rack, HPE y AMD están sentando las bases para que las organizaciones puedan implementar y escalar sus cargas de trabajo de IA con mayor eficiencia, agilidad y, lo que es igualmente importante, con una menor barrera de entrada.

Detalles de la colaboración ampliada: infraestructura abierta de IA a escala de rack

An adult woman with curly hair poses confidently against a vibrant blue sky, embracing a carefree summer vibe.

La esencia de esta colaboración reside en la integración profunda de las arquitecturas de CPU y GPU de AMD, junto con su software de código abierto ROCm™, dentro de las plataformas de servidores optimizadas para IA de HPE. El objetivo es proporcionar una solución integral que abarque desde el hardware hasta el software, diseñada para ofrecer un rendimiento óptimo en la capacitación de modelos de IA, la inferencia y las aplicaciones de alto rendimiento (HPC) que a menudo se entrelazan con la IA moderna.

Arquitecturas de servidor optimizadas para IA

HPE está trabajando en la optimización de sus plataformas de servidores para IA, como las series HPE ProLiant y HPE Apollo, para integrar las unidades de procesamiento gráfico (GPU) AMD Instinct MI300X, las cuales son conocidas por su rendimiento excepcional en cargas de trabajo de IA generativa y HPC. Estas plataformas no solo se centran en la potencia de cómputo, sino también en la eficiencia energética y la capacidad de refrigeración, aspectos críticos cuando se implementan miles de GPUs en un centro de datos. La infraestructura de rack completa de HPE no solo alberga los servidores, sino que también integra soluciones de red de alta velocidad y capacidades de gestión avanzadas, lo que simplifica la implementación y operación a gran escala.

Un aspecto crucial de esta estrategia es el enfoque en la arquitectura de rack como una unidad fundamental de despliegue. Al diseñar y optimizar la infraestructura de IA a escala de rack, se abordan de manera más efectiva desafíos como la interconexión de GPU de alta velocidad (por ejemplo, a través de InfiniBand o Ethernet de alta velocidad), la distribución de energía, y las soluciones de refrigeración líquida directa, que se están volviendo indispensables para manejar la densidad de calor generada por las últimas generaciones de aceleradores de IA. Esta visión de "IA a escala de rack" es, en mi opinión, una evolución natural y necesaria, ya que permite una gestión más holística y eficiente de los recursos que los enfoques más segmentados.

El ecosistema de software abierto ROCm de AMD

Una de las piedras angulares de esta colaboración es el compromiso con el ecosistema de software de código abierto ROCm de AMD. ROCm es una plataforma de software abierta que permite a los desarrolladores programar GPUs de AMD de manera eficiente para una amplia gama de aplicaciones de cómputo de alto rendimiento y aprendizaje automático. Su naturaleza abierta y su compatibilidad con marcos populares como PyTorch y TensorFlow son cruciales para reducir la fricción en el desarrollo y la implementación de IA.

La decisión de HPE de apoyar y optimizar sus sistemas para ROCm es un movimiento estratégico que empodera a los desarrolladores y evita el "vendor lock-in", una preocupación constante en el panorama de la IA. Al ofrecer una alternativa sólida y de código abierto a otros ecosistemas propietarios, AMD y HPE están promoviendo un entorno más competitivo e innovador. Creo firmemente que la apertura del software es tan importante como la del hardware para el progreso a largo plazo de la IA, ya que fomenta la colaboración y la co-creación dentro de la comunidad de desarrolladores.

Para más información sobre ROCm, puedes visitar el sitio oficial de AMD ROCm.

La contribución de AMD: potencia de cómputo y ecosistema de software

La participación de AMD en esta colaboración es multifacética y fundamental. Sus procesadores y aceleradores están en el corazón de la infraestructura de IA que HPE busca construir.

GPUs AMD Instinct MI300X

Las GPU AMD Instinct MI300X son componentes clave. Diseñadas específicamente para cargas de trabajo de IA y HPC, estas GPUs ofrecen una combinación potente de capacidad de memoria, ancho de banda y rendimiento computacional. Su arquitectura está optimizada para manejar modelos de lenguaje grandes (LLMs) y otras aplicaciones intensivas en memoria, lo que las hace ideales para la IA generativa. La integración de múltiples de estas GPUs dentro de un solo servidor y, posteriormente, en racks enteros, proporciona la densidad de cómputo necesaria para las implementaciones más exigentes.

La flexibilidad de estas GPUs, junto con el soporte de ROCm, permite a los clientes de HPE aprovechar al máximo el hardware de AMD sin quedar atados a un único proveedor de software o ecosistema. Esto es vital para las empresas que desean mantener la agilidad y la capacidad de adaptar sus soluciones de IA a medida que evolucionan las tecnologías y sus propias necesidades.

Puedes aprender más sobre las GPUs AMD Instinct en la página de AMD Instinct.

CPUs AMD EPYC: el cerebro detrás de la operación

Si bien las GPUs son las estrellas del espectáculo en el cómputo de IA, los procesadores de servidor (CPUs) siguen siendo el cerebro que coordina todas las operaciones. Los procesadores AMD EPYC se destacan por su alto número de núcleos, gran cantidad de carriles PCIe y amplia capacidad de memoria, lo que los convierte en la elección ideal para complementar a las GPUs Instinct. Proporcionan el ancho de banda necesario para alimentar datos a los aceleradores de IA y gestionar el resto de las operaciones del sistema con eficiencia. La combinación de CPUs EPYC y GPUs Instinct en un servidor crea un nodo de cómputo balanceado y extremadamente potente, capaz de manejar no solo las cargas de trabajo de IA, sino también la preparación de datos y otras tareas de infraestructura.

Para detalles sobre los procesadores EPYC, visita la página de AMD EPYC.

El papel de HPE: optimización del hardware y soluciones de gestión

HPE, con su vasta experiencia en infraestructuras de centro de datos, aporta la capacidad de integrar y optimizar estos componentes de AMD en soluciones completas y gestionables.

Plataformas de servidores HPE ProLiant y Apollo

HPE está aprovechando sus líneas de productos líderes, como los servidores HPE ProLiant y HPE Apollo. Los servidores HPE ProLiant son bien conocidos por su fiabilidad y versatilidad, y las variantes optimizadas para IA integrarán las GPUs AMD Instinct para ofrecer un rendimiento superior. Por otro lado, la serie HPE Apollo está diseñada específicamente para cargas de trabajo HPC y de IA a gran escala, ofreciendo una densidad de cómputo extrema y soluciones avanzadas de refrigeración líquida, esenciales para los clusters de IA de hoy en día.

La ingeniería de HPE no solo se limita a integrar componentes, sino a diseñar sistemas completos que aborden los desafíos de la refrigeración, la energía y la interconexión. Esto incluye el desarrollo de chasis específicos, fuentes de alimentación optimizadas y sistemas de gestión térmica que pueden manejar la enorme cantidad de calor generada por las GPUs de IA de última generación.

Refrigeración líquida directa y eficiencia energética

A medida que la densidad de cómputo aumenta, la refrigeración por aire tradicional se vuelve insuficiente. HPE está liderando el camino con soluciones de refrigeración líquida directa para sus plataformas de IA, lo que no solo permite una mayor densidad de GPUs por rack, sino que también mejora la eficiencia energética general del centro de datos. Al enfriar directamente los componentes más calientes, se reduce la necesidad de un enfriamiento de aire intensivo, lo que se traduce en menores costos operativos y un menor impacto ambiental. Desde mi perspectiva, la refrigeración líquida ya no es una opción de nicho para la IA a escala; es una necesidad imperativa que definirá la viabilidad de los futuros despliegues masivos.

HPE GreenLake y la IA como servicio

Una parte integral de la estrategia de HPE es ofrecer estas capacidades de infraestructura de IA a través de su plataforma de servicios en la nube híbrida, HPE GreenLake. Esto permite a los clientes consumir la infraestructura de IA como un servicio, pagando solo por lo que usan, con la flexibilidad de desplegarla tanto en sus propios centros de datos (on-premise) como en instalaciones de coubicación. Este modelo "as-a-service" es particularmente atractivo para las organizaciones que buscan evitar grandes inversiones de capital inicial y desean la agilidad de la nube sin sacrificar el control o la seguridad de los datos que a menudo se prefiere en un entorno local. La combinación de hardware de última generación y un modelo de consumo flexible es una propuesta de valor muy potente.

Más información sobre las soluciones de IA de HPE: HPE AI Solutions.

Implicaciones y beneficios para la industria

Esta colaboración tiene amplias implicaciones para el ecosistema de la IA, los desarrolladores y las empresas que buscan implementar soluciones de inteligencia artificial.

Fomento de la infraestructura abierta y la interoperabilidad

Al priorizar una infraestructura abierta, HPE y AMD están contribuyendo a un ecosistema de IA más diversificado y menos monopolizado. Esto significa que los clientes tendrán más opciones, podrán integrar diferentes componentes de diversos proveedores y evitarán el "vendor lock-in", lo que a menudo estrangula la innovación y aumenta los costos a largo plazo. La interoperabilidad es clave para construir sistemas de IA resilientes y adaptables. Es una visión que aplaudo, ya que empodera al usuario final y estimula una competencia saludable en el mercado.

Escalabilidad y rendimiento sin precedentes

La capacidad de escalar la infraestructura de IA de forma eficiente es fundamental. Esta colaboración promete ofrecer niveles de rendimiento y escalabilidad necesarios para entrenar modelos de IA cada vez más complejos y grandes, desde LLMs hasta modelos de difusión para la generación de contenido. La optimización a nivel de rack y la integración profunda de hardware y software garantizan que los recursos se utilicen de manera óptima.

Reducción de la complejidad y el tiempo de implementación

La implementación de infraestructura de IA a gran escala puede ser un proceso extraordinariamente complejo. Al ofrecer soluciones integradas y optimizadas a nivel de rack, HPE y AMD buscan simplificar este proceso, reduciendo el tiempo desde la planificación hasta la puesta en marcha. La gestión centralizada y el soporte para el ecosistema ROCm también contribuyen a una experiencia más fluida para los equipos de operaciones y los desarrolladores.

Impacto en la investigación y el desarrollo

Para los centros de investigación y las universidades, el acceso a infraestructuras de IA de alto rendimiento y abiertas es un catalizador para el descubrimiento. Esta colaboración puede acelerar significativamente los proyectos de investigación en IA, permitiendo a los científicos y estudiantes explorar nuevas fronteras sin las limitaciones de un hardware o software restrictivo.

Sostenibilidad y eficiencia

La eficiencia energética y la sostenibilidad son preocupaciones crecientes en el ámbito de los centros de datos. Al implementar soluciones de refrigeración líquida y optimizar el consumo de energía de las plataformas de servidor, HPE y AMD están contribuyendo a la creación de infraestructuras de IA más verdes y responsables. La maximización del rendimiento por vatio es un objetivo crítico que beneficia tanto a los presupuestos operativos como al medio ambiente.

Mirando hacia el futuro

La expansión de esta colaboración entre HPE y AMD es un testimonio del compromiso de ambas empresas con el futuro de la IA. A medida que la inteligencia artificial continúa evolucionando a un ritmo vertiginoso, la infraestructura subyacente debe ser igualmente adaptable y potente. Al enfocarse en estándares abiertos, escalabilidad a nivel de rack y una profunda integración de hardware y software, están bien posicionados para satisfacer las demandas de las cargas de trabajo de IA más exigentes.

Personalmente, anticipo que veremos una aceleración en la adopción de arquitecturas de IA abiertas a medida que más empresas reconozcan los beneficios de la flexibilidad y la eficiencia. Esta alianza no solo fortalece la posición de HPE y AMD en el mercado de la IA, sino que también ofrece un modelo a seguir para otras colaboraciones en la industria, priorizando la innovación abierta y la habilitación del cliente. El camino hacia una IA verdaderamente ubicua y poderosa pasa inevitablemente por infraestructuras como las que esta alianza promete.

Para un vistazo más amplio a las soluciones de HPE, visita su página principal.

Diario Tecnología