Descripción de la Empresa

CambridgeNexus es una empresa de infraestructura de computación nativa de IA especializada en centros de datos impulsados por GPU. Nuestra infraestructura de alta densidad y baja latencia está diseñada para apoyar el aprendizaje automático moderno, el entrenamiento de modelos a gran escala y la inferencia.

Descripción del Rol

Las responsabilidades incluyen diseñar, monitorear y mantener la infraestructura de centros de datos de GPU de alto rendimiento. Supervisarás la solución de problemas de los sistemas de GPU, mejorarás la eficiencia de la red, implementarás soluciones de seguridad de red y garantizarás la fiabilidad y escalabilidad de los sistemas desplegados.

Lo que Poseerás

  • Implementación de clúster de GPU (GB300, NVLink, InfiniBand).

  • Optimización de energía y refrigeración (150kW+/rack).

  • Respuesta a incidentes y análisis de causa raíz.

  • Planificación de capacidad y expansión.


Requisitos

  • Más de 8 años en centros de datos / HPC / infraestructura de GPU.

  • Experiencia práctica con la pila de NVIDIA (CUDA, controladores, fabric). * Obsesionado con la fiabilidad y el rendimiento

Descripción de la Empresa

CambridgeNexus es una empresa de infraestructura de computación nativa de IA especializada en centros de datos impulsados por GPU. Nuestra infraestructura de alta densidad y baja latencia está diseñada para apoyar el aprendizaje automático moderno, el entrenamiento de modelos a gran escala y la inferencia.

Descripción del Rol

Las responsabilidades incluyen diseñar, monitorear y mantener la infraestructura de centros de datos de GPU de alto rendimiento. Supervisarás la solución de problemas de los sistemas de GPU, mejorarás la eficiencia de la red, implementarás soluciones de seguridad de red y garantizarás la fiabilidad y escalabilidad de los sistemas desplegados.

Lo que Poseerás

  • Implementación de clúster de GPU (GB300, NVLink, InfiniBand).

  • Optimización de energía y refrigeración (150kW+/rack).

  • Respuesta a incidentes y análisis de causa raíz.

  • Planificación de capacidad y expansión.


Requisitos

  • Más de 8 años en centros de datos / HPC / infraestructura de GPU.

  • Experiencia práctica con la pila de NVIDIA (CUDA, controladores, fabric). * Obsesionado con la fiabilidad y el rendimiento

ARQUITECTURA CENTRAL

NVIDIA

H100 / Clase Blackwell

Kubernetes

Capa de Orquestación

PyTorch

Marco de ML

Óxido / Ir

Sistemas de Alto Rendimiento