

Plataforma GPU / Ingeniero SRE
Ingeniería
Boston / En el sitio
Construye la automatización que mantiene viva nuestra red. Kubernetes, Slurm, Prometheus y NVIDIA DCGM. Enfócate en la fiabilidad y la autorrecuperación.


Plataforma GPU / Ingeniero SRE
Ingeniería
Boston / En el sitio
Construye la automatización que mantiene viva nuestra red. Kubernetes, Slurm, Prometheus y NVIDIA DCGM. Enfócate en la fiabilidad y la autorrecuperación.


Plataforma GPU / Ingeniero SRE
Ingeniería
Boston / En el sitio
Construye la automatización que mantiene viva nuestra red. Kubernetes, Slurm, Prometheus y NVIDIA DCGM. Enfócate en la fiabilidad y la autorrecuperación.


Plataforma GPU / Ingeniero SRE
Ingeniería
Boston / En el sitio
Construye la automatización que mantiene viva nuestra red. Kubernetes, Slurm, Prometheus y NVIDIA DCGM. Enfócate en la fiabilidad y la autorrecuperación.
Enfoque Fiabilidad + Automatización.
Descripción del Rol
El Ingeniero de Plataforma/GPU SRE será responsable de construir, mantener y solucionar problemas de infraestructura de computación de alto rendimiento basada en GPU. Las tareas diarias incluyen diseñar y mejorar la fiabilidad del sistema, gestionar la infraestructura y identificar proactivamente los cuellos de botella en el rendimiento.
Responsabilidades
Construir monitoreo, alertas, auto-sanación.
Optimizar la utilización y programación de GPU.
Hacer cumplir los SLA y los objetivos de disponibilidad.
Soportar la aislamiento & seguridad multi-inquilino.
Pila Tecnológica
Kubernetes / Slurm
Prometheus / Grafana
Terraform / Ansible
NVIDIA DCGM
Calificaciones
Competencia en Ingeniería de Fiabilidad de Sitios y Resolución de Problemas. * Experiencia con scripting, automatización y optimización de flujos de trabajo.
Enfoque Fiabilidad + Automatización.
Descripción del Rol
El Ingeniero de Plataforma/GPU SRE será responsable de construir, mantener y solucionar problemas de infraestructura de computación de alto rendimiento basada en GPU. Las tareas diarias incluyen diseñar y mejorar la fiabilidad del sistema, gestionar la infraestructura y identificar proactivamente los cuellos de botella en el rendimiento.
Responsabilidades
Construir monitoreo, alertas, auto-sanación.
Optimizar la utilización y programación de GPU.
Hacer cumplir los SLA y los objetivos de disponibilidad.
Soportar la aislamiento & seguridad multi-inquilino.
Pila Tecnológica
Kubernetes / Slurm
Prometheus / Grafana
Terraform / Ansible
NVIDIA DCGM
Calificaciones
Competencia en Ingeniería de Fiabilidad de Sitios y Resolución de Problemas. * Experiencia con scripting, automatización y optimización de flujos de trabajo.
SEÑAL: VALOR ATÍPICO
Estamos constantemente buscando ingenieros 10x. Si no encajas en una descripción de rol estándar pero puedes optimizar clusters GB300 o diseñar tejidos de baja latencia, inicia contacto de inmediato.
SEÑAL: VALOR ATÍPICO
Estamos constantemente buscando ingenieros 10x. Si no encajas en una descripción de rol estándar pero puedes optimizar clusters GB300 o diseñar tejidos de baja latencia, inicia contacto de inmediato.
SEÑAL: VALOR ATÍPICO
Estamos constantemente buscando ingenieros 10x. Si no encajas en una descripción de rol estándar pero puedes optimizar clusters GB300 o diseñar tejidos de baja latencia, inicia contacto de inmediato.
ARQUITECTURA CENTRAL

NVIDIA
H100 / Clase Blackwell

Kubernetes
Capa de Orquestación

PyTorch
Marco de ML

Óxido / Ir
Sistemas de Alto Rendimiento