Plataforma GPU / Ingeniero SRE

Ingeniería

Boston / En el sitio

Construye la automatización que mantiene viva nuestra red. Kubernetes, Slurm, Prometheus y NVIDIA DCGM. Enfócate en la fiabilidad y la autorrecuperación.

Plataforma GPU / Ingeniero SRE

Ingeniería

Boston / En el sitio

Construye la automatización que mantiene viva nuestra red. Kubernetes, Slurm, Prometheus y NVIDIA DCGM. Enfócate en la fiabilidad y la autorrecuperación.

Plataforma GPU / Ingeniero SRE

Ingeniería

Boston / En el sitio

Construye la automatización que mantiene viva nuestra red. Kubernetes, Slurm, Prometheus y NVIDIA DCGM. Enfócate en la fiabilidad y la autorrecuperación.

Plataforma GPU / Ingeniero SRE

Ingeniería

Boston / En el sitio

Construye la automatización que mantiene viva nuestra red. Kubernetes, Slurm, Prometheus y NVIDIA DCGM. Enfócate en la fiabilidad y la autorrecuperación.

Enfoque Fiabilidad + Automatización.

Descripción del Rol

El Ingeniero de Plataforma/GPU SRE será responsable de construir, mantener y solucionar problemas de infraestructura de computación de alto rendimiento basada en GPU. Las tareas diarias incluyen diseñar y mejorar la fiabilidad del sistema, gestionar la infraestructura y identificar proactivamente los cuellos de botella en el rendimiento.

Responsabilidades

Construir monitoreo, alertas, auto-sanación.
Optimizar la utilización y programación de GPU.
Hacer cumplir los SLA y los objetivos de disponibilidad.
Soportar la aislamiento & seguridad multi-inquilino.

Pila Tecnológica

Kubernetes / Slurm
Prometheus / Grafana
Terraform / Ansible
NVIDIA DCGM

Calificaciones

Competencia en Ingeniería de Fiabilidad de Sitios y Resolución de Problemas. * Experiencia con scripting, automatización y optimización de flujos de trabajo.

Enfoque Fiabilidad + Automatización.

Descripción del Rol

Responsabilidades

Construir monitoreo, alertas, auto-sanación.
Optimizar la utilización y programación de GPU.
Hacer cumplir los SLA y los objetivos de disponibilidad.
Soportar la aislamiento & seguridad multi-inquilino.

Pila Tecnológica

Kubernetes / Slurm
Prometheus / Grafana
Terraform / Ansible
NVIDIA DCGM

Calificaciones

Competencia en Ingeniería de Fiabilidad de Sitios y Resolución de Problemas. * Experiencia con scripting, automatización y optimización de flujos de trabajo.

SEÑAL: VALOR ATÍPICO

Estamos constantemente buscando ingenieros 10x. Si no encajas en una descripción de rol estándar pero puedes optimizar clusters GB300 o diseñar tejidos de baja latencia, inicia contacto de inmediato.

SEÑAL: VALOR ATÍPICO

ARQUITECTURA CENTRAL

NVIDIA GB200 y H100

Arquitectura Blackwell / Hopper

Kubernetes

Capa de Orquestación

PyTorch

Marco de ML

Óxido / Ir

Sistemas de Alto Rendimiento

Plataforma GPU / Ingeniero SRE

Plataforma GPU / Ingeniero SRE

Plataforma GPU / Ingeniero SRE

Plataforma GPU / Ingeniero SRE

Enfoque Fiabilidad + Automatización.

Descripción del Rol

Responsabilidades

Pila Tecnológica

Calificaciones

Enfoque Fiabilidad + Automatización.

Descripción del Rol

Responsabilidades

Pila Tecnológica

Calificaciones

SEÑAL: VALOR ATÍPICO

SEÑAL: VALOR ATÍPICO

SEÑAL: VALOR ATÍPICO

ARQUITECTURA CENTRAL

Menú

Social

Menú

Social

Menú

Social