Enfoque Fiabilidad + Automatización.

Descripción del Rol

El Ingeniero de Plataforma/GPU SRE será responsable de construir, mantener y solucionar problemas de infraestructura de computación de alto rendimiento basada en GPU. Las tareas diarias incluyen diseñar y mejorar la fiabilidad del sistema, gestionar la infraestructura y identificar proactivamente los cuellos de botella en el rendimiento.

Responsabilidades

  • Construir monitoreo, alertas, auto-sanación.

  • Optimizar la utilización y programación de GPU.

  • Hacer cumplir los SLA y los objetivos de disponibilidad.

  • Soportar la aislamiento & seguridad multi-inquilino.


Pila Tecnológica

  • Kubernetes / Slurm

  • Prometheus / Grafana

  • Terraform / Ansible

  • NVIDIA DCGM

Calificaciones

  • Competencia en Ingeniería de Fiabilidad de Sitios y Resolución de Problemas. * Experiencia con scripting, automatización y optimización de flujos de trabajo.


Enfoque Fiabilidad + Automatización.

Descripción del Rol

El Ingeniero de Plataforma/GPU SRE será responsable de construir, mantener y solucionar problemas de infraestructura de computación de alto rendimiento basada en GPU. Las tareas diarias incluyen diseñar y mejorar la fiabilidad del sistema, gestionar la infraestructura y identificar proactivamente los cuellos de botella en el rendimiento.

Responsabilidades

  • Construir monitoreo, alertas, auto-sanación.

  • Optimizar la utilización y programación de GPU.

  • Hacer cumplir los SLA y los objetivos de disponibilidad.

  • Soportar la aislamiento & seguridad multi-inquilino.


Pila Tecnológica

  • Kubernetes / Slurm

  • Prometheus / Grafana

  • Terraform / Ansible

  • NVIDIA DCGM

Calificaciones

  • Competencia en Ingeniería de Fiabilidad de Sitios y Resolución de Problemas. * Experiencia con scripting, automatización y optimización de flujos de trabajo.


ARQUITECTURA CENTRAL

NVIDIA

H100 / Clase Blackwell

Kubernetes

Capa de Orquestación

PyTorch

Marco de ML

Óxido / Ir

Sistemas de Alto Rendimiento