GPU 平台 / SRE 工程師

工程

波士頓 / 現場

建構使我們的網格持續運作的自動化。Kubernetes、Slurm、Prometheus 和 NVIDIA DCGM。專注於可靠性和自我修復。

GPU 平台 / SRE 工程師

工程

波士頓 / 現場

建構使我們的網格持續運作的自動化。Kubernetes、Slurm、Prometheus 和 NVIDIA DCGM。專注於可靠性和自我修復。

GPU 平台 / SRE 工程師

工程

波士頓 / 現場

建構使我們的網格持續運作的自動化。Kubernetes、Slurm、Prometheus 和 NVIDIA DCGM。專注於可靠性和自我修復。

GPU 平台 / SRE 工程師

工程

波士頓 / 現場

建構使我們的網格持續運作的自動化。Kubernetes、Slurm、Prometheus 和 NVIDIA DCGM。專注於可靠性和自我修復。

焦點可靠性 + 自動化。

角色描述

GPU平台/SRE工程師將負責構建、維護和故障排除高性能的基於GPU的計算基礎設施。每日任務包括設計和改善系統可靠性、管理基礎設施，並主動識別性能瓶頸。

職責

構建監控、警報、自動修復。
優化GPU利用率和排程。
執行SLA和可用性目標。
支持多租戶隔離和安全性。

技術棧

Kubernetes / Slurm
Prometheus / Grafana
Terraform / Ansible
NVIDIA DCGM

資格條件

具備網站可靠性工程和故障排除的專業知識。* 具備腳本編寫、自動化和工作流程優化的經驗。

焦點可靠性 + 自動化。

角色描述

職責

構建監控、警報、自動修復。
優化GPU利用率和排程。
執行SLA和可用性目標。
支持多租戶隔離和安全性。

技術棧

Kubernetes / Slurm
Prometheus / Grafana
Terraform / Ansible
NVIDIA DCGM

資格條件

具備網站可靠性工程和故障排除的專業知識。* 具備腳本編寫、自動化和工作流程優化的經驗。

信號：異常值

我們不斷尋找10倍的工程師。如果您不符合標準職位描述，但能夠優化GB300叢集或設計低延遲的架構，請立即聯繫我們。

信號：異常值

我們不斷尋找10倍的工程師。如果您不符合標準職位描述，但能夠優化GB300叢集或設計低延遲的架構，請立即聯繫我們。

信號：異常值

我們不斷尋找10倍的工程師。如果您不符合標準職位描述，但能夠優化GB300叢集或設計低延遲的架構，請立即聯繫我們。

核心架構

NVIDIA

H100 / 布萊克威爾級

Kubernetes

管弦樂層

PyTorch

機器學習框架

Rust / Go

高性能系統

GPU 平台 / SRE 工程師

GPU 平台 / SRE 工程師

GPU 平台 / SRE 工程師

GPU 平台 / SRE 工程師

焦點可靠性 + 自動化。

角色描述

職責

技術棧

資格條件

焦點可靠性 + 自動化。

角色描述

職責

技術棧

資格條件

信號：異常值

信號：異常值

信號：異常值

核心架構

菜單

社交

菜單

社交

菜單

社交

GPU 平台 / SRE 工程師

GPU 平台 / SRE 工程師

GPU 平台 / SRE 工程師

GPU 平台 / SRE 工程師

焦點 可靠性 + 自動化。

角色描述

職責

技術棧

資格條件

焦點 可靠性 + 自動化。

角色描述

職責

技術棧

資格條件

信號：異常值

信號：異常值

信號：異常值

核心架構

焦點可靠性 + 自動化。

焦點可靠性 + 自動化。