

GPU 平台 / SRE 工程師
工程
波士頓 / 現場
建構使我們的網格持續運作的自動化。Kubernetes、Slurm、Prometheus 和 NVIDIA DCGM。專注於可靠性和自我修復。


GPU 平台 / SRE 工程師
工程
波士頓 / 現場
建構使我們的網格持續運作的自動化。Kubernetes、Slurm、Prometheus 和 NVIDIA DCGM。專注於可靠性和自我修復。


GPU 平台 / SRE 工程師
工程
波士頓 / 現場
建構使我們的網格持續運作的自動化。Kubernetes、Slurm、Prometheus 和 NVIDIA DCGM。專注於可靠性和自我修復。


GPU 平台 / SRE 工程師
工程
波士頓 / 現場
建構使我們的網格持續運作的自動化。Kubernetes、Slurm、Prometheus 和 NVIDIA DCGM。專注於可靠性和自我修復。
焦點 可靠性 + 自動化。
角色描述
GPU平台/SRE工程師將負責構建、維護和故障排除高性能的基於GPU的計算基礎設施。每日任務包括設計和改善系統可靠性、管理基礎設施,並主動識別性能瓶頸。
職責
構建監控、警報、自動修復。
優化GPU利用率和排程。
執行SLA和可用性目標。
支持多租戶隔離和安全性。
技術棧
Kubernetes / Slurm
Prometheus / Grafana
Terraform / Ansible
NVIDIA DCGM
資格條件
具備網站可靠性工程和故障排除的專業知識。* 具備腳本編寫、自動化和工作流程優化的經驗。
焦點 可靠性 + 自動化。
角色描述
GPU平台/SRE工程師將負責構建、維護和故障排除高性能的基於GPU的計算基礎設施。每日任務包括設計和改善系統可靠性、管理基礎設施,並主動識別性能瓶頸。
職責
構建監控、警報、自動修復。
優化GPU利用率和排程。
執行SLA和可用性目標。
支持多租戶隔離和安全性。
技術棧
Kubernetes / Slurm
Prometheus / Grafana
Terraform / Ansible
NVIDIA DCGM
資格條件
具備網站可靠性工程和故障排除的專業知識。* 具備腳本編寫、自動化和工作流程優化的經驗。
信號:異常值
我們不斷尋找10倍的工程師。如果您不符合標準職位描述,但能夠優化GB300叢集或設計低延遲的架構,請立即聯繫我們。
信號:異常值
我們不斷尋找10倍的工程師。如果您不符合標準職位描述,但能夠優化GB300叢集或設計低延遲的架構,請立即聯繫我們。
信號:異常值
我們不斷尋找10倍的工程師。如果您不符合標準職位描述,但能夠優化GB300叢集或設計低延遲的架構,請立即聯繫我們。
核心架構

NVIDIA
H100 / 布萊克威爾級

Kubernetes
管弦樂層

PyTorch
機器學習框架

Rust / Go
高性能系統