焦點 可靠性 + 自動化。

角色描述

GPU平台/SRE工程師將負責構建、維護和故障排除高性能的基於GPU的計算基礎設施。每日任務包括設計和改善系統可靠性、管理基礎設施,並主動識別性能瓶頸。

職責

  • 構建監控、警報、自動修復。

  • 優化GPU利用率和排程。

  • 執行SLA和可用性目標。

  • 支持多租戶隔離和安全性。


技術棧

  • Kubernetes / Slurm

  • Prometheus / Grafana

  • Terraform / Ansible

  • NVIDIA DCGM

資格條件

  • 具備網站可靠性工程和故障排除的專業知識。* 具備腳本編寫、自動化和工作流程優化的經驗。


焦點 可靠性 + 自動化。

角色描述

GPU平台/SRE工程師將負責構建、維護和故障排除高性能的基於GPU的計算基礎設施。每日任務包括設計和改善系統可靠性、管理基礎設施,並主動識別性能瓶頸。

職責

  • 構建監控、警報、自動修復。

  • 優化GPU利用率和排程。

  • 執行SLA和可用性目標。

  • 支持多租戶隔離和安全性。


技術棧

  • Kubernetes / Slurm

  • Prometheus / Grafana

  • Terraform / Ansible

  • NVIDIA DCGM

資格條件

  • 具備網站可靠性工程和故障排除的專業知識。* 具備腳本編寫、自動化和工作流程優化的經驗。


核心架構

NVIDIA

H100 / 布萊克威爾級

Kubernetes

管弦樂層

PyTorch

機器學習框架

Rust / Go

高性能系統