GPU 플랫폼 / SRE 엔지니어

공학

보스턴 / 현장

우리 그리드를 살리는 자동화를 구축하세요. Kubernetes, Slurm, Prometheus, 그리고 NVIDIA DCGM. 신뢰성과 자동 복구에 집중하세요.

GPU 플랫폼 / SRE 엔지니어

공학

보스턴 / 현장

우리 그리드를 살리는 자동화를 구축하세요. Kubernetes, Slurm, Prometheus, 그리고 NVIDIA DCGM. 신뢰성과 자동 복구에 집중하세요.

GPU 플랫폼 / SRE 엔지니어

공학

보스턴 / 현장

우리 그리드를 살리는 자동화를 구축하세요. Kubernetes, Slurm, Prometheus, 그리고 NVIDIA DCGM. 신뢰성과 자동 복구에 집중하세요.

GPU 플랫폼 / SRE 엔지니어

공학

보스턴 / 현장

우리 그리드를 살리는 자동화를 구축하세요. Kubernetes, Slurm, Prometheus, 그리고 NVIDIA DCGM. 신뢰성과 자동 복구에 집중하세요.

중점 신뢰성 + 자동화.

역할 설명

GPU 플랫폼/SRE 엔지니어는 고성능 GPU 기반 컴퓨팅 인프라를 구축, 유지 관리 및 문제 해결하는 일을 담당합니다. 일일 작업에는 시스템 신뢰성 설계 및 개선, 인프라 관리, 성능 병목 현상 사전 식별이 포함됩니다.

책임

모니터링, 경고, 자동 복구 구축.
GPU 활용도 및 스케줄링 최적화.
SLA 및 가용성 목표 시행.
멀티 테넌트 격리 및 보안 지원.

기술 스택

Kubernetes / Slurm
Prometheus / Grafana
Terraform / Ansible
NVIDIA DCGM

자격

사이트 신뢰성 엔지니어링 및 문제 해결에 대한 숙련도. * 스크립팅, 자동화 및 워크플로 최적화 경험.

중점 신뢰성 + 자동화.

역할 설명

책임

모니터링, 경고, 자동 복구 구축.
GPU 활용도 및 스케줄링 최적화.
SLA 및 가용성 목표 시행.
멀티 테넌트 격리 및 보안 지원.

기술 스택

Kubernetes / Slurm
Prometheus / Grafana
Terraform / Ansible
NVIDIA DCGM

자격

사이트 신뢰성 엔지니어링 및 문제 해결에 대한 숙련도. * 스크립팅, 자동화 및 워크플로 최적화 경험.

신호: 이상치

우리는 10배의 엔지니어를 지속적으로 찾고 있습니다. 표준 역할 설명에 맞지 않더라도 GB300 클러스터를 최적화하거나 저지연 패브릭을 설계할 수 있다면 즉시 연락해 주십시오.

신호: 이상치

핵심 아키텍처

NVIDIA GB200 및 H100

블랙웰 / 호퍼 건축

쿠버네티스

오케스트레이션 계층

파이토치

ML 프레임워크

러스트 / 고

고성능 시스템

우리의 사명을 발견하세요

우리의 사명을 발견하세요

GPU 플랫폼 / SRE 엔지니어

GPU 플랫폼 / SRE 엔지니어

GPU 플랫폼 / SRE 엔지니어

GPU 플랫폼 / SRE 엔지니어

중점 신뢰성 + 자동화.

역할 설명

책임

기술 스택

자격

중점 신뢰성 + 자동화.

역할 설명

책임

기술 스택

자격

신호: 이상치

신호: 이상치

신호: 이상치

핵심 아키텍처

메뉴

사회

메뉴

사회

메뉴

사회