

GPU 플랫폼 / SRE 엔지니어
공학
보스턴 / 현장
우리 그리드를 살리는 자동화를 구축하세요. Kubernetes, Slurm, Prometheus, 그리고 NVIDIA DCGM. 신뢰성과 자동 복구에 집중하세요.


GPU 플랫폼 / SRE 엔지니어
공학
보스턴 / 현장
우리 그리드를 살리는 자동화를 구축하세요. Kubernetes, Slurm, Prometheus, 그리고 NVIDIA DCGM. 신뢰성과 자동 복구에 집중하세요.


GPU 플랫폼 / SRE 엔지니어
공학
보스턴 / 현장
우리 그리드를 살리는 자동화를 구축하세요. Kubernetes, Slurm, Prometheus, 그리고 NVIDIA DCGM. 신뢰성과 자동 복구에 집중하세요.


GPU 플랫폼 / SRE 엔지니어
공학
보스턴 / 현장
우리 그리드를 살리는 자동화를 구축하세요. Kubernetes, Slurm, Prometheus, 그리고 NVIDIA DCGM. 신뢰성과 자동 복구에 집중하세요.
중점 신뢰성 + 자동화.
역할 설명
GPU 플랫폼/SRE 엔지니어는 고성능 GPU 기반 컴퓨팅 인프라를 구축, 유지 관리 및 문제 해결하는 일을 담당합니다. 일일 작업에는 시스템 신뢰성 설계 및 개선, 인프라 관리, 성능 병목 현상 사전 식별이 포함됩니다.
책임
모니터링, 경고, 자동 복구 구축.
GPU 활용도 및 스케줄링 최적화.
SLA 및 가용성 목표 시행.
멀티 테넌트 격리 및 보안 지원.
기술 스택
Kubernetes / Slurm
Prometheus / Grafana
Terraform / Ansible
NVIDIA DCGM
자격
사이트 신뢰성 엔지니어링 및 문제 해결에 대한 숙련도. * 스크립팅, 자동화 및 워크플로 최적화 경험.
중점 신뢰성 + 자동화.
역할 설명
GPU 플랫폼/SRE 엔지니어는 고성능 GPU 기반 컴퓨팅 인프라를 구축, 유지 관리 및 문제 해결하는 일을 담당합니다. 일일 작업에는 시스템 신뢰성 설계 및 개선, 인프라 관리, 성능 병목 현상 사전 식별이 포함됩니다.
책임
모니터링, 경고, 자동 복구 구축.
GPU 활용도 및 스케줄링 최적화.
SLA 및 가용성 목표 시행.
멀티 테넌트 격리 및 보안 지원.
기술 스택
Kubernetes / Slurm
Prometheus / Grafana
Terraform / Ansible
NVIDIA DCGM
자격
사이트 신뢰성 엔지니어링 및 문제 해결에 대한 숙련도. * 스크립팅, 자동화 및 워크플로 최적화 경험.
신호: 이상치
우리는 10배의 엔지니어를 지속적으로 찾고 있습니다. 표준 역할 설명에 맞지 않더라도 GB300 클러스터를 최적화하거나 저지연 패브릭을 설계할 수 있다면 즉시 연락해 주십시오.
신호: 이상치
우리는 10배의 엔지니어를 지속적으로 찾고 있습니다. 표준 역할 설명에 맞지 않더라도 GB300 클러스터를 최적화하거나 저지연 패브릭을 설계할 수 있다면 즉시 연락해 주십시오.
신호: 이상치
우리는 10배의 엔지니어를 지속적으로 찾고 있습니다. 표준 역할 설명에 맞지 않더라도 GB300 클러스터를 최적화하거나 저지연 패브릭을 설계할 수 있다면 즉시 연락해 주십시오.
핵심 아키텍처

NVIDIA GB200 및 H100
블랙웰 / 호퍼 건축

쿠버네티스
오케스트레이션 계층

파이토치
ML 프레임워크

러스트 / 고
고성능 시스템