중점 신뢰성 + 자동화.

역할 설명

GPU 플랫폼/SRE 엔지니어는 고성능 GPU 기반 컴퓨팅 인프라를 구축, 유지 관리 및 문제 해결하는 일을 담당합니다. 일일 작업에는 시스템 신뢰성 설계 및 개선, 인프라 관리, 성능 병목 현상 사전 식별이 포함됩니다.

책임

  • 모니터링, 경고, 자동 복구 구축.

  • GPU 활용도 및 스케줄링 최적화.

  • SLA 및 가용성 목표 시행.

  • 멀티 테넌트 격리 및 보안 지원.


기술 스택

  • Kubernetes / Slurm

  • Prometheus / Grafana

  • Terraform / Ansible

  • NVIDIA DCGM

자격

  • 사이트 신뢰성 엔지니어링 및 문제 해결에 대한 숙련도. * 스크립팅, 자동화 및 워크플로 최적화 경험.


중점 신뢰성 + 자동화.

역할 설명

GPU 플랫폼/SRE 엔지니어는 고성능 GPU 기반 컴퓨팅 인프라를 구축, 유지 관리 및 문제 해결하는 일을 담당합니다. 일일 작업에는 시스템 신뢰성 설계 및 개선, 인프라 관리, 성능 병목 현상 사전 식별이 포함됩니다.

책임

  • 모니터링, 경고, 자동 복구 구축.

  • GPU 활용도 및 스케줄링 최적화.

  • SLA 및 가용성 목표 시행.

  • 멀티 테넌트 격리 및 보안 지원.


기술 스택

  • Kubernetes / Slurm

  • Prometheus / Grafana

  • Terraform / Ansible

  • NVIDIA DCGM

자격

  • 사이트 신뢰성 엔지니어링 및 문제 해결에 대한 숙련도. * 스크립팅, 자동화 및 워크플로 최적화 경험.


핵심 아키텍처

NVIDIA GB200 및 H100

블랙웰 / 호퍼 건축

쿠버네티스

오케스트레이션 계층

파이토치

ML 프레임워크

러스트 / 고

고성능 시스템