메인 콘텐츠로 건너뛰기

Documentation Index

Fetch the complete documentation index at: https://docs.cloud.vessl.ai/llms.txt

Use this file to discover all available pages before exploring further.

Metrics 탭에서는 GPU, VRAM, 온도, CPU, 메모리, 네트워크, 스토리지 시계열 차트를 보여줘서, Job 실행 중이나 종료 후에도 하드웨어가 효율적으로 쓰이고 있는지 확인하고 낭비를 찾아낼 수 있어요.
GPU, VRAM, 온도, CPU, 메모리, 네트워크, 스토리지 차트가 보이는 Job 메트릭 탭

차트

Job 메트릭은 Workspace와 동일한 차트 패밀리를 사용해요. 임계값과 축 단위, 해석 방법은 Workspace 메트릭을 참고해 주세요:
  • GPU 사용률(0-100%): 컴퓨트 사용량. 30% 미만이면 리소스가 과다 할당됐을 수 있어요.
  • VRAM 사용량(GB): 그래픽 메모리 사용량. 95%를 넘으면 OOM(Out of Memory) 위험이 있어요.
  • 온도(°C): 85°C를 지속적으로 넘으면 thermal throttling이 발생할 수 있어요.
  • CPU·메모리: 할당된 CPU 코어와 시스템 RAM 사용량.
  • 네트워크 I/O: 들어오고(Rx) 나가는(Tx) 데이터 전송량.
  • 스토리지: Job에 마운트된 Temporary, Cluster storage, Object storage 사용량.

시간 범위

차트 상단의 시간 범위 셀렉터에서 윈도우를 선택할 수 있어요: 1h(기본), 6h, 12h, 1d, 7d. 모든 차트가 함께 갱신돼요.

Idle 감지

GPU 사용률이 일정 시간(1시간 평균) 동안 30% 아래이면 홈 대시보드에서 idle로 표시돼요. 메트릭을 확인한 다음 과금을 멈추기 위해 Job을 종료할지 그대로 둘지 결정할 수 있어요.

함께 보기