GPU 개요
각 노드는 GPU 8개를 사용률, VRAM, 온도, 전력과 GPU별 헬스 배지로 보여줘요. 배지 상태가 의미하는 바는 헬스 체크에서 확인할 수 있어요.
시간 범위
시간 범위는 1h, 6h, 12h, 1d, 7d, 30d 중에서 고를 수 있어요. 더 깊이 분석하려면 연결된 Grafana 대시보드를 열어 보세요.메트릭 차트
메트릭은 6개 섹션, 총 25개 차트로 묶여 있어요.Utilization (2개)
GPU가 실제로 일하고 있는지, 메모리는 얼마나 차 있는지 확인해요.
| 차트 | 설명 |
|---|---|
| GPU Utilization | VM에 붙은 GPU가 실제로 일하는 시간 비율이에요. 사용률이 낮으면 GPU가 노는 상태인데, GPU를 과하게 할당받았거나 vCPU 쪽에서 GPU한테 일감을 충분히 못 보내고 있는 거예요. |
| GPU Memory Used | 각 GPU의 frame buffer(VRAM)에 올라가 있는 데이터 양이에요. 0으로 뚝 떨어지면 VM 내부 프로세스가 죽은 거고, 계속 늘어나면 메모리 누수예요. |
System (7개)
GPU 밖의 병목을 찾아요. vCPU 포화, 메모리 압박, 디스크, 네트워크, VM 전반 상태를 한 섹션에서 봐요.

| 차트 | 설명 |
|---|---|
| CPU Usage | VM에 할당된 vCPU(가상 CPU)가 일하는 시간 비율이에요. 높은 값이 지속되면 vCPU가 포화 상태고, 같은 시점에 GPU가 놀고 있으면 vCPU가 병목이에요. |
| Load Average (5m) | 최근 5분간 VM 안에서 vCPU를 기다리는 프로세스 수의 평균이에요. 높은 값이 지속되면 VM이 처리량을 못 따라가고 있다는 신호예요. |
| System Memory Usage | VM에 할당된 시스템 RAM 사용률이에요. GPU 메모리가 아니라 VM 내부 RAM이에요. 높은 값이 지속되면 VM 안에서 OOM(Out of Memory) 킬러가 발동해서 프로세스가 강제 종료될 수 있고, swap을 쓰기 시작하면 성능이 크게 떨어져요. |
| Root Disk Usage | VM의 root 파일시스템(/) 사용률이에요. 용량이 거의 차면 디스크에 쓰기가 필요한 모든 프로세스가 실패할 수 있어요. |
| Network RX | VM의 기본 이더넷 인터페이스로 들어오는 트래픽이에요. 트래픽이 예상되는 상황에서 0 B/s가 지속되면 이더넷 링크 문제일 수 있어요. InfiniBand 패브릭과는 별개 네트워크예요. |
| Network TX | VM의 기본 이더넷으로 나가는 트래픽이에요. API 호출이나 로그 같은 시스템용이고, GPU 간 고속 통신은 InfiniBand로 따로 가요. |
| Node Uptime | 노드의 uptime을 시간축으로 보여주는 지표예요. 1은 정상(critical 알람 없음), 0은 다운(critical 알람 발동 중: XID 에러, ECC DBE, IB 다운 등)이에요. 데이터가 누락된 구간은 노드 보고가 완전히 끊긴 상태예요. |
Temperature & power (3개)
열·전력 관련 이상 징후와 스로틀링(throttling) 원인을 추적해요.
| 차트 | 설명 |
|---|---|
| GPU Temperature | GPU 칩 자체의 온도예요. 해당 GPU의 열 제한(thermal throttling) 임계치에 근접하면 thermal throttling이 걸려서 클럭이 자동으로 떨어져요. |
| Memory Temperature | GPU에 붙은 HBM(High Bandwidth Memory) 메모리 온도예요. GPU Temperature와 같이 보면 메모리와 연산 중 어느 쪽이 thermal hotspot인지 확인할 수 있어요. |
| Power Usage | GPU 한 장의 현재 전력 소비량이에요. 연산 중에는 해당 GPU의 TDP에 근접한 값이 정상이에요. 0 W면 보통 VM이 GPU를 인식 못 하는 상태고, 출렁거리면 부하가 불안정한 거예요. |
Memory & clock detail (3개)
GPU 메모리 엔진 활성도와 클럭 속도로 throttling, 성능 저하를 진단해요.
| 차트 | 설명 |
|---|---|
| Memory Utilization | GPU 메모리 엔진이 활성 상태인 시간 비율이에요. 시간 기준 활성도지 실제 대역폭(GB/s)이 아니에요. 100%여도 처리량은 다를 수 있어요. |
| Memory Clock | GPU HBM 메모리의 현재 클럭 속도예요. base 클럭 이하로 떨어지면 throttle 걸린 거예요. Temperature & power 섹션과 같이 봐야 원인 파악돼요. |
| SM Clock | GPU의 SM(Streaming Multiprocessor, 연산 코어) 클럭 속도예요. base 이하로 떨어지면 전력이나 온도 문제로 throttle 걸린 거예요. |
ECC & errors (4개)
GPU 하드웨어 안정성을 모니터링하고, 학습 중단 전에 장애를 조기 감지해요.
| 차트 | 설명 |
|---|---|
| ECC SBE (Correctable) | 최근 5분간 발생한 1-bit 메모리 오류 건수예요. 하드웨어가 알아서 교정해주는 종류라 가끔 발생은 정상이에요. 단, 증가 추세가 가파르면 곧 DBE(교정 불가)로 발전할 수 있는 조기 경고 신호예요. |
| ECC DBE (Uncorrectable) | 최근 5분간 발생한 교정 불가능한 메모리 오류예요. 정상값은 0이에요. 1건이라도 나오면 진행 중인 연산이 오염되거나 GPU를 쓰던 프로세스가 크래시될 수 있어요. |
| Remapped Rows (Correctable Errors) | 최근 5분간 교정 가능 오류로 인해 재배치된 HBM row 수예요. 증가 추세면 HBM이 노화되기 시작했다는 신호예요. |
| Remapped Rows (Uncorrectable Errors) | 최근 5분간 교정 불가 오류로 인해 재배치된 HBM row 수예요. 정상값은 0이에요. 1건이라도 발생하면 critical이고, GPU 교체를 고려해야 해요. |
InfiniBand detail (6개)
멀티노드 분산 학습에 쓰는 노드 간 패브릭의 상태를 모니터링해요. 처리량, 에러, 링크 안정성을 한 섹션에서 봐요. 각 차트는 HCA(Host Channel Adapter)별로 그려져요.

| 차트 | 설명 |
|---|---|
| IB TX Throughput | VM에 붙은 HCA별 송신 대역폭이에요. HCA끼리 큰 차이가 나면 케이블이나 스위치 문제고, 한 HCA가 0 Gbps가 지속되면 그 링크가 다운된 상태일 수 있어요. |
| IB RX Throughput | VM의 HCA별 수신 대역폭이에요. TX와 안 맞으면 라우팅 이상이에요. HCA별로 라인이 나뉘어 있어서 어느 포트가 문제인지 바로 찾을 수 있어요. |
| IB Receive Errors | 최근 5분간 VM IB HCA의 수신 에러 건수예요. 0보다 큰 상태가 지속되면 케이블·포트 이상이고, 다중 VM 워크로드 통신을 방해해요. |
| IB Symbol Errors | 최근 5분간 VM IB HCA에서 발생한 심볼 에러예요. 케이블 노화나 광 모듈 이상의 신호예요. |
| IB Link Error Recovery | 최근 5분간 VM IB 링크가 끊겼다가 자동 복구된 횟수예요. 증가 추세면 링크가 불안정해지는 중이고, 곧 Link Downed로 갈 수 있어요. |
| IB Link Downed | 최근 5분간 VM IB 링크가 다운된 횟수예요. 정상값은 0. 1건이라도 발생하면 VM이 IB 패브릭에서 떨어져 나가요. |
