VESSL Cloud Documentation

각 노드는 GPU 8개 개요와 함께 GPU, 시스템, 네트워크, InfiniBand 메트릭을 시계열 차트로 보여줘요. Active 클러스터의 Node management 탭에서 노드를 클릭하면 노드 상세 페이지가 열려요.

GPU 개요

각 노드는 GPU 8개를 사용률, VRAM, 온도, 전력과 GPU별 헬스 배지로 보여줘요. 배지 상태가 의미하는 바는 헬스 체크에서 확인할 수 있어요.

시간 범위

시간 범위는 1h, 6h, 12h, 1d, 7d, 30d 중에서 고를 수 있어요. 더 깊이 분석하려면 연결된 Grafana 대시보드를 열어 보세요.

메트릭 차트

메트릭은 6개 섹션, 총 25개 차트로 묶여 있어요.

Utilization (2개)

GPU가 실제로 일하고 있는지, 메모리는 얼마나 차 있는지 확인해요.

Utilization 섹션: GPU Utilization과 GPU Memory Used 시계열 차트

차트	설명
GPU Utilization	VM에 붙은 GPU가 실제로 일하는 시간 비율이에요. 사용률이 낮으면 GPU가 노는 상태인데, GPU를 과하게 할당받았거나 vCPU 쪽에서 GPU한테 일감을 충분히 못 보내고 있는 거예요.
GPU Memory Used	각 GPU의 frame buffer(VRAM)에 올라가 있는 데이터 양이에요. 0으로 뚝 떨어지면 VM 내부 프로세스가 죽은 거고, 계속 늘어나면 메모리 누수예요.

System (7개)

GPU 밖의 병목을 찾아요. vCPU 포화, 메모리 압박, 디스크, 네트워크, VM 전반 상태를 한 섹션에서 봐요.

System 섹션(상단): CPU Usage, Load Average, System Memory Usage, Root Disk Usage 차트

System 섹션(이어서): Network RX, Network TX, Node Uptime 차트

차트	설명
CPU Usage	VM에 할당된 vCPU(가상 CPU)가 일하는 시간 비율이에요. 높은 값이 지속되면 vCPU가 포화 상태고, 같은 시점에 GPU가 놀고 있으면 vCPU가 병목이에요.
Load Average (5m)	최근 5분간 VM 안에서 vCPU를 기다리는 프로세스 수의 평균이에요. 높은 값이 지속되면 VM이 처리량을 못 따라가고 있다는 신호예요.
System Memory Usage	VM에 할당된 시스템 RAM 사용률이에요. GPU 메모리가 아니라 VM 내부 RAM이에요. 높은 값이 지속되면 VM 안에서 OOM(Out of Memory) 킬러가 발동해서 프로세스가 강제 종료될 수 있고, swap을 쓰기 시작하면 성능이 크게 떨어져요.
Root Disk Usage	VM의 root 파일시스템(`/`) 사용률이에요. 용량이 거의 차면 디스크에 쓰기가 필요한 모든 프로세스가 실패할 수 있어요.
Network RX	VM의 기본 이더넷 인터페이스로 들어오는 트래픽이에요. 트래픽이 예상되는 상황에서 0 B/s가 지속되면 이더넷 링크 문제일 수 있어요. InfiniBand 패브릭과는 별개 네트워크예요.
Network TX	VM의 기본 이더넷으로 나가는 트래픽이에요. API 호출이나 로그 같은 시스템용이고, GPU 간 고속 통신은 InfiniBand로 따로 가요.
Node Uptime	노드의 uptime을 시간축으로 보여주는 지표예요. 1은 정상(critical 알람 없음), 0은 다운(critical 알람 발동 중: XID 에러, ECC DBE, IB 다운 등)이에요. 데이터가 누락된 구간은 노드 보고가 완전히 끊긴 상태예요.

Temperature & power (3개)

열·전력 관련 이상 징후와 스로틀링(throttling) 원인을 추적해요.

Temperature & power 섹션: GPU 온도, 메모리 온도, 전력 사용량 차트

차트	설명
GPU Temperature	GPU 칩 자체의 온도예요. 해당 GPU의 열 제한(thermal throttling) 임계치에 근접하면 thermal throttling이 걸려서 클럭이 자동으로 떨어져요.
Memory Temperature	GPU에 붙은 HBM(High Bandwidth Memory) 메모리 온도예요. GPU Temperature와 같이 보면 메모리와 연산 중 어느 쪽이 thermal hotspot인지 확인할 수 있어요.
Power Usage	GPU 한 장의 현재 전력 소비량이에요. 연산 중에는 해당 GPU의 TDP에 근접한 값이 정상이에요. 0 W면 보통 VM이 GPU를 인식 못 하는 상태고, 출렁거리면 부하가 불안정한 거예요.

Memory & clock detail (3개)

GPU 메모리 엔진 활성도와 클럭 속도로 throttling, 성능 저하를 진단해요.

Memory & clock detail 섹션: 메모리 사용률, 메모리 클럭, SM 클럭 차트

차트	설명
Memory Utilization	GPU 메모리 엔진이 활성 상태인 시간 비율이에요. 시간 기준 활성도지 실제 대역폭(GB/s)이 아니에요. 100%여도 처리량은 다를 수 있어요.
Memory Clock	GPU HBM 메모리의 현재 클럭 속도예요. base 클럭 이하로 떨어지면 throttle 걸린 거예요. Temperature & power 섹션과 같이 봐야 원인 파악돼요.
SM Clock	GPU의 SM(Streaming Multiprocessor, 연산 코어) 클럭 속도예요. base 이하로 떨어지면 전력이나 온도 문제로 throttle 걸린 거예요.

ECC & errors (4개)

GPU 하드웨어 안정성을 모니터링하고, 학습 중단 전에 장애를 조기 감지해요.

ECC & errors 섹션: ECC SBE/DBE와 Remapped Rows 차트

차트	설명
ECC SBE (Correctable)	최근 5분간 발생한 1-bit 메모리 오류 건수예요. 하드웨어가 알아서 교정해주는 종류라 가끔 발생은 정상이에요. 단, 증가 추세가 가파르면 곧 DBE(교정 불가)로 발전할 수 있는 조기 경고 신호예요.
ECC DBE (Uncorrectable)	최근 5분간 발생한 교정 불가능한 메모리 오류예요. 정상값은 0이에요. 1건이라도 나오면 진행 중인 연산이 오염되거나 GPU를 쓰던 프로세스가 크래시될 수 있어요.
Remapped Rows (Correctable Errors)	최근 5분간 교정 가능 오류로 인해 재배치된 HBM row 수예요. 증가 추세면 HBM이 노화되기 시작했다는 신호예요.
Remapped Rows (Uncorrectable Errors)	최근 5분간 교정 불가 오류로 인해 재배치된 HBM row 수예요. 정상값은 0이에요. 1건이라도 발생하면 critical이고, GPU 교체를 고려해야 해요.

InfiniBand detail (6개)

멀티노드 분산 학습에 쓰는 노드 간 패브릭의 상태를 모니터링해요. 처리량, 에러, 링크 안정성을 한 섹션에서 봐요. 각 차트는 HCA(Host Channel Adapter)별로 그려져요.

InfiniBand detail 섹션: HCA별 처리량·수신·심볼 에러 차트

InfiniBand detail 섹션: IB Link Error Recovery와 IB Link Downed 차트

차트	설명
IB TX Throughput	VM에 붙은 HCA별 송신 대역폭이에요. HCA끼리 큰 차이가 나면 케이블이나 스위치 문제고, 한 HCA가 0 Gbps가 지속되면 그 링크가 다운된 상태일 수 있어요.
IB RX Throughput	VM의 HCA별 수신 대역폭이에요. TX와 안 맞으면 라우팅 이상이에요. HCA별로 라인이 나뉘어 있어서 어느 포트가 문제인지 바로 찾을 수 있어요.
IB Receive Errors	최근 5분간 VM IB HCA의 수신 에러 건수예요. 0보다 큰 상태가 지속되면 케이블·포트 이상이고, 다중 VM 워크로드 통신을 방해해요.
IB Symbol Errors	최근 5분간 VM IB HCA에서 발생한 심볼 에러예요. 케이블 노화나 광 모듈 이상의 신호예요.
IB Link Error Recovery	최근 5분간 VM IB 링크가 끊겼다가 자동 복구된 횟수예요. 증가 추세면 링크가 불안정해지는 중이고, 곧 Link Downed로 갈 수 있어요.
IB Link Downed	최근 5분간 VM IB 링크가 다운된 횟수예요. 정상값은 0. 1건이라도 발생하면 VM이 IB 패브릭에서 떨어져 나가요.

​GPU 개요

​시간 범위

​메트릭 차트

​Utilization (2개)

​System (7개)

​Temperature & power (3개)

​Memory & clock detail (3개)

​ECC & errors (4개)

​InfiniBand detail (6개)