메인 콘텐츠로 건너뛰기
클러스터의 모든 노드는 1분마다 헬스 체크를 거쳐요. 각 GPU는 개별 헬스 상태를 갖고, 노드 레벨 조건(메모리, 디스크, 커널 모듈, InfiniBand, 관측 공백)은 한데 모여서 노드 종합 상태로 표시돼요.

노드 개요

클러스터 상세 페이지의 Node overview 영역에서 각 노드가 색깔 셀로 표시돼서 클러스터 전체 헬스를 한눈에 볼 수 있어요.

헬스 상태

헬스 상태의미
Healthy🟢활성 알람이 없어요.
Warning🟡경고급 알람이 하나 이상 있어요. 사용 가능하지만 주의가 필요해요.
Critical🔴심각 알람이 하나 이상 있어요. 노드를 못 쓰거나 결과가 오염될 수 있어요.
Unknown지금 판정할 수 없는 상태예요. 아래 Unknown 섹션을 참고해 주세요.
노드 헬스 상태는 worst-wins 규칙을 따라요. 모든 알람과 GPU별 상태 중 가장 심각한 색으로 표시돼요. 경고가 많다고 Critical로 올라가지 않아요.

레벨

헬스는 두 레벨에서 추적돼요. 각 GPU가 자체 상태를 갖고, 노드는 자체 점검 항목과 가장 심한 GPU 상태를 합쳐서 종합 상태를 가져요.
레벨어디서 보이는지점검 항목
GPU(디바이스)노드 상세 페이지의 GPU 8칸XID 오류, ECC, 온도, throttling
노드Node overview 칸과 노드 행 dot메모리, 디스크, 커널 모듈, InfiniBand 패브릭, 관측 공백

GPU 점검

GPU별 색은 아래 조건 중 가장 심각한 것을 따라요. 노드는 worst-wins로 가장 심한 GPU 색을 가져가요.
코드조건헬스 상태
gpu_high_tempGPU 온도 ≥ 85°C(지속)🟡 Warning
gpu_high_tempGPU 온도 ≥ 95°C🔴 Critical
gpu_memory_high_tempHBM(메모리) 온도 ≥ 85°C🟡 Warning
gpu_memory_high_tempHBM 온도 ≥ 95°C🔴 Critical
gpu_hw_throttle하드웨어 throttling🟡 Warning
gpu_no_process_high_utilGPU 사용률은 높은데 연결된 프로세스 없음🟡 Warning
row_remap_nearing_limitHBM row remap이 안전 한도에 근접🟡 Warning
gpu_ecc_dbe교정 불가(DBE) ECC 오류🔴 Critical
gpu_row_remap_failureHBM row remap 실패🔴 Critical
gpu_remapped_rows_pendingHBM row remap 대기(재부팅 필요)🔴 Critical
gpu_count_mismatch드라이버에서 GPU 8개 중 누락🔴 Critical
gpu_smi_unhealthynvidia-smi가 unhealthy로 보고🔴 Critical
gpu_driver_pri_bus_faultGPU 드라이버 또는 PCIe 버스 오류🔴 Critical
gpu_recovery_action_requiredGPU recovery action 필요🔴 Critical

XID 오류

GPU XID 코드는 심각도별로 분류돼요.
XID코드의미헬스 상태
38gpu_xid38_driver_firmware_mismatch드라이버·펌웨어 불일치🟡 Warning
62gpu_xid62_internal_fw_breakpoint내부 펌웨어 브레이크포인트🟡 Warning
95gpu_xid95_uncontained_ecc_rebootUncontained ECC(복구 가능)🟡 Warning
48gpu_xid48_dbe_row_remapDBE row remap🔴 Critical
64gpu_xid64_ecc_row_remap_failureECC row remap 실패🔴 Critical
74gpu_xid74_nvlink_errorNVLink 오류🔴 Critical
79gpu_xid79_fallen_off_busGPU fallen off the bus🔴 Critical
표에 없는 코드는 NVIDIA XID 카탈로그에서 확인할 수 있어요. 노드 상세 페이지의 각 XID 알림은 카탈로그 항목으로 연결돼요.

노드 점검

노드 헬스 상태에 영향을 주는 조건이에요. 노드 dot과 Node overview 칸을 바꿀 뿐, 개별 GPU 상태는 건드리지 않아요. 클러스터 상세 페이지에서 노드 헬스 표시기에 마우스를 올리면 어떤 알람이 발동했는지 툴팁으로 확인할 수 있어요.

시스템·커널

코드조건헬스 상태
memory_low시스템 메모리 부족🟡 Warning
disk_lowRoot 디스크 공간 부족🟡 Warning
peermem_not_loadedpeermem 커널 모듈 미적재🔴 Critical

InfiniBand

코드조건헬스 상태
ib_symbol_errorsInfiniBand HCA에서 심볼 오류(물리 계층 손상)🟡 Warning
ib_link_flap / ib_storage_link_flapInfiniBand HCA에서 링크 플랩🟡 Warning
ib_transport_retries_exceeded여러 InfiniBand HCA에서 전송 재시도 초과🟡 Warning
ib_port_downInfiniBand 포트가 하나 이상 다운됨(멀티노드 통신 실패)🔴 Critical

관측 공백(Observability gap)

노드의 헬스 데이터 일부가 수집되지 않을 때, 노드는 어떤 부분이 빠졌는지 알리는 라벨과 함께 Warning으로 표시돼요.
라벨의미헬스 상태
Node unreachable노드가 응답하지 않아서 헬스를 확인할 수 없어요.🟡 Warning, 공백이 길어지면 🔴 Critical로 승격
GPU metrics unavailableGPU 메트릭이 수집되지 않아서 GPU 헬스를 확인할 수 없어요.🟡 Warning
InfiniBand metrics unavailableInfiniBand 메트릭이 수집되지 않아서 링크 헬스를 확인할 수 없어요.🟡 Warning
데이터 일부가 누락된다고 노드가 Unknown으로 바뀌지는 않아요. 회색은 아래 두 경우에만 써요.

Unknown (회색)

노드 헬스를 아예 판정할 수 없을 때만 Unknown(⚪)으로 표시돼요. 두 가지 경우예요.
  • 노드가 Rebooting 상태예요. 노드가 완전히 기동하기 전엔 판정하지 않아요. 재부팅이나 초기 프로비저닝 중에 정상으로 보이는 상태예요.
  • 노드가 모니터링 시스템에 등록되어 있지 않아요. 흔치 않은 경우라, Running 노드가 이 상태로 계속 머물면 고객지원에 문의해 주세요.
이 경우 노드 상세 페이지의 모든 칸과 노드 dot이 회색으로 표시돼요.

노드가 정상이 아닐 때

  • 노드 재부팅하기: 일시적인 오류는 재부팅으로 해결되는 경우가 많아요.
  • 복구 대기: VESSL 엔지니어가 노드를 모니터링하면서 직접 복구해요. Beta 기간에는 복구 시간 SLA가 없어요.
  • 문제가 계속되면 고객지원에 문의하세요.
하드웨어 문제로 노드에 장애가 생기면 엔지니어가 노드를 교체할 수 있어요. 교체는 자동이 아니라 수동으로 결정해요. 현재 정해진 점검 일정은 없고, 점검이 필요하면 미리 안내해 드릴게요.