노드 개요
클러스터 상세 페이지의 Node overview 영역에서 각 노드가 색깔 셀로 표시돼서 클러스터 전체 헬스를 한눈에 볼 수 있어요.헬스 상태
| 헬스 상태 | 색 | 의미 |
|---|---|---|
| Healthy | 🟢 | 활성 알람이 없어요. |
| Warning | 🟡 | 경고급 알람이 하나 이상 있어요. 사용 가능하지만 주의가 필요해요. |
| Critical | 🔴 | 심각 알람이 하나 이상 있어요. 노드를 못 쓰거나 결과가 오염될 수 있어요. |
| Unknown | ⚪ | 지금 판정할 수 없는 상태예요. 아래 Unknown 섹션을 참고해 주세요. |
레벨
헬스는 두 레벨에서 추적돼요. 각 GPU가 자체 상태를 갖고, 노드는 자체 점검 항목과 가장 심한 GPU 상태를 합쳐서 종합 상태를 가져요.| 레벨 | 어디서 보이는지 | 점검 항목 |
|---|---|---|
| GPU(디바이스) | 노드 상세 페이지의 GPU 8칸 | XID 오류, ECC, 온도, throttling |
| 노드 | Node overview 칸과 노드 행 dot | 메모리, 디스크, 커널 모듈, InfiniBand 패브릭, 관측 공백 |
GPU 점검
GPU별 색은 아래 조건 중 가장 심각한 것을 따라요. 노드는 worst-wins로 가장 심한 GPU 색을 가져가요.| 코드 | 조건 | 헬스 상태 |
|---|---|---|
gpu_high_temp | GPU 온도 ≥ 85°C(지속) | 🟡 Warning |
gpu_high_temp | GPU 온도 ≥ 95°C | 🔴 Critical |
gpu_memory_high_temp | HBM(메모리) 온도 ≥ 85°C | 🟡 Warning |
gpu_memory_high_temp | HBM 온도 ≥ 95°C | 🔴 Critical |
gpu_hw_throttle | 하드웨어 throttling | 🟡 Warning |
gpu_no_process_high_util | GPU 사용률은 높은데 연결된 프로세스 없음 | 🟡 Warning |
row_remap_nearing_limit | HBM row remap이 안전 한도에 근접 | 🟡 Warning |
gpu_ecc_dbe | 교정 불가(DBE) ECC 오류 | 🔴 Critical |
gpu_row_remap_failure | HBM row remap 실패 | 🔴 Critical |
gpu_remapped_rows_pending | HBM row remap 대기(재부팅 필요) | 🔴 Critical |
gpu_count_mismatch | 드라이버에서 GPU 8개 중 누락 | 🔴 Critical |
gpu_smi_unhealthy | nvidia-smi가 unhealthy로 보고 | 🔴 Critical |
gpu_driver_pri_bus_fault | GPU 드라이버 또는 PCIe 버스 오류 | 🔴 Critical |
gpu_recovery_action_required | GPU recovery action 필요 | 🔴 Critical |
XID 오류
GPU XID 코드는 심각도별로 분류돼요.| XID | 코드 | 의미 | 헬스 상태 |
|---|---|---|---|
| 38 | gpu_xid38_driver_firmware_mismatch | 드라이버·펌웨어 불일치 | 🟡 Warning |
| 62 | gpu_xid62_internal_fw_breakpoint | 내부 펌웨어 브레이크포인트 | 🟡 Warning |
| 95 | gpu_xid95_uncontained_ecc_reboot | Uncontained ECC(복구 가능) | 🟡 Warning |
| 48 | gpu_xid48_dbe_row_remap | DBE row remap | 🔴 Critical |
| 64 | gpu_xid64_ecc_row_remap_failure | ECC row remap 실패 | 🔴 Critical |
| 74 | gpu_xid74_nvlink_error | NVLink 오류 | 🔴 Critical |
| 79 | gpu_xid79_fallen_off_bus | GPU fallen off the bus | 🔴 Critical |
노드 점검
노드 헬스 상태에 영향을 주는 조건이에요. 노드 dot과 Node overview 칸을 바꿀 뿐, 개별 GPU 상태는 건드리지 않아요. 클러스터 상세 페이지에서 노드 헬스 표시기에 마우스를 올리면 어떤 알람이 발동했는지 툴팁으로 확인할 수 있어요.시스템·커널
| 코드 | 조건 | 헬스 상태 |
|---|---|---|
memory_low | 시스템 메모리 부족 | 🟡 Warning |
disk_low | Root 디스크 공간 부족 | 🟡 Warning |
peermem_not_loaded | peermem 커널 모듈 미적재 | 🔴 Critical |
InfiniBand
| 코드 | 조건 | 헬스 상태 |
|---|---|---|
ib_symbol_errors | InfiniBand HCA에서 심볼 오류(물리 계층 손상) | 🟡 Warning |
ib_link_flap / ib_storage_link_flap | InfiniBand HCA에서 링크 플랩 | 🟡 Warning |
ib_transport_retries_exceeded | 여러 InfiniBand HCA에서 전송 재시도 초과 | 🟡 Warning |
ib_port_down | InfiniBand 포트가 하나 이상 다운됨(멀티노드 통신 실패) | 🔴 Critical |
관측 공백(Observability gap)
노드의 헬스 데이터 일부가 수집되지 않을 때, 노드는 어떤 부분이 빠졌는지 알리는 라벨과 함께 Warning으로 표시돼요.| 라벨 | 의미 | 헬스 상태 |
|---|---|---|
| Node unreachable | 노드가 응답하지 않아서 헬스를 확인할 수 없어요. | 🟡 Warning, 공백이 길어지면 🔴 Critical로 승격 |
| GPU metrics unavailable | GPU 메트릭이 수집되지 않아서 GPU 헬스를 확인할 수 없어요. | 🟡 Warning |
| InfiniBand metrics unavailable | InfiniBand 메트릭이 수집되지 않아서 링크 헬스를 확인할 수 없어요. | 🟡 Warning |
Unknown (회색)
노드 헬스를 아예 판정할 수 없을 때만 Unknown(⚪)으로 표시돼요. 두 가지 경우예요.- 노드가 Rebooting 상태예요. 노드가 완전히 기동하기 전엔 판정하지 않아요. 재부팅이나 초기 프로비저닝 중에 정상으로 보이는 상태예요.
- 노드가 모니터링 시스템에 등록되어 있지 않아요. 흔치 않은 경우라, Running 노드가 이 상태로 계속 머물면 고객지원에 문의해 주세요.
노드가 정상이 아닐 때
- 노드 재부팅하기: 일시적인 오류는 재부팅으로 해결되는 경우가 많아요.
- 복구 대기: VESSL 엔지니어가 노드를 모니터링하면서 직접 복구해요. Beta 기간에는 복구 시간 SLA가 없어요.
- 문제가 계속되면 고객지원에 문의하세요.
