VESSL Cloud Documentation

VESSL Cloud는 Workspace를 띄우거나 Job을 제출할 때 선택한 리소스 스펙을 기준으로 리소스 제한을 적용해요. 이 문서에서는 어떤 제한이 적용되는지, 워크로드가 제한을 넘으면 플랫폼이 어떻게 동작하는지 살펴봐요.

적용되는 제한

리소스 스펙은 Workspace나 Job을 만들 때 선택해요. 어떤 스펙을 쓸 수 있는지는 워크스페이스 만들기 또는 작업 만들기에서 확인해 보세요.

초과된 제한	어떻게 되나요
Memory	컨테이너가 종료돼요 (`OOMKilled`)
Ephemeral local storage	컨테이너가 노드에서 제거돼요
CPU	워크로드 속도가 느려지지만 계속 실행돼요
GPU memory (VRAM)	프로세스가 CUDA OOM(Out of Memory) 에러를 받아요. 그 다음 동작은 앱 코드에 따라 달라요

컨테이너가 종료되는 경우(Memory 또는 Ephemeral local storage 제한 초과)에는 워크로드 종류에 따라 복구 방식이 달라요.

워크로드	복구 동작
Workspace	정상 노드에서 컨테이너가 자동으로 다시 시작돼요. Cluster storage와 Object storage 볼륨은 다시 연결돼요. 임시 데이터와 메모리 상태는 사라져요.
Job	Job이 `failed` 상태가 돼요. 자동 재시도는 없어요. 다시 실행하려면 새 Job을 제출해야 해요.

Cluster storage와 Object storage 볼륨의 데이터는 리소스 제한 위반의 영향을 받지 않아요. 위반 후에도 살아남아야 하는 데이터는 이 두 곳에 저장하세요.

실시간 사용량과 과거 패턴을 확인할 수 있는 곳: