메인 콘텐츠로 건너뛰기
VESSL Cloud는 Workspace를 띄우거나 Job을 제출할 때 선택한 리소스 스펙을 기준으로 리소스 제한을 적용해요. 이 문서에서는 어떤 제한이 적용되는지, 워크로드가 제한을 넘으면 플랫폼이 어떻게 동작하는지 살펴봐요.

적용되는 제한

리소스정의되는 위치
CPU리소스 스펙 (예: 8 vCPU)
Memory (RAM)리소스 스펙 (예: 64 GiB)
GPU memory (VRAM)GPU 모델 (예: H100 80 GiB)
Ephemeral local storage컨테이너 생성 시 할당량
리소스 스펙은 Workspace나 Job을 만들 때 선택해요. 어떤 스펙을 쓸 수 있는지는 워크스페이스 만들기 또는 작업 만들기에서 확인해 보세요.

제한 초과 시 동작

초과된 제한어떻게 되나요
Memory컨테이너가 종료돼요 (OOMKilled)
Ephemeral local storage컨테이너가 노드에서 제거돼요
CPU워크로드 속도가 느려지지만 계속 실행돼요
GPU memory (VRAM)프로세스가 CUDA OOM(Out of Memory) 에러를 받아요. 그 다음 동작은 앱 코드에 따라 달라요

컨테이너가 종료된 후

컨테이너가 종료되는 경우(Memory 또는 Ephemeral local storage 제한 초과)에는 워크로드 종류에 따라 복구 방식이 달라요.
워크로드복구 동작
Workspace정상 노드에서 컨테이너가 자동으로 다시 시작돼요. Cluster storage와 Object storage 볼륨은 다시 연결돼요. 임시 데이터와 메모리 상태는 사라져요.
JobJob이 failed 상태가 돼요. 자동 재시도는 없어요. 다시 실행하려면 새 Job을 제출해야 해요.

위반 후 데이터 보존 여부

데이터 위치위반 후
컨테이너 메모리 상태손실
Temporary local storage손실
Cluster storage 볼륨보존
Object storage 볼륨보존
Cluster storageObject storage 볼륨의 데이터는 리소스 제한 위반의 영향을 받지 않아요. 위반 후에도 살아남아야 하는 데이터는 이 두 곳에 저장하세요.

사용량 확인하기

실시간 사용량과 과거 패턴을 확인할 수 있는 곳:

관련 문서