VESSL Cloud는 Workspace를 띄우거나 Job을 제출할 때 선택한 리소스 스펙을 기준으로 리소스 제한을 적용해요. 이 문서에서는 어떤 제한이 적용되는지, 워크로드가 제한을 넘으면 플랫폼이 어떻게 동작하는지 살펴봐요.
적용되는 제한
| 리소스 | 정의되는 위치 |
|---|
| CPU | 리소스 스펙 (예: 8 vCPU) |
| Memory (RAM) | 리소스 스펙 (예: 64 GiB) |
| GPU memory (VRAM) | GPU 모델 (예: H100 80 GiB) |
| Ephemeral local storage | 컨테이너 생성 시 할당량 |
리소스 스펙은 Workspace나 Job을 만들 때 선택해요. 어떤 스펙을 쓸 수 있는지는 워크스페이스 만들기 또는 작업 만들기에서 확인해 보세요.
제한 초과 시 동작
| 초과된 제한 | 어떻게 되나요 |
|---|
| Memory | 컨테이너가 종료돼요 (OOMKilled) |
| Ephemeral local storage | 컨테이너가 노드에서 제거돼요 |
| CPU | 워크로드 속도가 느려지지만 계속 실행돼요 |
| GPU memory (VRAM) | 프로세스가 CUDA OOM(Out of Memory) 에러를 받아요. 그 다음 동작은 앱 코드에 따라 달라요 |
컨테이너가 종료된 후
컨테이너가 종료되는 경우(Memory 또는 Ephemeral local storage 제한 초과)에는 워크로드 종류에 따라 복구 방식이 달라요.
| 워크로드 | 복구 동작 |
|---|
| Workspace | 정상 노드에서 컨테이너가 자동으로 다시 시작돼요. Cluster storage와 Object storage 볼륨은 다시 연결돼요. 임시 데이터와 메모리 상태는 사라져요. |
| Job | Job이 failed 상태가 돼요. 자동 재시도는 없어요. 다시 실행하려면 새 Job을 제출해야 해요. |
위반 후 데이터 보존 여부
| 데이터 위치 | 위반 후 |
|---|
| 컨테이너 메모리 상태 | 손실 |
| Temporary local storage | 손실 |
| Cluster storage 볼륨 | 보존 |
| Object storage 볼륨 | 보존 |
Cluster storage와 Object storage 볼륨의 데이터는 리소스 제한 위반의 영향을 받지 않아요. 위반 후에도 살아남아야 하는 데이터는 이 두 곳에 저장하세요.
사용량 확인하기
실시간 사용량과 과거 패턴을 확인할 수 있는 곳:
관련 문서