VESSL Cloud Documentation

조직(Organization)

과금, 클러스터, 팀, 정책을 관리하는 가장 큰 단위예요. 관리자(Admin)는 조직 전체의 설정과 리소스를 총괄해요.

팀(Team)

리소스를 함께 쓰는 멤버들의 그룹이에요. 팀 단위로 스토리지 볼륨을 쓰거나 비용을 관리하면서 효율적으로 협업할 수 있어요.

Admin

멤버, 팀, 볼륨, 과금, 정책 등 조직의 모든 것을 관리하는 역할이에요. 조직 전체에 대한 권한을 가지고 있어요.

Member

Workspace를 만들어서 쓰고, 팀 볼륨을 활용하며, 팀 초대를 수락할 수 있는 사용자예요. 배정받은 팀 안에서 자유롭게 작업할 수 있어요.

Workspace

GPU나 CPU가 할당된 독립적인 컨테이너 환경이에요. 여기서 코드를 짜고 실행해요. Jupyter 노트북을 열거나 SSH로 접속해서 쓸 수 있어요.

잡(Job)

지정된 리소스에서 명령어를 끝까지 실행하는 배치 컴퓨팅 작업이에요. Workspace와 달리 비대화형(non-interactive)이라, 실행하고 결과를 남긴 뒤 자동으로 종료돼요. 모델 학습, 배치 추론, 데이터 전처리, 하이퍼파라미터 스윕에 적합해요. (기존에는 “Run”이라는 이름을 썼어요.)

워크로드(Workload)

VESSL Cloud에서 실행되는 모든 컴퓨팅 단위를 아우르는 용어예요. Workspace와 Job을 모두 포함해요. 구체적으로 지칭할 때는 “워크로드”보다 “Workspace”나 “Job”을 사용해요.

볼륨(Volume)

VESSL Cloud가 관리하는 영구 저장소(Persistent Storage)예요. Workspace에 연결해서 데이터, 데이터셋, 모델, 결과물 등을 저장해 둘 수 있어요.

클러스터 스토리지(Cluster storage)

특정 클러스터에 연결된 고가용성 분산 스토리지(CephFS/NVMe)예요. 같은 클러스터 내 여러 Workspace에서 동시에 접근할 수 있어요(RWX). Workspace를 terminate해도 데이터가 유지돼요. 약 150 MB/s 처리량. 기존 “Workspace volume”을 대체해요.

오브젝트 스토리지(Object storage)

S3 기반의 POSIX 호환 스토리지예요. 조직 내 모든 클러스터에서 접근할 수 있고, 동시에 여러 곳에서 읽고 쓸 수 있어요(RWX). 약 150 MB/s 처리량. 기존 “Shared volume”에서 명칭이 변경되었어요.

Workspace 볼륨(Workspace volume, 지원 종료)

기존에 Workspace 하나에 1:1로 연결되던 저장소예요. Cluster storage로 대체되었어요. 기존 데이터 마이그레이션은 support@vessl.ai로 문의해 주세요.

임시 스토리지(Temporary storage)

Workspace가 켜져 있는 동안만 존재하는 임시 저장소예요. Workspace를 멈추거나 끄면 저장된 데이터도 함께 사라지니 주의해야 해요.

클러스터(Cluster)

Workspace가 실제로 실행되는 컴퓨팅 환경이에요. GPU나 CPU 자원을 관리하고 스케줄링해 줘요.

Jupyter 노트북

코드를 한 줄씩 실행해 볼 수 있는 대화형 도구예요. VESSL Cloud에서는 웹 브라우저로 Workspace 안의 Jupyter에 바로 접속할 수 있어요.

SSH

터미널(까만 화면)을 통해 Workspace에 원격으로 접속하는 보안 프로토콜이에요. 복잡한 작업을 하거나 디버깅할 때 유용해요.

Connect

Workspace 상세 페이지에 있는 탭 이름이에요. 여기서 JupyterLab을 열거나 SSH 접속 명령어를 확인할 수 있어요.

비용 상태(Billing states)

Workspace 상태에 따라 비용이 다르게 책정돼요.

Running: Workspace가 켜져 있는 상태예요. 컴퓨팅 비용(GPU/CPU 사용료)이 나가요.
Paused: 컴퓨팅은 멈췄지만, 클러스터 스토리지 비용은 계속 나갈 수 있어요.
Terminated: Workspace가 완전히 삭제된 상태예요. 더 이상 비용이 발생하지 않아요.

GPU

Graphics Processing Unit의 약자예요. 원래는 그래픽 처리용으로 만들어졌지만, 지금은 머신러닝에서 엄청 많이 써요. GPU는 수많은 계산을 동시에 처리할 수 있어서 AI 모델을 학습하거나 실행할 때 딱이에요. VESSL Cloud에서는 NVIDIA A100, H100 같은 다양한 GPU를 필요한 만큼 빌려 쓸 수 있어요.

Docker

Workspace 환경을 포장하고 실행해 주는 컨테이너 기술이에요. Docker 이미지를 쓰면 팀원 모두가 항상 똑같은 환경에서 작업할 수 있어요.

리소스 스펙(Resource spec)

GPU 종류, CPU 코어 수, 메모리, 임시 저장소 등을 미리 정해둔 하드웨어 구성이에요. Workspace를 만들 때 GPU 제품, 리전, GPU 수량의 세 단계로 리소스 스펙을 선택하면 돼요. 각 옵션마다 가용 상태와 시간당 예상 비용이 표시돼요.

크레딧(Credit)

VESSL Cloud 리소스를 쓸 때 차감되는 선불 잔액이에요. Workspace 실행 시간과 리소스 사용량에 따라 크레딧이 소모돼요. 과금 페이지에서 언제든 크레딧을 충전할 수 있어요.

크레딧 버퍼(Credit buffer)

Workspace가 꺼지기 전까지 허용되는 마이너스 잔액 한도예요. 크레딧이 0원이 돼도 잔액이 -$10이 될 때까지는 Workspace가 계속 실행돼요. 버퍼로 쓴 금액은 다음 충전 시 차감돼요.

컨테이너 이미지(Container image)

코드를 실행하는 데 필요한 운영체제, 라이브러리, 도구 등을 담아둔 패키지예요. VESSL Cloud에서는 PyTorch, CUDA 같은 공식 이미지를 제공하고, 내가 만든 커스텀 이미지도 쓸 수 있어요. 이미지를 쓰면 언제나 똑같은 환경을 재현할 수 있어요.

포트(Port)

Workspace 안에서 돌아가는 서비스에 외부에서 접속할 수 있게 해주는 네트워크 통로예요. 커스텀 포트(HTTP, TCP)를 열어서 웹 서버나 API 같은 애플리케이션에 접근할 수 있어요.

마운트 경로(Mount path)

스토리지가 Workspace 파일 시스템에 연결되는 디렉터리 위치예요. Cluster storage는 마운트 경로를 자유롭게 설정할 수 있어요(예: /root, /data). Object storage는 /root에 마운트하면 안 되고, /shared나 다른 별도 경로를 사용해야 해요.

PyTorch

Meta에서 만든 인기 있는 오픈소스 딥러닝 프레임워크예요. VESSL Cloud에서는 PyTorch가 미리 설치된 이미지를 제공해서, 별도 설정 없이 바로 모델 학습을 시작할 수 있어요.

CUDA

NVIDIA에서 만든 GPU 가속 플랫폼이자 툴킷이에요. CUDA 덕분에 소프트웨어가 NVIDIA GPU를 범용 연산에 활용할 수 있어요. 대부분의 딥러닝 작업에 필수적이에요.

pip

Python의 기본 패키지 관리자예요. pip로 라이브러리와 의존성을 설치해요(예: pip install numpy). 패키지를 영구 볼륨(persistent volume)에 설치하면 Workspace를 재시작해도 유지돼요.

conda

Python과 다른 언어를 위한 오픈소스 환경 및 패키지 관리자예요. conda로 특정 Python 버전과 의존성을 가진 독립된 환경을 만들 수 있어서, 복잡한 ML 프로젝트를 관리할 때 유용해요.

OOMKilled

Out of Memory Killed의 줄임말이에요. Workspace가 할당된 메모리를 초과하면 시스템이 프로세스를 강제로 종료하는데, 이때 발생하는 에러예요. 이 에러가 보이면 메모리가 더 큰 리소스 스펙을 선택해 보세요.

NVMe

Non-Volatile Memory Express의 약자로, 고성능 저장소 프로토콜이에요. Cluster storage는 NVMe/CephFS를 사용해서 빠른 읽기/쓰기 속도(약 150 MB/s)를 제공해요. 대용량 데이터셋이나 모델 체크포인트를 불러올 때 좋아요.

S3

Amazon Simple Storage Service의 약자로, 클라우드 오브젝트 스토리지 서비스예요. VESSL Cloud의 Object storage는 S3 기반이라 용량 확장이 쉽고, 여러 Workspace와 클러스터에서 동시에 접근할 수 있어요.

홈 대시보드(Home dashboard)

소속된 모든 팀의 내 워크로드 상태, GPU 사용량, 비용을 한눈에 보여주는 개인 대시보드예요.

조직 대시보드(Organization dashboard)

관리자 전용 대시보드로, 조직 전체의 GPU 사용률, 비용 추이, 팀별 현황, 워크로드 상태를 보여줘요.

GPU Idle

GPU 사용률이 3시간 연속 0%인 상태예요. 조직 대시보드에서 Idle(3hr) 뱃지로 표시돼요.

GPU under-utilization

GPU 사용률이 설정된 임계값(threshold) 미만인 상태예요. 홈 대시보드에서 리소스 조정을 권장하는 알림 배너가 표시돼요.

Spend rate

현재 실행 중인 GPU 리소스의 시간당 비용($/hr)이에요. 홈 대시보드와 조직 대시보드 모두에서 확인할 수 있어요.

vesslctl

VESSL Cloud의 커맨드라인 인터페이스예요. vesslctl로 터미널에서 Workspace, Job, 스토리지, 조직, 팀을 관리할 수 있어요. 본문에서는 항상 인라인 코드로 표기해요. 시작하기는 CLI 개요를 참고해 주세요.

슬러그(slug)

리소스를 구분하는 사람이 읽기 쉬운 고유 식별자예요(예: my-workspace-abc123). 숫자 ID 대신 CLI 명령어와 URL에서 슬러그를 사용해요. CLI 문서에서는 “ID”보다 “slug”를 먼저 사용해요.

​조직(Organization)

​팀(Team)

​Admin

​Member

​Workspace

​잡(Job)

​워크로드(Workload)

​볼륨(Volume)

​클러스터 스토리지(Cluster storage)

​오브젝트 스토리지(Object storage)

​Workspace 볼륨(Workspace volume, 지원 종료)

​임시 스토리지(Temporary storage)

​클러스터(Cluster)

​Jupyter 노트북

​SSH

​Connect

​비용 상태(Billing states)

​GPU

​Docker

​리소스 스펙(Resource spec)

​크레딧(Credit)

​크레딧 버퍼(Credit buffer)

​컨테이너 이미지(Container image)

​포트(Port)

​마운트 경로(Mount path)

​PyTorch

​CUDA

​pip

​conda

​OOMKilled

​NVMe

​S3

​홈 대시보드(Home dashboard)

​조직 대시보드(Organization dashboard)

​GPU Idle

​GPU under-utilization

​Spend rate

​vesslctl

​슬러그(slug)