메인 콘텐츠로 건너뛰기

조직 (Organization)

과금, 클러스터, 팀, 정책을 관리하는 가장 큰 단위예요. 관리자(Admin)는 조직 전체의 설정과 리소스를 총괄해요.

팀 (Team)

리소스를 함께 쓰는 멤버들의 그룹이에요. 팀 단위로 공유 볼륨을 쓰거나 비용을 관리하면서 효율적으로 협업할 수 있어요.

Admin

멤버, 팀, 볼륨, 과금, 정책 등 조직의 모든 것을 관리하는 역할이에요. 조직 전체에 대한 권한을 가지고 있어요.

Member

워크스페이스를 만들어서 쓰고, 팀 볼륨을 활용하며, 팀 초대를 수락할 수 있는 사용자예요. 배정받은 팀 안에서 자유롭게 작업할 수 있어요.

워크스페이스 (Workspace)

GPU나 CPU가 할당된 독립적인 컨테이너 환경이에요. 여기서 코드를 짜고 실행해요. Jupyter 노트북을 열거나 SSH로 접속해서 쓸 수 있어요.

볼륨 (Volume)

VESSL이 관리하는 영구 저장소(Persistent Storage)예요. 워크스페이스에 연결해서 데이터, 데이터셋, 모델, 결과물 등을 저장해 둘 수 있어요.

워크스페이스 볼륨 (Workspace volume)

워크스페이스 하나에 1:1로 연결되는 저장소예요. 워크스페이스를 재시작하거나 잠시 멈춰도 데이터가 지워지지 않아요. 보통 한 번에 한 곳에서만 쓰고 읽을 수 있는(RWO, Read-Write-Once) 방식이에요.

공유 볼륨 (Shared volume)

여러 팀원과 여러 워크스페이스에서 같이 쓸 수 있는 저장소예요. S3 기반으로 만들어져 있고, 동시에 여러 곳에서 읽고 쓸 수 있어서(RWX, Read-Write-Many) 협업하기 좋아요.

임시 볼륨 (Temporary volume)

워크스페이스가 켜져 있는 동안만 존재하는 임시 저장소예요. 워크스페이스를 멈추거나 끄면 저장된 데이터도 함께 사라지니 주의해야 해요.

클러스터 (Cluster)

워크스페이스가 실제로 실행되는 컴퓨팅 환경이에요. GPU나 CPU 자원을 관리하고 스케줄링해 줘요.

Jupyter 노트북

코드를 한 줄씩 실행해 볼 수 있는 대화형 도구예요. VESSL에서는 웹 브라우저로 워크스페이스 안의 Jupyter에 바로 접속할 수 있어요.

SSH

터미널(까만 화면)을 통해 워크스페이스에 원격으로 접속하는 보안 프로토콜이에요. 복잡한 작업을 하거나 디버깅할 때 유용해요.

Connect

워크스페이스 상세 페이지에 있는 탭 이름이에요. 여기서 Jupyter를 열거나 SSH 접속 명령어를 확인할 수 있어요.

비용 상태 (Billing states)

워크스페이스 상태에 따라 비용이 다르게 책정돼요.
  • Running: 워크스페이스가 켜져 있는 상태예요. 컴퓨팅 비용(GPU/CPU 사용료)이 나가요.
  • Paused: 컴퓨팅은 멈췄지만, 저장소(워크스페이스 볼륨) 비용은 계속 나갈 수 있어요.
  • Terminated: 워크스페이스가 완전히 삭제된 상태예요. 더 이상 비용이 발생하지 않아요.

GPU

Graphics Processing Unit의 약자예요. 원래는 그래픽 처리용으로 만들어졌지만, 지금은 머신러닝에서 엄청 많이 써요. GPU는 수많은 계산을 동시에 처리할 수 있어서 AI 모델을 학습하거나 실행할 때 딱이에요. VESSL에서는 NVIDIA A100, H100 같은 다양한 GPU를 필요한 만큼 빌려 쓸 수 있어요.

Docker

워크스페이스 환경을 포장하고 실행해 주는 컨테이너 기술이에요. Docker 이미지를 쓰면 팀원 모두가 항상 똑같은 환경에서 작업할 수 있어요.

리소스 스펙 (Resource spec)

GPU 종류, CPU 코어 수, 메모리, 임시 저장소 등을 미리 정해둔 하드웨어 구성이에요. 워크스페이스를 만들 때 내 작업에 맞는 리소스 스펙을 고르면 돼요. 각 스펙마다 시간당 예상 비용이 표시돼요.

크레딧 (Credit)

VESSL 리소스를 쓸 때 차감되는 선불 잔액이에요. 워크스페이스 실행 시간과 리소스 사용량에 따라 크레딧이 소모돼요. 과금 페이지에서 언제든 크레딧을 충전할 수 있어요.

크레딧 버퍼 (Credit buffer)

워크스페이스가 꺼지기 전까지 허용되는 마이너스 잔액 한도예요. 크레딧이 0원이 돼도 잔액이 -$10이 될 때까지는 워크스페이스가 계속 실행돼요. 버퍼로 쓴 금액은 다음 충전 시 차감돼요.

컨테이너 이미지 (Container image)

코드를 실행하는 데 필요한 운영체제, 라이브러리, 도구 등을 담아둔 패키지예요. VESSL에서는 PyTorch, CUDA 같은 공식 이미지를 제공하고, 내가 만든 커스텀 이미지도 쓸 수 있어요. 이미지를 쓰면 언제나 똑같은 환경을 재현할 수 있어요.

포트 (Port)

워크스페이스 안에서 돌아가는 서비스에 외부에서 접속할 수 있게 해주는 네트워크 통로예요. 커스텀 포트(HTTP, TCP)를 열어서 웹 서버나 API 같은 애플리케이션에 접근할 수 있어요.

마운트 경로 (Mount path)

볼륨이 워크스페이스 파일 시스템에 연결되는 디렉터리 위치예요. Workspace volume은 /root ($HOME)에 마운트되고, Shared volume은 보통 /shared에 마운트돼요.

PyTorch

Meta에서 만든 인기 있는 오픈소스 딥러닝 프레임워크예요. VESSL에서는 PyTorch가 미리 설치된 이미지를 제공해서, 별도 설정 없이 바로 모델 학습을 시작할 수 있어요.

CUDA

NVIDIA에서 만든 GPU 가속 플랫폼이자 툴킷이에요. CUDA 덕분에 소프트웨어가 NVIDIA GPU를 범용 연산에 활용할 수 있어요. 대부분의 딥러닝 작업에 필수적이에요.

pip

Python의 기본 패키지 관리자예요. pip로 라이브러리와 의존성을 설치해요 (예: pip install numpy). 패키지를 영구 볼륨에 설치하면 워크스페이스를 재시작해도 유지돼요.

conda

Python과 다른 언어를 위한 오픈소스 환경 및 패키지 관리자예요. conda로 특정 Python 버전과 의존성을 가진 독립된 환경을 만들 수 있어서, 복잡한 ML 프로젝트를 관리할 때 유용해요.

OOMKilled

Out of Memory Killed의 줄임말이에요. 워크스페이스가 할당된 메모리를 초과하면 시스템이 프로세스를 강제로 종료하는데, 이때 발생하는 에러예요. 이 에러가 보이면 메모리가 더 큰 리소스 스펙을 선택해 보세요.

NVMe

Non-Volatile Memory Express의 약자로, 고성능 저장소 프로토콜이에요. Workspace volume은 NVMe 저장소를 써서 읽기/쓰기 속도가 빨라요. 대용량 데이터셋이나 모델 체크포인트를 불러올 때 좋아요.

S3

Amazon Simple Storage Service의 약자로, 클라우드 오브젝트 스토리지 서비스예요. VESSL의 Shared volume은 S3 기반이라 용량 확장이 쉽고, 여러 워크스페이스에서 동시에 접근할 수 있어요.