VRAM(그래픽 메모리)은 GPU가 지금 당장 들고 있어야 하는 것들을 담는 공간
1) 더 큰 모델/배치를 올릴 수 있다 (가장 큼)
AI는 한 번 계산할 때
모델 가중치(파라미터)
중간 계산값(activation, attention cache)
그래디언트, 옵티마이저 상태(학습 시)
입력 데이터 배치
이걸 대부분 VRAM에 올려둔 채로 연산함.
VRAM이 부족하면 배치 크기 줄이기, 시퀀스 길이 줄이기, 모델 축소 같은 타협을 해야 한다
2) 속도가 확 빨라짐 (GPU는 “가까운 메모리”가 필요)
GPU 연산은 엄청 빠른데, 데이터가
VRAM에 있으면 바로 읽고 씀(대역폭 큼)
RAM/SSD로 내려가면(오프로딩/스와핑) 전송 지연 때문에 병목이 크게 생김
즉 VRAM이 넉넉하면 CPU↔GPU 왕복이 줄고, 학습/추론이 훨씬 매끄럽게 돌아간다.
3) 긴 컨텍스트/고해상도/큰 입력 처리에 직결
LLM: 컨텍스트가 길수록 KV 캐시가 커져서 VRAM을 많이 먹음
비전/확산 모델: 이미지 해상도↑, 배치↑, 스텝↑ → VRAM 요구↑
그래서 “같은 모델”도 입력 길이/해상도/배치에 따라 VRAM 요구량이 크게 달라진다.
4) 학습은 특히 VRAM을 많이 먹음 (추론보다 훨씬)
추론은 보통 “가중치 + 일부 캐시” 정도인데, 학습은 여기에
그래디언트
옵티마이저 상태(예: Adam의 모멘텀/분산 등)
까지 붙어서 메모리 요구가 훨씬 커짐.
5) VRAM이 부족하면 생기는 현실적인 문제들
배치 줄어서 학습 안정성/속도 저하(gradient accumulation으로 버티긴 함)
체크포인팅, 오프로딩, CPU 메모리 사용 증가 → 설정 복잡 + 느려짐
멀티 GPU 없이 큰 모델은 사실상 불가능
'개발자 정보' 카테고리의 다른 글
| 내가 쓰는 OS 이미지(.img, .iso)를 SD카드나 USB, SSD에 굽는 프로그램 (0) | 2025.10.28 |
|---|---|
| 2025 AI 개발자 추천 도서 목록 (0) | 2025.07.12 |