본문 바로가기

로컬ai2

로컬 AI 모델 구동하기-3 핵심 요약컨텍스트 윈도우를 키우면 KV 캐시가 VRAM을 쓴다.27B Dense는 96K에서 128K로 넘어가는 순간 생성 속도가 1/4가 된다 35B MoE는 CPU로 오프로드하면서도 27B Dense 96K보다 빠르다중요한건 모델 크기만이 아니다 로컬 모델에 처음 관심을 가질 때 모델의 크기만 중요한 걸로 생각했다.그래서 '구동이 가능하다'라는 것만 보고 되는구나 라고 생각했다.하지만 실제 VRAM 사용량은 이렇다.VRAM = 모델 가중치 + KV 캐시 + 런타임 버퍼KV 캐시는 이전 토큰의 연산 결과를 저장해두는 공간이다.컨텍스트가 길수록 캐시가 커진다. 256K 컨텍스트라면 모델 크기와 맞먹는 수준의 VRAM이 추가로 필요할 수 있다.아무리 큰 모델을 구동할 수 있다 한들 컨텍스트 윈도우가 작으면.. 2026. 6. 17.
로컬 AI 모델 구동하기-2 2단계: Docker 기초목표Docker 핵심 개념 이해 (Image / Container / Volume)기본 명령어 실전 경험docker run 옵션의 의미를 이해하며 사용2-1. Docker 설치GPU 컨테이너까지 사용할 예정이면 sudo snap install docker 대신 Docker 공식 apt 저장소로 설치합니다.Snap Docker는 docker 그룹이 없거나 NVIDIA Container Toolkit 연동에서 예상과 다르게 동작할 수 있습니다.설치 전: apt update 오류가 있으면 먼저 해결apt update가 아래처럼 실패하면 Docker 설치도 중간에 멈춥니다.E: The repository 'https://ppa.launchpadcontent.net/thopiekar/op.. 2026. 6. 14.