본문 바로가기

RTX3090TI1

로컬 AI 모델 구동하기-3 핵심 요약컨텍스트 윈도우를 키우면 KV 캐시가 VRAM을 쓴다.27B Dense는 96K에서 128K로 넘어가는 순간 생성 속도가 1/4가 된다 35B MoE는 CPU로 오프로드하면서도 27B Dense 96K보다 빠르다중요한건 모델 크기만이 아니다 로컬 모델에 처음 관심을 가질 때 모델의 크기만 중요한 걸로 생각했다.그래서 '구동이 가능하다'라는 것만 보고 되는구나 라고 생각했다.하지만 실제 VRAM 사용량은 이렇다.VRAM = 모델 가중치 + KV 캐시 + 런타임 버퍼KV 캐시는 이전 토큰의 연산 결과를 저장해두는 공간이다.컨텍스트가 길수록 캐시가 커진다. 256K 컨텍스트라면 모델 크기와 맞먹는 수준의 VRAM이 추가로 필요할 수 있다.아무리 큰 모델을 구동할 수 있다 한들 컨텍스트 윈도우가 작으면.. 2026. 6. 17.

이전 1 다음

티스토리툴바