LLM 추론 최적화 - KV Cache, Quantization, Speculative Decoding
November 28, 2025LLM 추론 성능을 최적화하는 핵심 기술들을 실전 예제와 함께 정리합니다. KV Cache, Quantization, Speculative Decoding, 배치 처리, 모델 병렬화 등 모든 최적화 기법을 다룹니다.
LLM 추론 성능을 최적화하는 핵심 기술들을 실전 예제와 함께 정리합니다. KV Cache, Quantization, Speculative Decoding, 배치 처리, 모델 병렬화 등 모든 최적화 기법을 다룹니다.
AI 모델 양자화의 개념과 작동 원리를 설명합니다. QAT, PTQ, GPTQ, AWQ 비교와 실무 적용, 성능 분석까지 알아봅니다.