Quantization

2 posts tagged with "Quantization"

LLM 추론 최적화 - KV Cache, Quantization, Speculative Decoding
November 28, 2025
LLM 추론 성능을 최적화하는 핵심 기술들을 실전 예제와 함께 정리합니다. KV Cache, Quantization, Speculative Decoding, 배치 처리, 모델 병렬화 등 모든 최적화 기법을 다룹니다.
AI 모델 양자화 스마트폰에서도 돌아가는 AI의 비밀
November 05, 2025
AI 모델 양자화의 개념과 작동 원리를 설명합니다. QAT, PTQ, GPTQ, AWQ 비교와 실무 적용, 성능 분석까지 알아봅니다.