모델 서빙

2 posts tagged with "모델 서빙"

LLM 추론 최적화 - KV Cache, Quantization, Speculative Decoding
November 28, 2025
LLM 추론 성능을 최적화하는 핵심 기술들을 실전 예제와 함께 정리합니다. KV Cache, Quantization, Speculative Decoding, 배치 처리, 모델 병렬화 등 모든 최적화 기법을 다룹니다.
MLOps 실전 가이드 - AI 모델 서빙과 운영 자동화 완벽 정리
November 15, 2025
MLOps의 개념부터 실전 구현까지. 모델 버전 관리(MLflow), A/B 테스트, 모델 서빙(KServe, Seldon), 성능 모니터링, 데이터 드리프트 감지까지 프로덕션 환경에서 AI 모델을 운영하는 모든 것을 다룹니다.