기술(클라우드, AI, 블록체인 등) & 인생 회고에 대한 글 정리
All
Essay
AI
Cloud
Paper
Blockchain
Etc

필자는 현재(26년 4월) 온디바이스(On-device) 환경에서 LLM 추론 효율을 극대화하기 위한 시스템 최적화 연구를 수행하고 있다. 특히 제한된 메모리 자원 내에서 최적의 추론 성능을 확보하는 것을 핵심 목표로 삼고 있다.
최근 LLM의 컨텍스트 길이가 계속해서 확장됨에 따라 KV 캐시가 점유하는 메모리 비중이 시스템의 주요 병목으로 작용하고 있음을 알게 되었다. 이를 해결하기 위해 ‘KV 캐시 양자화(Quantization)’를 세부 연구 방향으로 설정하였다.
이 글은 해당 분야의 랜드마크 논문인 ICML 2024에 올라온 논문 KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache를 정리한 글이며, 필자의 생각이 포함되어 있다.
1. Background
1.1 Quantization 수학적 정의

Fig 1. Quantization(1)
[논문 리뷰] KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache (ICML’24)
2026/04/26
Paper
AI

이 글은 NeurIPS 2024에 올라온 논문 SGLang: Efficient Execution of Structured Language Model Programs를 정리한 글이다.
1. Introduction
1.1 해결하려는 문제: “왜 LLM Program을 위한 시스템이 필요한가”
LLM의 활용 양상이 단순한 채팅에서 multi-call, control flow가 결합된 프로그램적 사용으로 빠르게 전환되고 있다. ReAct agent, Tree-of-Thought (ToT), Branch-Solve-Merge 등 대부분의 프롬프팅 기법은 다음 두 가지 공통 속성을 가진다.
•
다수의 LLM 호출이 control flow와 엮여 있음: 한 task를 풀기 위해 여러 generation call을 chaining
•
구조화된 입출력: JSON Schema 등 외부 시스템과 통합되기 위한 structured I/O 필요
[논문 리뷰] SGLang: Efficient Execution of
Structured Language Model Programs (NeurIPS’24)
2026/04/07
Paper
AI
Load more

.jpeg&blockId=93ba2527-2b28-497d-9a7e-b659852d9621&width=3600)















































