ABOUT ME

•
•
MAJOR SUBJECTS
SUBJECT | GRADE |
[Bachelor’s course] | |
Algorithm (알고리즘) | A+ |
Data Structure (자료구조) | A+ |
Operating System (운영체제) | A+ |
Computer Architecture (컴퓨터구조) | A0 |
Computer Network (컴퓨터통신) | A0 |
Database Design (데이터베이스 설계) | A+ |
Deep Learning (이미지 및 자연어 처리를 위한 딥러닝) | A+ |
Object-Oriented Programming (객체지향프로그래밍) | A+ |
SUBJECT | GRADE |
[Master’s course] | |
Advanced Natural Language Processing (고급자연어처리) | 수강 중 |
Statistical Machine Learning (통계기반 머신러닝) | 수강 중 |
Advanced Operating System (고급운영체제) | A0 |
Advanced Distributed and Parallel Processing (고급분산및병렬처리) | A+ |
Advanced Computer Security (고급컴퓨터보안) | A0 |
Advanced Computer Network (고급컴퓨터네트워크) | A+ |
Software Engineering Methodology (소프트웨어 공학론) | A+ |
BLOG
🔥 Featured 🔥

이 글은 FlashAttention-2(Tri Dao, ICLR ‘23)와 NVIDIA A100 Tensor Core GPU Architecture를 바탕으로, 커널 launch부터 Tensor Core 연산까지의 전체 실행 경로를 하나의 시나리오로 정리한 글이다.
BitDecoding(HPCA ‘26) 논문을 읽다가 아래 Fig 3을 이해하지 못해서 Tensor Core가 어떤 식으로 동작하는지 공부하다가 정리한 글이다. Tensor Core가 어떤 식으로 동작하는지 알기 위해서 GPU가 어떻게 구성되어 있으며, 행렬을 어떤 식으로 나눠서 연산하는지 알아야만 했다. 시간은 조금 걸렸지만, BitDecoding의 Figure 3을 확실히 이해할 수 있었다.

kernel<<<grid, block>>>() 한 줄을 호출한 그 순간부터, GPU 안에서 Thread Block이 SM에 배정되고, Warp가 작업을 나누고, Tensor Core가 행렬을 곱하기까지의 전체 경로를 Top-Down으로 정리했다. Attention Kernel은 FlashAttention-2를 기준으로, 256x128 크기의 Q⋅K⋅V가 어떻게 Tile로 쪼개져 SM과 Warp, 그리고 Thread의 Register까지 흘러내려가는지를 숫자 예시와 함께 설명했다.
시작하기 전
추상적인 설명을 피하기 위해 처음부터 끝까지 하나의 구체적인 시나리오를 설정했고, 하드웨어는 GPU A100을 기준으로 한다.
GPU에서 Attention은 실제로 어떻게 실행되는가 - 커널 Launch부터 Tensor Core까지 (Feat. FlashAttention-2)
2026/06/12

필자는 현재(26년 4월) 온디바이스(On-device) 환경에서 LLM 추론 효율을 극대화하기 위한 시스템 최적화 연구를 수행하고 있다. 특히 제한된 메모리 자원 내에서 최적의 추론 성능을 확보하는 것을 핵심 목표로 삼고 있다.
최근 LLM의 컨텍스트 길이가 계속해서 확장됨에 따라 KV 캐시가 점유하는 메모리 비중이 시스템의 주요 병목으로 작용하고 있음을 알게 되었다. 이를 해결하기 위해 ‘KV 캐시 양자화(Quantization)’를 세부 연구 방향으로 설정하였다.
이 글은 해당 분야의 랜드마크 논문인 ICML 2024에 올라온 논문 KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache를 정리한 글이며, 필자의 생각이 포함되어 있다.
1. Background
1.1 Quantization 수학적 정의

Fig 1. Quantization(1)
[논문 리뷰] KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache (ICML’24)
2026/04/26

이 글은 NeurIPS 2024에 올라온 논문 SGLang: Efficient Execution of Structured Language Model Programs를 정리한 글이다.
1. Introduction
1.1 해결하려는 문제: “왜 LLM Program을 위한 시스템이 필요한가”
LLM의 활용 양상이 단순한 채팅에서 multi-call, control flow가 결합된 프로그램적 사용으로 빠르게 전환되고 있다. ReAct agent, Tree-of-Thought (ToT), Branch-Solve-Merge 등 대부분의 프롬프팅 기법은 다음 두 가지 공통 속성을 가진다.
•
다수의 LLM 호출이 control flow와 엮여 있음: 한 task를 풀기 위해 여러 generation call을 chaining
•
구조화된 입출력: JSON Schema 등 외부 시스템과 통합되기 위한 structured I/O 필요
[논문 리뷰] SGLang: Efficient Execution of
Structured Language Model Programs (NeurIPS’24)
2026/04/07

킬링캠프 1기, 불합격의 연속, 학부 연구생 시작, 알고리즘 코치, 학부 마지막 학기 끝 
“추교현의 인생 회고록”
2021년 회고 글
2022년 회고 글
2023년 회고 글
2024년을 정리하며 2025년을 준비하고자 글을 적습니다.
- 24년 1분기 회고 & 계획
- 24년 2분기 회고 & 계획
- 24년 3분기 회고 & 계획
BYE 2024
24년 목표 및 계획 리마인드 
24년 초에 세웠던 목표와 계획을 잘 지켰을까요?
2024년 단 하나의 목표는 네이버, 삼성전자 등과 같이 거대한 조직 시스템을 경험할 수 있고 체계적인 개발 문화를 배울 수 있는 곳으로 소프트웨어 엔지니어로서 취업하는 것이었습니다. 이 목표는 부족한 역량으로 인해 달성하지 못했습니다.
BYE 2024 & HELLO 2025
킬링캠프 1기, 불합격의 연속, 학부 연구생 시작, 알고리즘 코치, 학부 마지막 학기 끝 
2025/01/13

디퍼런스 참여, 블록체인 해커톤 수상, 학회장 자리 물려주기, 셰어하우스 사업 2년 후기, 스타트업 퇴사, 4학년 1학기 그리고 본격적인 취업 준비 시작
“추교현의 인생 회고록”
2021년 회고 글
2022년 회고 글
2023년을 정리하며 2024년을 준비하고자 글을 적습니다.
- 2023년 1분기 회고 및 계획
- 2023년 2분기 회고 및 계획
- 2023년 3분기 회고 및 계획
BYE 2023
올해 함께 지냈던 분들 덕분에 2023년을 잘 마무리할 수 있었습니다. 정말 감사드립니다
저에게 2023년은 선택과 집중을 할 수 있었던 한 해였습니다. 올해 어떤 것을 했었는지 시간 순서대로 회고해 보도록 하겠습니다.
[23.02] DE-FERENCE 
BYE 2023 & HELLO 2024
디퍼런스 참여, 블록체인 해커톤 수상, 학회장 자리 물려주기, 셰어하우스 사업 2년 후기, 스타트업 퇴사, 4학년 1학기 그리고 본격적인 취업 준비 시작
2024/01/01
.jpeg&blockId=badfaa9e-f57f-4405-9497-65dc263adb24&width=3600)






























