🤖

SGLang: LLM 서빙 프레임워크 설치 가이드 및 실습

SGLang이 무엇인가

SGLang(Structured Generation Language for LLMs)은 복잡한 LLM 프로그램(다중 생성 호출, Prompting 기법, 제어 흐름, 구조화된 입출력)을 효율적으로 실행하기 위한 시스템 및 LLM 서빙 프레임워크이다.

자세한 내용은 SGLang 논문을 리뷰한 글에 정리해 두었다.

[논문 리뷰] SGLang: Efficient Execution of Structured Language Model Programs (NeurIPS’24)

이 글은 NeurIPS 2024에 올라온 논문 SGLang: Efficient Execution of Structured Language Model Programs를 정리한 글이다.

https://www.chooblog.xyz/blog/paper-sglang

SGLang 설치 가이드 (Window 편)

Phase 1: WSL2 + GPU 환경 구축

Step 1. WSL2 설치

PowerShell을 관리자 권한으로 열고 실행한다.

wsl --install
Bash
복사

이 명령어 하나로 WSL2와 Ubuntu가 자동 설치된다. 완료 후 PC를 재부팅한다. 재부팅 후 Ubuntu 창이 뜨면 사용자 이름과 비밀번호를 설정한다.

Q. WSL2(Window Subsystem for Linux 2)가 무엇일까?

윈도우 OS 내에서 리눅스 커널을 직접 실행할 수 있게 해주는 가상화 레이어. 즉, 윈도우를 끄지 않고도 윈도우 창 안에서 리눅스(Ubuntu 등)를 네이티브 수준의 성능으로 돌리는 도구

Q. WSL2를 왜 써야할까?

GPU 가속 및 CUDA 지원

•

WSL2는 윈도우에 설치된 GPU 드라이버를 리눅스 내부에서 그대로 쓸 수 있게 해주는 GPU Passthrough 기능을 지원함

•

덕분에 리눅스 환경의 PyTorch나 TensorFlow에서 윈도우 GPU를 사용하여 연산 가속을 할 수 있음

딥러닝 라이브러리 및 오픈소스 생태계

•

대부분의 최신 AI 연구와 시스템 소프트웨어 오픈소스는 리눅스 환경을 1순위로 개발됨

•

윈도우에서 관련 라이브러리를 설치하려고 하면 빌드 오류가 잦지만, WSL2 등에서는 pip install 이나 conda 명령만으로 매우 쉽게 환경 구축 가능함

Step 2. GPU 드라이버 확인

Windows에 이미 NVDIA 드라이버가 설치되어 있다면, WSL2에서 자동으로 GPU를 인식한다. WSL2 Ubuntu 터미널에서 확인한다.

Bash
복사

Step 3. Python 환경 설정

WSL2 Ubuntu 터미널에서 실행한다.

# 시스템 업데이트
sudo apt update && sudo apt upgrade -y

# 필수 도구 설치
sudo apt install -y python3 python3-venv python3-pip git curl
sudo apt install -y libnuma-dev

# CUDA Toolkit 설치
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update
sudo apt install -y cuda-toolkit-12-8

# 환경변수 설정
echo 'export PATH=/usr/local/cuda-12.8/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda-12.8/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
echo 'export CUDA_HOME=/usr/local/cuda-12.8' >> ~/.bashrc
source ~/.bashrc

# 설치 확인
nvcc --version

# 가상환경 생성 및 활성화
python3 -m venv ~/sglang-env
source ~/sglang-env/bin/activate

# pip 업그레이드
pip install --upgrade pip

# PyTorch 2.51 + CUDA 12.4 설치 (가장 안정적인 조합)
pip install torch==2.5.1 --index-url https://download.pytorch.org/whl/cu124

# 설치 확인
python3 -c "import torch; print(f'PyTorch: {torch.__version__}, CUDA: {torch.version.cuda}, GPU: {torch.cuda.get_device_name(0)}')"
Bash
복사

Phase 2: SGLang 설치

# SGLang 설치 (PyTorch와 CUDA 런타임 한 번에 설치)
pip install "sglang[all]"

# FlashInfer 설치 (SGLang Runtime의 핵심 CUDA 커널)
pip install flashinfer-python
Bash
복사

Q. FlashInfer가 왜 필요할까?

•

FlashInfer는 SGLang이 VRAM에서 RadixAttention을 빛의 속도로 연산하게 해주는 핵심 Low-level CUDA 커널임.

•

Radix Tree 캐싱을 논리적으로 구현하는 것은 파이썬(SGLang) 코드지만, 실제 GPU의 물리적 VRAM 쪼가리들을 모아서 병렬로 텐서 곱을 수행하는 것은 FlashInfer와 같은 C++/CUDA 커널의 역할임

•

FlashInfer가 있어야 VRAM 파편화를 막고 여러 요청이 동일한 캐시 블록을 동시에 읽어가는 최적화가 100% 발휘됨

설치 확인:

python3 -c "
import torch
import sglang
import flashinfer
print(f'PyTorch: {torch.__version__}, CUDA: {torch.version.cuda}')
print(f'FlashInfer: {flashinfer.__version__}')
print(f'GPU: {torch.cuda.get_device_name(0)}')
print(f'SGLang: {sglang.__version__}')
"
Bash
복사

시스템 스택 계층 구조 이해

SGLang (Python Layer): 사용자의 의도(gen, fork)를 해석

PyTorch (Framework Layer): 텐서 관리 및 실행 환경을 제공

FlashInfer (Kernel Layer): 실제 GPU 연산을 담당하는 C++/CUDA 코드 뭉치

CUDA Driver (Hardware Bridge): 하드웨어와 소프트웨어를 연결

Phase 3: 모델 다운로드 및 서버 실행

Step 1. SGLang 서버 실행

python3 -m sglang.launch_server \
    --model-path Qwen/Qwen2.5-1.5B-Instruct \
    --port 30000 \
    --mem-fraction-static 0.80
Bash
복사

•

python3 -m sglang.launch_server : SGLang의 백엔드 런타임(추론 엔진)을 백그라운드 서버 형태로 실행

•

--model-path Qwen/Qwen2.5-1.5B-Instruct : 실행할 LLM 모델의 경로(HuggingFace 저장소 이름)를 지정함 (1.5억 개 파라미터에 FP16 기준으로 약 3GB 메모리 차지함)

•

--port 30000 : 서버가 프론트엔드(Client)와 통신할 네트워크 포트를 30000번으로 염

•

--mem-fraction-static 0.80 : GPU 전체 VRAM의 80%를 SGLang 엔진이 시작하자마자 강제로 미리 할당(Static Allocation)하라는 뜻

이 6.4GB 안에는 1) 모델의 가중치가 먼저 들어가고, 2) 나머지 공간 전체를 KV 캐시 메모리 풀로 꽉 채움. 바로 이 거대한 메모리 풀 위에서 논문의 핵심인 Radix Tree가 자라나며 캐시를 저장하고 공유하게 됨

서버가 돌고 있는 이 터미널은 닫지 않기

Step 2. 서버 동작 확인

새 터미널에서 가상환경 다시 활성화하기

wsl -l -v
wsl --set-default Ubuntu # 기본값으로 설정된 리눅스를 Ubuntu로 설정
wsl -d Ubuntu # 지금부터 켤 특정 리눅스 운영체제를 Ubuntu로 지정

source ~/sglang-env/bin/activate
Bash
복사

서버가 잘 동작하는지 확인하기

curl http://localhost:30000/v1/chat/completions -H "Content-Type: application/json" -d '{"model":"Qwen/Qwen2.5-1.5B-Instruct","messages":[{"role":"user","content":"Hello!"}],"max_tokens":30}'
Bash
복사

아래와 같이 JSON 응답이 오면 서버 정상인 것이다.

SGLang 논문 핵심 개념 실습

핵심 프리미티브

전체 구조 이해

SGLang에서 s는 Prompt State를 관리하는 스트림이다. 이 스트림에 += 연산자로 내용을 추가하면, 프롬프트가 점진적으로 구성된다.

@sgl.function
def my_program(s):        # s = 빈 프롬프트 스트림
    s += sgl.system(...)  # s에 시스템 메시지 추가
    s += sgl.user(...)    # s에 사용자 메시지 추가
    s += sgl.assistant(...)  # s에 어시스턴트 메시지 추가
Python
복사

이것은 실제로 LLM에게 전달되는 채팅 템플릿(chat template)을 구성하는 과정이다.

•

sgl.system(”…”)

역할: LLM에게 전체 대화의 규칙과 역할을 설정한다.

내부적으로 이것은 채팅 템플릿에서 <|im_start|>system\nEvaluate an essay...<|im_end|> 같은 형태로 변환된다. 모든 후속 대화의 기조를 결정하는 지시문이다.

이 시스템 프롬프트의 KV 캐시가 이후 모든 호출에서 재사용된다.

•

sgl.user(”…”)

역할: 사용자의 입력을 프롬프트에 추가한다.

LLM 입장에서 “이것이 사용자가 말한 내용이다”라고 인식하는 부분이다. user()가 여러 번 나오는 것이 바로 SGLang의 multi-call 구조이며, 각 user() 추가 시점에서 이전까지의 KV 캐시가 재사용된다.

•

sgl.assistant(”…”)

역할: 어시스턴트(모델)의 응답을 프롬프트에 추가한다. 여기서 두 가지 사용법이 있다.

◦

사용법 1: 고정 텍스트 추가

s += sgl.assistant("Sure!")
Python
복사

모델이 “Sure!”라고 답한 것처럼 프롬프트에 삽입한다. 실제 생성이 아니라, 미리 정해진 응답을 주입하는 것이다.

◦

사용법 2: gen과 결합하여 실제 생성

s += sgl.assistant(sgl.gen("answer", max_tokens=30))
Python
복사

이때 모델이 실제로 텍스트를 생성한다. 생성된 결과는 “answer” 변수에 저장되고 나중에 s[”answer”]로 가져올 수 있다.

◦

사용법 3: 고정 텍스트 + 생성 혼합

s += sgl.assistant("Judgment: " + sgl.gen("judgment", stop="END"))
Python
복사

“Judgment: “는 고정 텍스트로 먼저 삽입되고, 그 뒤에 모델이 자유롭게 생성한다. stop=”END”는 “END”라는 문자열이 나오면 생성을 멈추라는 의미이다.

4개 프리미티브의 관계 요약

sgl.system("역할 설정")          ← 전체 대화의 기조
  │
  ▼
sgl.user("입력/질문")            ← 사용자 발화 (여러 번 가능)
  │
  ▼
sgl.assistant(                 ← 모델 응답
  "고정 텍스트"                     고정 부분: 바로 삽입
  + sgl.gen("변수명")              생성 부분: 모델이 실제 생성
)
  │
  ▼
s["변수명"]                      ← 생성 결과 가져오기
Python
복사

실습 1: RadixAttention을 통한 전역 KV Cache 재사용 (Cold vs Hot Start)

•

목적: 다중 호출 시나리오에 앞부분이 동일한 프롬프트가 들어왔을 때, 서버가 기존 VRAM에 구축해 둔 Radix Tree를 참조하여 연산(Prefill)을 생략하는지 확인

•

방법: 터미널에 vim practice_1.py 를 입력하고 아래 코드를 붙여넣은 뒤 저장

# practice_1.py
import sglang as sgl
import time

sgl.set_default_backend(sgl.RuntimeEndpoint("http://localhost:30000"))

@sgl.function
def test_cache(s, topic):
    s += "You are a highly capable AI assistant running on a constrained edge device. "
    s += "Please think step-by-step and provide a highly technical overview.\n\n"
    s += f"Question: Explain {topic}.\nAnswer:"
    s += sgl.gen("answer", max_tokens=60)
    return s

print("▶ [Test 1] 첫 번째 실행 (Cold Start) - 캐시가 비어있음")
start = time.perf_counter()
r1 = test_cache(topic="KV Cache Memory Fragmentation")
cold_time = time.perf_counter() - start
print(f"출력 결과: {r1['answer'][:50]}...\n[소요 시간: {cold_time:.4f}초]\n")

print("▶ [Test 2] 두 번째 실행 (Hot Start) - 프롬프트 앞부분 캐시 히트!")
start = time.perf_counter()
r2 = test_cache(topic="PagedAttention Algorithm")
hot_time = time.perf_counter() - start
print(f"출력 결과: {r2['answer'][:50]}...\n[소요 시간: {hot_time:.4f}초]")

speed_up = cold_time / hot_time if hot_time > 0 else 0
print(f"💡 속도 향상: 약 {speed_up:.1f}배 빠름!")
Python
복사

•

실행: python practice_1.py

•

실습 결과:

◦

Test 1은 프롬프트 전체의 행렬 곱셈을 수행하느라 약 0.0006초가 소요됨

◦

Test 2는 앞부분(”You are a highly …”)의 KV 캐시가 적중(hit)하여 뒷부분만 연산하므로 약 0.0002초 만에 완료됨

⇒ 약 2.5배 빠름!

Q. 다음 실습을 위해 이전 실습에서 사용했던 KV 캐시 값을 지워야 하지 않나?

SGLang 백엔드 서버는 이전 실습에서 사용한 프롬프트의 KV 캐시를 VRAM 내부의 Radix Tree 노드에 고스란히 저장해 두고 다음 요청을 기다린다.

하지만, SGLang의 Radix Tree는 텍스트(토큰)의 정확한 Prefix 일치 여부로만 캐시를 재사용하기 때문에 한 글자라도 프롬프트가 다르면 서버는 트리에 겹치는 부분이 없다고 판단하여 Radix Tree의 뿌리(Root)에서 완전히 새로운 나뭇가지를 뻗어서 새로운 KV 캐시를 독립적으로 생성한다.

•

KV 캐시를 초기화하는 방법:

◦

LRU(Least Recently Used) 정책으로 서버가 알아서 꽉 차면 오래된 것부터 지우기

◦

서버를 껐다 켜는 것

실습 2: Compressed FSM을 활용한 JSON 제약 고속 디코딩

핵심 개념 이해하기

에이전트(Agent)나 다른 시스템과 통신하려면 LLM은 반드시 정해진 JSON 형식이나 정규표현식(Regex) 규칙을 지켜서 대답해야 함

•

기존 시스템 (vLLM 등): "quantization": "INT4” 라는 텍스트를 만들 때, 매 토큰마다 다음 글자가 규칙에 맞는지 확률을 검사(Masking)하며 한 글자/한 토큰씩 무거운 GPU 연산(Forward pass)을 반복한다.

•

SGLang (Compressed FSM): 규칙을 미리 분석해서 상태 기계(FSM)을 만든다. 어차피 {\n  "model_name": “까지는 무조건 고정으로 나와야 하는 문자열이므로, GPU 연산을 아예 생략하고 이 문자열을 한 번에 출력(Jump-forward)해 버림. 오직 INT

•

목적:

◦

속도 비교: FSM을 적용하지 않은 일반 디코딩(Token-by-Token)과 FSM을 적용한 디코딩(Jump-forward)의 디코딩 속도(지연 시간) 차이를 시스템 관점에서 증명

◦

안정성 비교: 강제 제약이 없을 때 LLM이 엉뚱한 포맷(예: 마크다운 ```json 포함, 오타 등)을 뱉어낼 확률과 FSM의 100% 포맷 보장 능력 대조

•

방법: 터미널에 vim practice_fsm_compare.py를 입력하여 파일을 열고, 아래 코드를 붙여넣은 뒤 저장

import sglang as sgl
import time

# 서버 연결
sgl.set_default_backend(sgl.RuntimeEndpoint("http://localhost:30000"))

# [비교군 1] FSM 최적화가 없는 일반 생성 (순수 모델 연산)
@sgl.function
def test_no_fsm(s, device):
    s += f"Extract the hardware specifications for {device} into a JSON format.\n"
    s += "Include keys: model_name, memory_size_gb, architecture.\n"
    # regex 제약 없음! GPU가 한 글자씩 모든 토큰의 확률을 계산해야 함
    s += sgl.gen("json_spec", max_tokens=50)
    return s

# [비교군 2] Compressed FSM 최적화 적용 (경로 압축 및 Jump-forward)
@sgl.function
def test_with_fsm(s, device):
    s += f"Extract the hardware specifications for {device} into a JSON format.\n"
    s += "Include keys: model_name, memory_size_gb, architecture.\n"
    # 정규표현식 제약 부여! SGLang 백엔드가 고정된 문자열은 GPU 연산 없이 한 번에 건너뜀
		regex = r'\{\n  "model_name": "[a-zA-Z0-9 -]+",\n  "memory_size_gb": \d+,\n  "architecture": "(Ampere|Ada|Hopper)"\n\}'
    s += sgl.gen("json_spec", max_tokens=50, regex=regex)
    return s

print("▶ Compressed FSM 최적화 A/B 테스트 시작...\n")

# 공정한 속도 비교를 위해 서로 다른 device 이름을 주어 각각 Cold Start 유도
print("==================================================")
print("[Test A] Baseline: FSM 없는 일반 JSON 디코딩")
start = time.perf_counter()
res_no_fsm = test_no_fsm(device="NVIDIA RTX 3080")
output_text = res_no_fsm['json_spec']
time_no_fsm = time.perf_counter() - start
print(f"출력 결과:\n{output_text}\n")
print(f"⏱️ 소요 시간: {time_no_fsm:.4f}초")
print("==================================================\n")

print("==================================================")
print("[Test B] Optimized: Compressed FSM 기반 JSON 디코딩")
start = time.perf_counter()
res_fsm = test_with_fsm(device="NVIDIA RTX 4090")
output_text = res_fsm['json_spec']
time_fsm = time.perf_counter() - start
print(f"출력 결과:\n{output_text}\n")
print(f"⏱️ 소요 시간: {time_fsm:.4f}초")
print("==================================================\n")

# 분모가 0이 되는 것을 방지
speed_up = time_no_fsm / time_fsm if time_fsm > 0 else 0
print(f"💡 시스템 최적화 분석: FSM 적용 시 연산량을 건너뛰어 약 {speed_up:.1f}배 더 빠릅니다!")
Python
복사

•

실행: python practice_fsm_compare.py

•

실습 결과:

◦

출력 안정성 및 환각 통제

▪

[Test A] Baseline: FSM 없는 일반 JSON 디코딩

•

결과: 모델이 JSON 형식을 완전히 무시하고 “The hardware…” 라는 불필요한 대화형 문장을 뱉고, 심지어 마크다운 태그(```json)까지 생성했음

•

문제: 만약 이 결과값을 받아 json.loads()로 파싱하려고 했다면 즉시 Parsing Error가 발생하여 시스템이 중단될 것. LLM의 자율성에만 의존하는 기존 방식의 한계를 보여줌

▪

[Test B] Optimized: Compressed FSM 기반 JSON 디코딩

•

결과: 우리가 설정한 정규식에 맞게 깔끔한 JSON 포맷을 출력함

•

문제: SGLang(추론 엔진)이 모델의 자유도를 통제하여 100%의 형식 결정론성(Determinism)을 시스템 레벨에서 보장함

◦

디코딩 속도 및 연산량 최적화 (Speed & FLOPS)

▪

소요 시간 비교:

•

FSM 미적용 (Test A): 0.5773초

•

FSM 적용 (Test B): 0.2649초

▪

성능 향상: FSM을 적용했을 때 무려 2.2배 더 빠른 디코딩 속도를 달성함

실습 3: Multi-dimensional 에이전트 파이프라인

•

목적:

◦

프론트엔드 유연성 검증: Python의 기본 제어문(if/else)과 LLM의 생성 결과(s[”related”])가 어떻게 실시간으로 상호작용하며 다음 연산 경로를 결정하는지 확인함

◦

백엔드 최적화 통합 검증:

choices (선택지 제한): 불필요한 단어 생성 차단

fork / join (병렬 분기 및 병합): RadixAttention을 통한 Prefix 캐시 공유 및 다중 차원 동시 평가

regex (FSM): 최종 결과를 파싱 가능한 JSON으로 초고속 강제 출력. 이 모든 과정이 단 한 번의 함수 호출로 백엔드에서 병목 없이 처리되는 것을 증명

•

방법: 터미널에 vim practice_essay_agent.py를 입력하여 파일을 열고, 아래 코드를 붙여넣은 뒤 저장

import sglang as sgl
import time

# 4세부 로컬 추론 엔진에 연결
sgl.set_default_backend(sgl.RuntimeEndpoint("http://localhost:30000"))

@sgl.function
def multi_dimensional_judge(s, topic, essay):
    # 1. 채팅 템플릿 적용 (System, User, Assistant 역할 부여)
    s += sgl.system("You are an expert essay evaluator.")
    s += sgl.user(f"Topic: {topic}\nEssay: {essay}\nIs the essay related to the topic? Answer strictly 'yes' or 'no'.")
    
    # 2. [최적화 1] 확률 마스킹을 통한 초고속 선택 (yes or no)
    s += sgl.assistant(sgl.gen("related", choices=["yes", "no"]))
    
    # 3. Python 제어 흐름 (Control Flow) 연동
    if s["related"] == "no":
        s += sgl.user("Since it's not related, provide a brief rejection reason.")
        s += sgl.assistant(sgl.gen("rejection", max_tokens=30))
        return s

    # 4. [최적화 2] Fork를 통한 병렬 평가 및 KV 캐시 재사용 (Sec. 3)
    dimensions = ["Clarity", "Logic", "Grammar"]
    s += sgl.user("Evaluate the essay based on the following dimensions.")
    
    forks = s.fork(len(dimensions))
    for i, f in enumerate(forks):
        f += sgl.user(f"Evaluate based on: {dimensions[i]}. Provide a 1-sentence judgment. End with 'END'.")
        f += sgl.assistant("Judgment: " + sgl.gen("judgment", stop="END"))

    # 5. Join (병합)
    judgments = "\n".join([f"- {dimensions[i]}: {f['judgment']}" for i, f in enumerate(forks)])
    
    # 6. [최적화 3] Compressed FSM을 통한 JSON 고속 제약 디코딩 (Sec. 4)
    s += sgl.user(f"Here are the judgments:\n{judgments}\nProvide a summary and a final letter grade (A, B, C, D, F) in JSON format.")
    
    # 강력한 정규식 제약 (이전 실습의 교훈 적용!)
    schema = r'\{\n  "summary": "[a-zA-Z0-9 .,-]+",\n  "grade": "(A|B|C|D|F)"\n\}'
    s += sgl.assistant(sgl.gen("output", regex=schema))
    
    return s

print("▶ SGLang 논문 Figure 2 (다차원 평가 에이전트) 통합 파이프라인 테스트...\n")

test_topic = "The impact of Artificial Intelligence on future jobs."
test_essay = "AI is rapidly evolving. It will automate repetitive tasks, but also create new tech jobs like prompt engineers. We must adapt through continuous learning."

start = time.perf_counter()

# 단 한 번의 호출로 저수준 백엔드 스케줄링까지 완벽하게 처리됩니다!
state = multi_dimensional_judge(topic=test_topic, essay=test_essay)

# 결과 출력 대기 (Blocking)
final_json = state["output"] if state["related"] == "yes" else state["rejection"]
total_time = time.perf_counter() - start

print("================ [에이전트 판단 결과] ================")
print(f"1. 주제 연관성 (yes/no): {state['related']}")
if state["related"] == "yes":
    print(f"\n2. 최종 평가 JSON:\n{final_json}")
print("======================================================")
print(f"\n⏱️ 파이프라인 전체 소요 시간: {total_time:.4f}초")
Python
복사

•

실행: python practice_essay_agent.py

•

실습 결과:

초고속 조건부 분기

•

결과: 1. 주제 연관성 (yes/no): yes

•

시스템 최적화 관점: 시스템이 에세이를 읽고 주제와 관련이 있는지 판단할 때, 모델이 불필요한 서론(”Yes, the essay is…”)을 뱉지 못하도록 choices=["yes", "no"]로 확률을 통제했다. 덕분에 불과 수십 밀리초(ms) 만에 다음 파이썬 로직(if s["related"] == "yes":)으로 넘어갈 수 있었다.

fork / join을 통한 병렬 평가 (Radix Tree + Batching)

•

결과: 0.97초라는 시간 안에 이미 Clarity, Logic, Grammar 3가지 차원에 대한 개별 평가가 모두 완료되어 있다.

•

시스템 최적화 관점: 만약 일반적인 서빙 프레임워크(vLLM 등)였다면 이 3가지 질문을 순차적으로 묻느라 시간이 3배로 걸렸을 것이다. 하지만 SGLang 백엔드는 fork 명령을 받자마자 지금까지의 배경지식(에세이 본문) KV 캐시를 공유한 채, 3개의 질문을 하나의 배치로 묶어 GPU 코어에서 동시에 연산해버렸다.

Compressed FSM을 통한 구조화된 요약 (JSON 출력)

•

결과: 에이전트가 에세이의 핵심을 요약(”summary”: “The essay …”)하고, 최종 등급을 “B”로 평가하여 완벽한 JSON 포맷으로 출력했다.

•

시스템 최적화 관점: 복잡한 다단계 추론의 마지막 단계에서 정규식을 통한 FSM 최적화가 모델의 경로를 압축하여, 오타나 파싱 에러 없이 다음 에이전트(혹은 애플리케이션)로 즉시 넘길 수 있는 규격품을 초고속으로 만들어냈다.

엔드투엔드 지연 시간 (End-to-End Latency)

•

결과:  파이프라인 전체 소요 시간: 0.9744초

•

시스템 최적화 관점: 기존 LangChain 같은 파이썬 라이브러리로 이 로직을 짰다면, 모델 서버와 파이썬 서버 간에 네트워크 통신(API 호출)이 총 5번(yes/no 판단 1번, 평가 3번, JSON 요약 1번) 발생하며 핑(Ping)과 통신 오버헤드만으로도 수 초가 걸렸을 것이다. SGLang은 이 모든 ‘상태(State)’를 백엔드 인터프리터가 쥐고 놓지 않은 채 한 호흡에 처리하여 네트워크 병목을 완전히 소거했다.

“50대의 추교현이 20대의 추교현에게 감사할 수 있도록 하루하루 최선을 다해 살고 있습니다.”

The End.