🤖

AI Agent에 대해 알아보자 (feat. 협업 시스템)

필자의 공부를 위해 [Tech Series] KT Cloud AI 에이전트 3편의 글을 필사 및 정리한 글입니다.

AI Agent의 이해와 구성요소

AI Agent란?

Google의 최신 백서(Google AI Agents White paper)에 따르면, AI Agent는 “목표를 달성하기 위해 세상을 관찰하고 주어진 도구들을 활용하여 행동하는 자율적인 AI 시스템”이다.

•

주요 특징

자율성: 인간이 계속해서 개입하지 않아도 스스로 판단하고 행동할 수 있음.

능동성: 해당 작업을 완료하면, 다음은 무엇을 해야 하지? 스스로 생각하며 계획을 세움. 누군가 구체적으로 지시하지 않아도, 주어진 목표를 향해 나아갈 수 있음.

도구 활용 능력: 기존의 챗봇들은 대화만 할 수 있었다면, AI Agent는 실제로 외부 시스템이나 도구들을 사용해서 필요한 작업을 직접 수행할 수 있음.

3가지 핵심 구성 요소

모델 (Model) - AI의 두뇌

중앙 의사결정자로서 상황을 이해하고 판단하는 AI의 핵심 두뇌를 담당

AI Agent는 단순히 정보를 전달하는 것을 넘어, 사용자 상황을 이해하고, 필요한 정보를 체계적으로 제시하며, 추가적인 요구사항까지 예측하여 대응하는 ‘똑똑한 비서’ 역할을 수행할 수 있다.

도구 (Tools) - AI의 손과 발

실제 작업을 수행하기 위해 AI가 활용하는 다양한 기능들의 집합체

•

Extensions - 똑똑한 검색 도우미

마치 도서관의 통합 검색 시스템과 비슷하다. ‘이 책 있나요?’ 하고 물으면 우리 학교 뿐만 아니라 다른 캠퍼스 도서관까지 모두 검색해주는 것처럼, AI의 Extension는 외부 시스템과 연결되어 필요한 정보를 실시간으로 가져올 수 있다.

•

Functions - 자동화된 작업 처리기

도서관의 자동 대출/반납기나 프린터 같은 것이다. 학생증 찍고 책을 스캔하면 바로 대출되듯이, Functions는 이메일 발송, 일정 등록, 파일 저장 같은 실제 작업들을 자동으로 처리한다.

•

Data Stores - 똑똑한 기억 창고

도서 대출 이력을 기억하는 시스템과 비슷하다. ‘지난 번에 빌린 책이랑 비슷한 책을 추천해드릴까요?’ 라고 말할 수 있는 것처럼, Data Stores는 중요한 정보를 저장하고 필요할 때 활용하여 더 개인화된 서비스를 제공할 수 있게 해준다.

오케스트레이션 레이어 - AI의 작전 본부

목표 달성을 위해 모델과 도구들의 활용 순서와 방법 조정

시험 시간의 도서관을 총괄하는 관리자를 떠올려보자. 열람실 상황을 체크하고, 스터디룸 예약을 조정하고, 야간 운영까지 모든 것을 조율한다. 오케스트레이션 레이어는 바로 이런 총괄 관리자와 같은 역할을 한다.

전체 작업의 흐름을 관리하고, 각 도구들을 적재적소에 배치하며, 최종 목표 달성을 위한 전략을 수립한다.

이처럼 AI Agent는 고도화된 LLM, 강력한 도구 세트, 그리고 정교한 오케스트레이션 시스템이 유기적으로 결합된 차세대 AI 시스템이다.

AI Agent 유형과 특성

전통적 AI Agent의 공통 작동 흐름

환경 지각 (Perception)

에이전트는 센서나 외부 입력을 통해 지금 어떤 일이 벌어지고 있는지를 감지한다. “지금 서버가 바쁘네?” 같은 상황 인식.

상태 업데이트 + 판단 (Reasoning)

이전에 알고 있던 정보와 지금 받은 데이터를 조합해서 현재 상태를 명확히 파악하고, 규칙이나 모델, 목표 등을 바탕으로 무엇을 할지 결정한다.

행동 실행 (Action)

결정이 내려지면, 실행에 옮긴다. 예를 들어, 서버 확장, 메시지 발송, 장비 제어 등

결과 반영 (Feedback Loop)

행동의 결과를 다시 관찰해 학습하거나 다음 판단에 반영하는 구조이다.

1. 단순 반사 에이전트(Simple Reflex AI Agents)

이 에이전트는 Perception(지각)과 Action(행동)에만 집중하고, 중간의 판단 과정(Reasoning)은 생략된 구조이다. 지금 무슨 일이 일어났는지만 보고, 별다른 고민 없이 바로 반응하는 방식이다.

예를 들어, 클라우드 서버 환경에서 갑자기 CPU 사용률이 90%를 넘는다고 할 때 단순 반사 에이전트는 이를 인지하자마자 바로 서버를 추가하는 오토스케일링 작업을 실행한다.

이 에이전트의 특징은:

•

기억력 없음

•

예측력 없음

•

현재 상황만 보고 판단

이 에이전트는 주변 환경을 관찰하고, 그에 맞는 행동을 정해진 규칙에 따라 즉시 실행한다.

이전 상황을 기억하지도 않고, 앞으로 일어날 일을 예측하지도 않는다. 그래서 구조는 단순하지만, 설정만 잘 해두면 원하는 행동을 잘 실행할 수 있는 방식이다.

정해진 조건만 충족되면 바로 반응하니까, 고민 없이 빠르게 처리할 수 있다. 대신, 너무 단순하기 때문에 복잡한 문제는 해결하지 못한다.

2. 모델 기반 에이전트(Model-Based AI Agents)

이 에이전트는 Perception(지각)을 통해 들어온 정보를 내부에 저장하고, 이를 바탕으로 Reasoning(추론) 능력을 강화한 형태이다. ‘지금’만 보는 게 아니라, ‘과거와 미래’를 함께 고려한다.

예를 들어, 어떤 이커머스 회사의 클라우드 시스템을 관리하는 에이전트가 있다고 하자. 최근 며칠간 트래픽이 계속 오르고 있다. 이걸 확인한 모델 기반 에이전트는 “지난번 신제품 출시 전주량 패턴이 비슷하네. 그때 서버가 한 번 터졌으니까, 이번에도 대비해야겠다!” 그래서 미리 서버를 확장하거나, 캐시 전략을 조정해 문제를 피하게 할 수 있다.

단순 반사 에이전트가 즉각적인 반응에 특화된 방식이었다면, 모델 기반 에이전트는 더 생각을 깊게 하는 타입이다. 마치 체스 선수가 상대방 수를 예측하며 다음 수를 준비하듯, 이 에이전트는 현재 상태뿐만 아니라 과거 경험과 내부 모델을 활용해 미래를 예측하고 행동한다.

이 에이전트의 특징은:

•

환경의 내부 모델을 갖고 있음

•

과거 상황을 기억해서 비교함

•

지금뿐만 아니라 미래도 생각함

즉, 앞서 말한 공통 흐름 중 2단계 상태 업데이트와 3단계 의사결정이 매우 정교하게 작동하는 에이전트이다.

GPT와 같은 LLM은 내부적으로 명시적인 환경 모델을 사용하진 않지만, 대규모 문맥 이해를 통해 유사한 기능을 수행한다. 사용자의 대화 이력이나 최근 질문을 기반으로 앞으로 나올 요청을 예측하고, 더 나은 답변을 제공한다. 또, LLM 기반의 Agent가 외부 툴과 연동되어 상황을 기억하고 계획을 세우는 구조로 발전하면서, 점점 더 모델 기반 에이전트의 특징을 흡수하고 있다.

3. 목표 기반 에이전트(Goal-Based AI Agent)

이 에이전트는 Perception(지각)을 기반으로 현재 상태를 파악하고, Reasoning(추론)을 통해 어떤 행동이 목표에 더 가까운지를 계산하며, Action(행동)으로 실행까지 이어지는 전통적 흐름을 모두 포함하는 구조이다.

예를 들어, “이번 달 클라우드 비용을 15% 줄여야 해!”라는 목표가 있다면, 이 에이전트는 단순히 현재 상태만 보고 대응하지 않는다. 비용 절감을 위해 불필요한 인스턴스를 줄이고, 트래픽 패턴을 분석하여 밤에는 리소스를 줄이고, 낮에는 유지하거나 오히려 성능을 높인다. 즉, 목표를 중심으로 행동을 ‘계획’하고, 그 계획에 따라 ‘결정’을 내리는 방식이다.

이 에이전트의 특징은:

•

목표를 먼저 설정함

•

목표 달성을 위한 여러 경로를 시뮬레이션함

•

가장 나은 길을 찾아 실행시킴

공통 작동 흐름 중에선 특히 3단계 의사결정과 4단계 행동 실행에서 두각을 나타내는 친구이다.

LLM 기반 시스템 중에서도 AutoGPT나 AgentGPT 같은 프레임워크는 사용자로부터 목표만 입력받으면 그걸 달성하기 위한 하위 작업을 스스로 분해하고 실행 계획을 세운다. 이건 목표 기반 에이전트의 개념을 현대적으로 구현한 사례이다. 또한, LLM이 API를 호출하거나 외부 도구와 연동해서 목표 달성에 필요한 조치를 취하는 경우, 그 전반적인 흐름도 이와 비슷하다.

4. 유틸리티 기반 에이전트(Utility-Based AI Agent)

전통적 구조에서 보면, 이 에이전트는 특히 Reasoning(판단) 단계에 강점을 두고 있다. 다양한 선택지의 효용(utility)을 계산하고, 그중 가장 좋은 걸 골라내는 게 핵심이다.

이 에이전트는 말 그대로 “이 선택이 얼마나 쓸모 있을까?”, “지금 내게 가장 이득이 되는 건 뭘까?”를 고민한다. 앞선 단순 반사나 목표 기반 에이전트는 조건이 딱 떨어지는 경우엔 효과적이지만, 현실은 그렇지 않은 경우가 더 많다. 예를 들어, “클라우드 비용은 줄이고 싶지만, 사용자 응답 속도는 유지하고 싶고, 동시에 장애도 없어야 한다” 이럴 때 어떤 결정을 내릴 수 있을까?

유틸리티 기반 에이전트는 이런 여러 조건 사이에서 가장 좋은 균형점을 계산한다. ‘가치 함수(Utility Function)’를 통해 각각의 행동이 가져올 이득을 수치화하고, 그중 가장 높은 점수를 받는 선택지를 실행한다.

이 에이전트는 다음과 같이 사고한다:

•

설정된 가치: 비용은 40점, 성능은 35점, 안정성은 25점

•

“A 옵션은 싸긴 한데, 성능이 좀 아쉬워서 총점은 78점”

•

“B 옵션은 가격이 비싸지만, 성능과 안정성이 좋아서 총점 83점”

•

즉, B 옵션을 선택해야겠다!

LLM 기반 에이전트들도 점점 더 이런 유틸리티 기반 사고를 흡수하고 있다. 예를 들어, 사용자의 질문에 답변할 때도 단순히 ‘정답’을 찾는 게 아니라

•

사용자 만족도는 어떤가?

•

맥락에 얼마나 잘 맞는가?

•

이 답변이 후속 질문을 줄일 수 있는가?

이런 다양한 요소를 평가하고, 그중 가장 ‘유용할 것 같은 답변’을 생성하는 방향으로 발전하고 있다. 또한, AI 기반 의사결정 시스템에서 LLM이 조언자로 쓰일 때, 유틸리티 평가를 보조하는 역할도 가능하다.

5. 학습 에이전트(Learning-Based AI Agent)

이 에이전트는 전통적인 흐름에서 Feedback → Reasoning 개선 구조에 해당한다. 즉, 지각(Perception)과 행동(Action)을 통해 수집된 결과를 바탕으로 추론 능력을 계속 개선시키는 구조이다.

학습 에이전트는 단순히 정해진 규칙이나 목표만 따르지 않는다. 실패도 경험으로 삼고, 시간이 지날수록 더 똑똑해지는 에이전트이다.

예를 들면, 한 클라우드 시스템에서 매주 월요일 오전 9시가 되면 트래픽이 확 늘어나는 현상이 반복된다고 하자. 처음에는 이걸 몰라서 서버가 종종 과부하에 걸렸는데, 학습 에이전트가 이 패턴을 알아챈다. 이런 식으로 경험을 통해 스스로 전략을 조정하고, 다음에는 더 잘 대처할 수 있도록 진화하게 된다.

학습 에이전트의 핵심:

•

환경을 관찰하고 기록함

•

결과를 평가해서 뭐가 잘됐는지 학습

•

다음에는 더 나은 행동을 하도록 조정

즉, 공통 흐름 중에서도 5단계 ‘결과 반영’과 이와 연결된 성능 개선 루프가 가장 강력하게 작동하는 에이전트

사실 GPT나 Claude 같은 LLM은 자체적으로 계속 학습하는 구조는 아니다. 하지만 그 위에 학습 능력을 덧붙인 다양한 기법들이 존재한다.

•

RLHF: 사람의 피드백을 바탕으로 모델을 개선하는 학습 방식

•

RAG: 외부 정보를 참조해 더 정확한 답변을 생성하도록 학습한 구조

•

Fine-tuning: 특정 도메인에 맞춰 LLM을 더 정교하게 다듬는 방식

또한, LLM을 활용한 에이전트 시스템에서는 사용자의 반응 데이터를 수집해 전략을 수정하고, 다음에 더 나은 결과를 만들어내는 방식으로도 학습 에이전트의 구조가 반영되고 있다. 학습 에이전트의 가장 큰 장점은, 처음엔 부족하더라도 시간이 지날수록 반드시 성장하다는 것이다.

6. 계층적 에이전트(Hierarchical AI Agent)

이 에이전트는 전통적인 흐름 전체(Perception - Reasoning - Action)를 계층적으로 분할하여 구성한 형태이다. 각 계층이 특정 기능을 담당하며, 복잡한 시스템을 더 효율적으로 운영하게 해준다.

위의 에이전트들은 각자 고유의 능력을 가지고 있다면, 계층적 에이전트는 이들을 조직하고 조율하는 ‘감독자’ 같은 존재이다. 복잡한 일을 한 번에 해결하긴 어려우니까, 일을 잘게 나누고 단계별로 처리하도록 설계된 구조이다.

복잡한 문제를 효율적으로 처리하기 위한 “조직적인 사고”와 “협업 구조”가 이 에이전트의 핵심이다. 예를 들자면, 클라우드 서비스 장애가 발생했을 때, 계층적 에이전트는 다음과 같이 움직인다:

이렇게 복잡한 문제를 쪼개고, 계층적으로 나누어 효율적으로 해결하는 게 강점이다.

이 에이전트의 강점:

•

복잡한 작업도 체계적으로 분해함

•

각 계층이 자기 역할에 집중할 수 있음

•

전체 흐름을 유기적으로 연결할 수 있음

공통 작동 흐름 전체를 계층적으로 쪼개어 여러 역할이 나눠 갖기 때문에, 사실상 모든 단계에서 골고루 사용되는 에이전트라고 볼 수 있다.

최근 등장한 멀티에이전트 프레임워크(CrewAI, LangGraph 등)를 보면, 계층적 구조가 그대로 녹아 있다.

•

PM 역할을 하는 LLM: 목표 설정 및 작업 분배

•

개별 역할을 맡은 LLM 에이전트들: 각각의 전문성에 따라 작업 수행

•

결과 취합과 피드백 루프: 팀처럼 협업하며 문제 해결

LLM 시대에는 이렇게 역할별 LLM을 구조로 배치해서 더욱 유연하고 확장성 있는 시스템을 만들고 있다.

AI Agent의 협업 시스템

다중 에이전트 시스템(Multi-Agent System, MAS)란?

다중 에이전트 시스템(Multi-Agent System, MAS)은 여러 자율적인 에이전트들이 상호작용하며 공동의 문제를 해결하거나 특정 목표를 달성하기 위해 협력하는 시스템이다. 각 에이전트는 특정 역할이나 전문 분야를 담당하며, 서로 통신하고 조율하면서 문제를 해결한다.

MAS의 주요 특징

•

역할 기반 분업: 각 에이전트는 특정 역할이나 전문성을 갖고 있다.

•

메시지 기반 통신: 에이전트 간에는 표준화된 메시지 프로토콜을 통해 정보를 주고받는다. 이를 통해 의사결정이나 협업 요청이 가능해진다.

•

조정 메커니즘: 충돌 방지, 자원 배분, 우선순위 조정을 위한 내부 규칙이나 협상 방식이 포함된다.

MAS의 작동 방식

작업 분해 ⇒ 역할 할당 ⇒ 협업 실행 ⇒ 결과 통합

먼저, 복잡한 문제를 여러 개의 하위 작업으로 분해한 뒤(작업 분해), 각 작업을 적절한 에이전트에게 할당(역할 할당)한다. 이후 에이전트들은 병렬적으로 작업을 수행(협업 실행)하며, 중간 결과를 공유하고 조율하면서 전체 결과(결과 통합)를 만들어낸다.

협업 방식의 두 가지 흐름: 중앙 집중형 vs 분산형

중앙 집중형 시스템 (Centralized MAS)

마치 PM이 프로젝트를 총괄하듯이, 하나의 메인 AI가 다른 AI들을 지휘한다. 효율적이지만, 메인 AI에 문제가 생기면 전체 시스템이 마비될 수 있다.

•

장점: 빠른 의사결정, 높은 통제력

•

단점: 중앙 서버 장애 발생 시 전체 시스템이 중단될 위험

분산형 시스템 (Decentralized MAS)

각 AI가 자율적으로 움직이면서 서로 협력한다. Microservice 아키텍처와 비슷하다고 보면 된다. 유연하고 안정적이지만, 관리가 좀 더 복잡할 수 있다.

•

장점: 확장성이 뛰어나고, 특정 노드 장애에도 강건(robust)함

•

단점: 개별 에이전트 간 통신 비용 증가, 조율 어려움

MAS의 핵심 기술

MAS(Multi-Agent System)는 여러 개의 AI Agent가 협력하여 복잡한 문제를 해결하는 시스템이다. MAS가 효과적으로 작동하려면 AI들이 어떻게 협력할지, 어떻게 학습할지를 결정하는 핵심 기술이 필요하다. 대표적인 MAS 협업 기술로는 스웜 인텔리전스(Swarm Intelligence), 군집 지능(Collective Intelligence), 멀티 에이전트 강화학습(MARL) 등이 있다.

스웜 인텔리전스(Swarm Intelligence)

개미나 벌처럼 단순한 개체들이 협력하여 복잡한 문제를 해결하는 방식이다. 이 개념을 AI에 적용하면 여러 AI가 자율적으로 협력하여 최적의 해결책을 찾을 수 있다.

•

분산 문제 해결: 복잡한 문제를 작은 단위로 나누고, 여러 AI가 역할을 분담해 해결한다.

•

자기 조직화: 중앙에서 통제하지 않아도, AI들이 서로 협력해 자동으로 구조를 형성한다.

•

창발적 행동: 개별 AI는 단순한 규칙만 따르지만, 전체적으로는 예측할 수 없는 복잡한 패턴이 나타난다.

•

견고성: 일부 AI가 오류를 내도 시스템 전체는 계속 작동할 수 있다.

멀티 에이전트 강화학습(MARL, Multi-Agent Reinforcement Learning)

최근에는 멀티 에이전트 강화학습이 그 자리를 빠르게 채우고 있다. MARL은 여러 AI가 같은 환경에서 상호작용하면서 협력하거나 경쟁하며 스스로 전략을 학습하는 방식이다. 이는 협력적(Collaborative) 방식과 경쟁적(Competitive) 방식으로 나뉜다.

•

협력적 MARL (Collaborative MARL)

◦

여러 AI가 함께 목표를 달성하기 위해 협력하는 방식

◦

예시:

▪

자율주행 차량 간 협력 (V2X 통신 기반)

▪

산업용 로봇 협업 (공장에서 로봇들이 조립 과정에서 서로 협력하는 방식)

•

경쟁적 MARL (Competitive MARL)

◦

각 AI가 서로 경쟁하면서 최적의 전략을 학습하는 방식

◦

예시:

▪

게임 AI (스타크래프트 AI - AlphaStar, OpenAI Five)

▪

금융 AI (고빈도 매매 알고리즘 트레이딩)

MARL은 단순한 학습을 넘어 다음과 같은 특징을 갖고 있다:

•

경험 공유: 하나의 에이전트가 얻은 지식을 다른 에이전트와 공유한다.

•

협력적 보상: 팀 전체의 성공을 기준으로 보상을 주기 때문에 개별 성과보다 공동 목표에 집중한다.

•

적응형 학습: 환경 변화에 맞춰 스스로 전략을 바꾸고 진화할 수 있다.

MAS의 확장: Multi-Agent with Large Models (MALM)

최근에는 GPT 같은 대형 언어 모델(LLM)을 기반으로 한 새로운 협업 구조가 주목받고 있다. 기존 MAS처럼 여러 에이전트가 함께 일하는 구조지만, 이제는 각 에이전트가 LLM의 유연한 언어 처리 능력을 활용해 훨씬 더 유연하고 똑똑하게 협력할 수 있다. 기술 커뮤니티에서는 이를 MALM(Multi-Agent with Large Models)이라는 표현으로 부르기도 한다.

기존 MAS는 보통 정해진 규칙과 제한된 의사결정 범위 내에서 움직였지만, MALM은 자연어로 상황을 이해하고 유연하게 대응하며, 때로는 역할도 동적으로 나누는 구조를 갖고 있다. 특히, 자연어 기반 상호작용이 가능하다는 점에서 인간과의 협업은 물론, AI들 간의 협업에도 큰 전환점을 만들고 있다.

MAS vs MALM

•

MAS의 특징:

◦

규칙 기반의 의사결정

◦

미리 정의된 행동 패턴

◦

제한된 적응성

◦

개별 에이전트의 독립적 판단

•

MALM의 혁신적 특징:

◦

언어 모델 기반의 유연한 의사결정

◦

상황 맥락 이해 및 적응

◦

자연어 기반 상호작용

◦

동적인 역할 분담과 협업

AI 협업 시스템의 새로운 흐름: 하이브리드(Hybrid) 접근 방식

지금까지 살펴본 MAS와 MALM처럼 분산된 AI Agent들이 각자의 역할을 수행하면서 협력하는 구조들이 발전해 왔다. 하지만 실제 환경은 그렇게 단순하지 않다. 완전히 중앙 집중형이거나, 완전히 분산형인 시스템은 현실적인 한계가 명확하다. 그래서 최근에는 이 두 방식을 조합한 하이브리드 협업 구조가 점점 더 주목받고 있다.

외부 지식과 시스템을 활용한 LLM 보완 방식

대형 언어 모델(LLM)은 뛰어난 언어 생성 능력을 갖고 있지만, 최신 정보 반영, 논리적 추론, 결과 해석 가능성 같은 측면에서는 여전히 한계를 갖고 있다. 그래서 최근에는 LLM을 외부 지식이나 시스템과 연결해 보완하는 구조가 AI 협업 시스템에서 핵심 요소로 주목받고 있다.

대표적인 방식이 신경기호 AI(Neuro-Symbolic AI)와 RAG(Retrieval-Augmented Generation)이다.

신경기호 AI는 지식 그래프, 규칙 기반 시스템 등과 연결해 생성 결과의 신뢰성과 해석 가능성을 높이고, 최근에는 Stanford의 Graph-RAG처럼 symbolic 구조와 검색 기반 응답 생성 방식을 결합하거나, MIT의 SymbL, OpenAI의 Autoformalization 프로젝트처럼 LLM의 출력을 수학적 또는 논리적 구조로 해석하고 검증하는 방식이 활발히 연구되고 있다.

한편, RAG는 외부 문서나 데이터베이스에서 관련 정보를 검색해서 LLM이 그 정보를 바탕으로 응답을 생성하는 구조이다. 단순한 문서 검색을 넘어서, 최근에는 ReAct-RAG, Fusion-in-Decoder, Multi-hop RAG, AgentRAG 같은 구조들이 등장하며 Reasoing, 도구 사용, 협업까지 결합하고 있다.

멀티모달 AI 모델의 협업

AI 시스템이 외부 지식이나 정보와 협력하는 구조가 발전하고 있는 동시에, 입력되는 데이터 자체도 텍스트뿐 아니라 이미지, 음성, 영상 등으로 다양해지고 있다. 그 결과, 서로 다른 종류의 AI 모델들이 함께 협력하는 멀티모달 협업 구조 역시 중요성이 커지고 있다.

과거에는 음성 인식, 이미지 분류, 텍스트 요약 같은 기능이 별도의 시스템에서 개별적으로 작동했지만, 이제는 하나의 워크플로우 안에서 멀티모달 모델들이 자연스럽게 연결되는 구조가 일반화되고 있다.

예를 들어, GPT-4V는 시각 정보와 언어 정보를 동시에 이해하고, OpenAI의 CLIP은 이미지와 텍스트 사이의 의미를 연결해 검색과 분류를 도와주며, DALL-E는 텍스트 설명을 바탕으로 이미지를 생성할 수 있다. 최근에는 Google의 Gemini나 Meta의 MM1처럼 멀티모달 reasoning에 최적화된 모델들이 등장하면서 텍스트, 이미지, 음성뿐 아니라 영상까지 동시에 처리하는 기술로 확장되고 있다.

이처럼 AI 협업 시스템은 점점 더 정교해지고 있고, 단일한 모델이나 단순한 구조만으로는 원하는 수준의 정밀도와 유연성을 확보하기 어려워지고 있다. 결국 중요한 건 목적에 따라 적절한 기술들을 조합하고, 그 안에서 에이전트 간의 역할과 협력이 어떻게 설계되느냐이다. 그리고 이러한 구조를 안정적으로 뒷받침해주는 클라우드 인프라 역시 점점 더 중요해지고 있다.

레퍼런스

[1] [Tech Series] kt cloud AI 에이전트 #1 : 에이전트의 이해와 구성 요소

[2] [Tech Series] kt cloud AI 에이전트 #2 : 에이전트의 유형과 특성

[3] [Tech Series] kt cloud AI 에이전트 #4 : 에이전트의 협업 시스템