컨텍스트 엔지니어링 2.0: 컨텍스트 엔지니어링의 맥락

게시일: 2025년 11월 7일 | 원문 작성일: 2025년 10월 30일 | 저자: Qishuo Hua 외 (SJTU, SII, GAIR) | 원문 보기

핵심 요약

이 논문은 컨텍스트 엔지니어링이 최근 LLM 시대에 갑자기 등장한 개념이 아니라, 20년 이상의 역사를 가진 진화하는 분야라는 점을 밝힙니다. 인간의 본질이 사회적 관계의 총체라는 마르크스의 말처럼, 우리는 맥락(context)에 의해 정의되는데요. AI 시대에는 이 맥락이 인간-기계 상호작용까지 포함하게 됐죠.

주요 내용:

4단계 진화 모델: Context 1.0 (원시 컴퓨팅) → 2.0 (지능형 에이전트) → 3.0 (인간 수준 지능) → 4.0 (초인간 지능)
엔트로피 감소 관점: 컨텍스트 엔지니어링은 고엔트로피 인간 의도를 저엔트로피 기계 이해로 변환하는 과정
실무 가이드: 컨텍스트 수집, 관리, 활용에 대한 체계적인 설계 고려사항 제시
미래 방향: 평생 컨텍스트 보존, 멀티모달 융합, 사용자 니즈의 선제적 추론 등

컨텍스트 엔지니어링이란?

컨텍스트 엔지니어링은 기계가 인간의 상황과 의도를 더 잘 이해하고 행동할 수 있도록 컨텍스트 정보를 설계하고, 조직하고, 관리하는 실무예요. 최근에는 프롬프트 엔지니어링(prompt engineering), RAG(검색 증강 생성, Retrieval-Augmented Generation), 도구 호출(tool calling), 장기 메모리 메커니즘(long-term memory) 등으로 구현되고 있죠.

하지만 많은 사람들이 오해하는 게 있어요. 컨텍스트 엔지니어링을 최근 개발로 생각하거나, “컨텍스트”를 대화 이력이나 에이전트 중심 환경 입력으로만 좁게 정의하는 거죠. 실제로는 1990년대 유비쿼터스 컴퓨팅, 컨텍스트 인식 시스템, HCI 연구부터 시작된 분야랍니다.

핵심 인사이트: 엔트로피 감소 관점

💡 정보 엔트로피(Information Entropy)란?

정보 이론에서 엔트로피는 불확실성이나 무작위성의 정도를 측정해요. 엔트로피가 높을수록:

정보가 더 무작위적이고 예측하기 어려움
메시지를 이해하는 데 더 많은 문맥이 필요함
애매모호하거나 구조화되지 않은 정보

예시: “회의”라는 단어는 고엔트로피 (어떤 회의? 누구와? 언제?). “금요일 오후 3시 회의실 A에서 김팀장님과 분기 실적 회의”는 저엔트로피 (명확하고 구체적).

컨텍스트 엔지니어링의 목표는 인간의 고엔트로피 의도를 기계가 처리할 수 있는 저엔트로피 형태로 변환하는 거예요.

이 논문의 가장 중요한 통찰 중 하나는 컨텍스트 엔지니어링을 엔트로피 감소 과정으로 보는 거예요. 사람들이 대화할 때는 청자가 공유된 지식, 감정적 단서, 상황 인식을 통해 빠진 맥락을 추론하면서 정보 엔트로피를 능동적으로 줄이죠.

하지만 기계는 (아직은) 이런 능력이 부족해요. 그래서 우리가 맥락을 “전처리”해줘야 하는 거죠 - 원래 정보를 기계가 이해할 수 있는 형태로 압축하는 거예요. 이게 바로 컨텍스트 엔지니어링의 핵심 “노력”이에요.

graph LR A["고엔트로피 인간 의도"] -->|컨텍스트 엔지니어링| B["저엔트로피 기계 이해"] B --> C["효과적인 행동/응답"] style A fill:#fff3cd style B fill:#d4edda style C fill:#cce5ff

4단계 진화 모델

논문은 기계 지능의 발전에 따라 컨텍스트 엔지니어링이 어떻게 진화하는지 4단계로 설명해요:

시대	시기	기계 지능 수준	컨텍스트 특징	상호작용 비용
1.0	1990년대~2020	원시 컴퓨팅	컨텍스트를 번역으로 (구조화된 입력 필요)	높음
2.0	2020~현재	지능형 에이전트	컨텍스트를 지시로 (자연어 이해 가능)	중간
3.0	미래	인간 수준 지능	컨텍스트를 시나리오로 (감정, 사회적 단서 이해)	낮음
4.0	추측	초인간 지능	컨텍스트를 세계로 (인간보다 깊은 이해)	매우 낮음

중요한 패턴이 보이나요? 기계가 더 지능적일수록 컨텍스트 처리 능력이 향상되고, 인간-AI 상호작용 비용이 낮아진다는 거죠. 우리는 현재 2.0 시대에서 3.0 시대로 전환하는 중이에요.

Era 1.0: 원시 컴퓨팅 시대 (1990년대~2020)

1990년대는 GUI가 등장하면서 컴퓨터가 더 접근하기 쉬워진 시기였어요. 하지만 기계는 여전히 미리 정의된 프로그램 로직만 실행할 수 있었고, 자연어 의미를 이해하거나 문제에 대해 추론하거나 오류를 효과적으로 처리할 능력이 없었죠.

핵심 개념: Context Toolkit (1999)

Anind Dey가 도입한 Context Toolkit은 이 시대를 대표하는 프레임워크예요. 5가지 핵심 추상화로 구성됐죠:

Context Widgets: 센서를 캡슐화하고 표준화된 인터페이스 노출
Interpreters: 원시 컨텍스트 데이터에서 상위 수준 의미 도출
Aggregators: 여러 컨텍스트 소스 통합
Services: 컨텍스트 기능에 대한 애플리케이션 수준 접근 제공
Discoverers: 컨텍스트 구성요소의 동적 등록 및 발견 가능

이 시대의 핵심 문제는? 인간이 복잡한 의도를 구조화된 기계 가독 형식으로 분해해야 했다는 거예요. 디자이너들이 “의도 번역자” 역할을 했죠.

Era 2.0: 지능형 에이전트 시대 (2020~현재)

GPT-3가 2020년에 출시되면서 전환점이 왔어요. 이제 기계는 중간 정도의 지능을 보여주는데, 특징은 자연어 입력을 이해하고 일부 암묵적 의도를 추론할 수 있다는 거죠.

주요 변화

1. 고급 센서 활용

스마트폰, 웨어러블, 스마트 글래스 등 다양한 센서를 통해 텍스트, 이미지, 오디오, 위치, 터치 등 풍부한 컨텍스트를 수집해요.

2. 원시 컨텍스트 허용 범위 확대

1.0 시대에는 GPS 좌표, 시간, 사전 정의된 사용자 상태 같은 단순하고 구조화된 신호만 처리할 수 있었어요. 2.0 시대 시스템은 자유 형식 텍스트, 이미지, 비디오 같은 인간 네이티브 신호에서 컨텍스트를 해석할 수 있죠.

3. 수동 감지에서 능동 이해로

1.0 시대 시스템: “위치가 사무실이면 전화를 무음으로”
2.0 시대 시스템: 연구 논문을 쓰고 있으면 이전 단락과 현재 의도를 분석해서 적절한 다음 섹션을 제안

graph TD A["사용자 쿼리"] --> B{{"컨텍스트 수집"}} B --> C["단기 메모리"] B --> D["장기 메모리"] C --> E{{"컨텍스트 선택"}} D --> E E --> F["관련 컨텍스트"] F --> G["LLM 추론"] G --> H["응답 생성"] H --> I{{"컨텍스트 추상화"}} I --> C I --> D style B fill:#e8f4f8 style E fill:#fff3cd style I fill:#d4edda

실무 설계 고려사항

1. 컨텍스트 수집 및 저장

두 가지 기본 원칙이 있어요:

최소 충분성 원칙: 작업을 지원하는 데 필요한 정보만 수집하고 저장. 컨텍스트의 가치는 양이 아니라 충분성에 있어요.
의미 연속성 원칙: 컨텍스트의 목적은 단순히 데이터의 연속성이 아니라 의미의 연속성을 유지하는 거예요.

저장 전략:

빠른 접근 캐시: 자주 액세스하는 데이터는 메모리나 엣지 노드(edge node)에
중기 보존: 활동 기록이나 사용자 선호도는 로컬 임베디드 DB(embedded database)에 (SQLite, LevelDB, RocksDB)
장기 보존: 크로스 디바이스 동기화(cross-device synchronization)를 위해 클라우드 스토리지나 원격 서버 DB에

2. 컨텍스트 관리

텍스트 컨텍스트 처리 방식:

방식	설명	장점	단점
타임스탬프 표시	각 정보에 타임스탬프 첨부	간단하고 유지보수 쉬움	의미 구조 없음, 확장성 문제
역할/기능별 태깅	각 항목에 역할 태그 부여 (예: “목표”, “결정”, “행동”)	해석 용이, 효율적 검색	다소 경직될 수 있음
QA 쌍으로 압축	컨텍스트를 질문-답변 쌍으로 재구성	검색 효율성 높음	원래 흐름 방해
계층적 노트로 압축	트리 구조로 정보 조직화	아이디어 명확하게 제시	논리적 연결 부족

3. 멀티모달 컨텍스트 처리

텍스트, 이미지, 오디오, 비디오 등을 어떻게 통합할까요?

공통 벡터 공간으로 매핑: 각 모달리티를 공유 임베딩 공간(shared embedding space)으로 변환해서 의미적으로 관련된 콘텐츠가 가까이 위치하도록
셀프 어텐션 결합: 모달리티별 토큰들이 단일 Transformer에서 서로 어텐션(self-attention)을 주고받음
크로스 어텐션: 한 모달리티(예: 텍스트)가 다른 모달리티(예: 이미지)의 특정 부분에 직접 집중(cross-attention)

4. 컨텍스트 선택 및 필터링

사용 가능한 모든 컨텍스트가 현재 작업에 똑같이 유용한 건 아니에요. 효과적인 선택을 위해 고려해야 할 요소들:

의미적 관련성(semantic relevance): 현재 쿼리와 의미상 가장 유사한 메모리 항목 선택 (벡터 기반 검색)
논리적 종속성(logical dependency): 이전 단계에서 생성된 정보가 직접 필요한 경우 (예: 이전 계획 결정, 도구 출력)
최신성 및 빈도(recency and frequency): 최근에 사용됐거나 자주 액세스된 항목에 높은 우선순위
중복 정보: 같은 의미를 전달하는 여러 정보가 있으면 오래되거나 덜 상세한 것 필터링
사용자 선호도: 시간이 지나면서 사용자가 어떤 유형의 정보를 중요하게 여기는지 학습

실제 응용 사례

1. Gemini CLI

Google의 Gemini CLI는 프로젝트 지향 컨텍스트 지원의 좋은 예예요. 중심 메커니즘은 GEMINI.md 파일인데, 프로젝트 배경, 역할 정의, 필요한 도구와 의존성, 코딩 관습 등을 기록해요.

파일 시스템 계층을 통해 컨텍스트를 조직화하죠: GEMINI.md 파일이 사용자 홈 디렉토리, 프로젝트 루트, 하위 디렉토리에 존재할 수 있어서 정보의 상속과 격리(inheritance and isolation)가 가능해요.

2. 딥 리서치(Deep Research)

딥 리서치 에이전트는 복잡한 지식 집약적 쿼리를 다루는 데 도움을 줘요. 예를 들어 알리바바의 Tongyi DeepResearch 같은 시스템은 여러 라운드에 걸쳐:

사용자 쿼리 기반 웹 검색
관련 페이지에서 핵심 정보 추출
추가 검색을 안내할 새로운 하위 질문 생성
여러 소스의 증거를 일관된 답변으로 통합

극도로 긴 상호작용 이력 문제를 해결하기 위해, 전문 요약 모델을 주기적으로 호출해서 누적된 이력을 압축된 추론 상태로 만들어요. 이게 “컨텍스트 스냅샷”이 되는 거죠.

3. Brain-Computer Interfaces

BCI(Brain-Computer Interface, 뇌-컴퓨터 인터페이스)는 더 진보된 컨텍스트 수집을 가능하게 해요. 언어 입력에 의존하는 전통적인 방법과 달리, BCI는 신경 신호를 직접 포착할 수 있어서:

더 풍부한 컨텍스트 차원 수집 (주의 수준, 감정 상태, 인지 부하)
더 편리한 수집 방법 (명시적 사용자 행동 감소)

도전과제 및 미래 방향

1. 제한적이고 비효율적인 컨텍스트 수집

대부분의 현재 에이전트 시스템은 여전히 명시적 사용자 입력에 의존해요. 사용자가 의도를 명확히 표현할 수 없는 경우도 많고요. 더 자연스럽고 멀티모달(multimodal)한 수집 방법이 필요해요.

2. 대규모 컨텍스트의 저장 및 관리

상호작용이 누적되면 컨텍스트의 크기와 복잡성이 급속히 증가해요. 확장 가능하면서도 효과적인 선택과 검색을 지원하는 방식으로 저장하고 조직화하는 게 핵심이에요.

3. 모델의 컨텍스트 이해력 부족

현재 시스템은 인간과 같은 수준의 컨텍스트 이해를 갖추지 못했어요. 복잡한 논리나 이미지의 관계 정보를 다루는 데 어려움을 겪죠. 의미 추론(semantic reasoning), 논리 해석, 멀티모달 정렬 능력을 강화해야 해요.

4. 긴 컨텍스트의 성능 병목

Transformer 기반 아키텍처는 이차 복잡도(O(n²) complexity) 때문에 컨텍스트가 길어지면 비효율적이에요. Mamba 같은 대안이 나오고 있지만, 여전히 장문 컨텍스트 이해에서 약점을 보여요. 훨씬 더 긴 컨텍스트를 효율적으로 처리하면서도 더 강력하고 신뢰할 수 있는 이해를 제공하는 새로운 아키텍처가 필요해요.

5. 평생 컨텍스트 보존 및 업데이트

컨텍스트가 평생 형태를 띠게 되면 어떻게 보존하고 업데이트해야 할까요? 이건 단순히 확장 가능한 스토리지 이상을 요구해요:

저장 병목: 엄격한 리소스 제약 하에서 가능한 한 많은 관련 컨텍스트를 유지하는 방법
처리 저하: 규모가 커지면 어텐션 메커니즘이 붕괴 (O(n²) 복잡도)
시스템 불안정성: 메모리가 누적되면 작은 실수도 시스템 전체에 영향
평가의 어려움: 시스템이 올바르게 추론하는지 판단하기 어려움

해결책: 시간이 지남에 따라 성장할 수 있는 “의미적 운영 체제”가 필요해요. 인간의 마음처럼요.

실무 팁: Emerging Engineering Practices

KV 캐싱

키-값(KV, Key-Value) 캐싱은 효율적인 에이전트 배포의 핵심이에요. 과거 토큰의 어텐션 상태를 저장해서 재계산할 필요가 없게 만들죠. 캐시 히트율을 높이려면:

프리픽스 프롬프트(prefix prompt)를 안정적으로 유지
추가 전용(append-only) 및 결정적 업데이트 강제
필요시 캐시 체크포인트를 수동으로 삽입
예측적 로딩(prefetch, speculative loading) 활용

도구 설계

설명: 도구에는 정확한 목적과 명확한 정의가 필요해요. 모호하거나 중복되는 설명은 실패를 야기하죠.
규모: 큰 도구 세트는 에이전트 신뢰성을 떨어뜨려요. DeepSeek-v3의 경험에 따르면 30개를 넘어서면 성능이 떨어지고 100개를 넘으면 거의 무조건 실패해요.

컨텍스트 내용

에이전트는 실수를 숨겨서는 안 돼요. 컨텍스트에 오류를 유지하면 모델이 실패를 관찰할 수 있고, 이게 교정 행동을 학습하는 데 중요해요.

결론

컨텍스트 엔지니어링은 LLM 시대의 갑작스러운 발명이 아니라, 기계의 점진적 지능에 의해 형성된 장기 진화 분야예요. 역사적 단계를 추적하고 실무를 지배하는 설계 고려사항을 개략적으로 제시함으로써, 이 논문은 핵심 과제가 인간 의도와 기계 이해 사이의 다양한 엔트로피 수준 격차를 메우는 데 있다는 걸 보여줘요.

제안된 궤적은 기계 이해가 인간 인지에 접근하고 잠재적으로 초월하면서, 인간이 명시적 컨텍스트 관리에서 점진적으로 분리되고, 점점 더 지능적인 기계가 컨텍스트 해석, 추론, 심지어 구축에 대한 더 큰 책임을 맡는 것을 시사해요.

앞으로 AI 시스템이 우리의 의도에 대한 “신의 시각”에 도달할 가능성도 있어요. 그러면 AI는 우리를 이해할 뿐만 아니라 우리 자신에 대한 이해를 밝히고 확장할 수도 있을 거예요.

참고: 이 글은 Qishuo Hua, Lyumanshan Ye, Dayuan Fu, Yang Xiao 외 여러 저자가 SJTU, SII, GAIR에서 발표한 연구 논문을 번역하고 요약한 것입니다.

원문: https://arxiv.org/abs/2510.26493

생성: Claude (Anthropic)

총괄: 존 (디노이저denoiser)