Nested Learning: 지속 학습을 위한 새로운 ML 패러다임

게시일: 2025년 11월 17일 | 원문 작성일: 2025년 11월 7일 | 원저자: Ali Behrouz & Vahab Mirrokni (Google Research) | 원문 보기

핵심 요약

Google Research가 Nested Learning이라는 새로운 머신러닝 패러다임을 소개했어요. 이 방식은 모델을 하나의 큰 최적화 문제가 아니라, 여러 작은 최적화 문제들이 중첩되고 연결된 시스템으로 바라봐요. 이를 통해 ML의 고질적인 문제인 “catastrophic forgetting”(이전 학습을 잊어버리는 현상)을 완화하거나 아예 피할 수 있죠.

주요 내용:

새로운 관점: 모델의 아키텍처와 최적화 알고리즘을 별개로 보지 않고 하나로 통합한 접근법이에요
핵심 아이디어: 각 컴포넌트가 서로 다른 “업데이트 주기”를 가진 중첩된 최적화 문제들의 집합으로 모델을 설계해요
실제 구현: Hope라는 self-modifying 아키텍처로 개념을 검증했고, 언어 모델링과 긴 컨텍스트 메모리 관리에서 기존 SOTA 모델보다 나은 성능을 보였어요
왜 중요한가: 현재 LLM들의 한계(정적인 사전학습 지식에 갇힌)를 극복하고 인간 뇌처럼 지속적으로 학습하는 AI를 만들 수 있는 토대가 될 수 있어요

문제 상황: Catastrophic Forgetting

지난 10년간 ML은 엄청난 발전을 이뤘지만, 여전히 근본적인 도전과제가 남아있어요. 바로 지속 학습(continual learning)이에요. 새로운 지식과 스킬을 배우면서도 예전 것을 잊지 않는 능력이죠.

인간의 뇌는 신경가소성(neuroplasticity)이라는 능력이 있어요. 새로운 경험, 기억, 학습에 반응해서 구조를 바꿀 수 있는 거죠. 이게 없으면 사람은 즉각적인 컨텍스트에만 갇히게 돼요(전향성 기억상실증처럼요). 현재 LLM들도 비슷한 한계가 있어요. 지식이 입력 윈도우의 즉각적인 컨텍스트나 사전학습 때 배운 정적인 정보에만 제한되죠.

가장 단순한 접근법은 새로운 데이터로 모델 파라미터를 계속 업데이트하는 건데, 이게 종종 “catastrophic forgetting”을 일으켜요. 새로운 태스크를 배우면서 예전 태스크의 성능을 잃어버리는 거죠.

기존 접근법의 한계

측면	전통적 접근	Nested Learning
아키텍처 vs 최적화	별개의 독립적인 요소로 취급	근본적으로 같은 개념으로 통합
CF 대응 방식	아키텍처 트윅이나 더 나은 최적화 규칙으로 대응	중첩된 최적화 레벨로 구조적으로 해결
디자인 차원	제한적 (width, depth)	새로운 차원 추가 (update frequency levels)
메모리 시스템	단기/장기 메모리 이원화	연속체로서의 메모리 스펙트럼

Nested Learning 패러다임

Nested Learning은 복잡한 ML 모델이 실제로는 서로 중첩되거나 병렬로 실행되는 일관되고 상호 연결된 최적화 문제들의 집합이라는 걸 보여줘요. 각각의 내부 문제는 자신만의 context flow를 가지고 있어요. 즉, 학습하려는 고유한 정보 세트가 있다는 거죠.

이 관점이 의미하는 건, 기존 딥러닝 방법들이 본질적으로 내부 context flow를 압축해서 작동한다는 거예요. 더 중요한 건, Nested Learning이 모델 디자인을 위한 새로운 차원을 드러낸다는 점이에요. 더 깊은 계산 깊이를 가진 학습 컴포넌트를 만들 수 있게 되죠.

핵심 개념: Associative Memory

이 패러다임을 설명하기 위해 연관 기억(associative memory) 개념을 봅시다. 하나를 보면 다른 걸 떠올리는 능력이에요(얼굴을 보면 이름을 떠올리는 것처럼요).

논문에서는 다음을 보여줘요:

학습 프로세스 자체(특히 backpropagation)를 연관 기억으로 모델링할 수 있어요. 모델이 데이터 포인트를 그것의 local error 값에 매핑하는 걸 학습하는데, 이게 그 데이터가 얼마나 “놀라운”지를 측정하는 거죠.
마찬가지로, 아키텍처의 핵심 컴포넌트들(transformer의 attention 메커니즘 같은)도 시퀀스의 토큰들 간 매핑을 학습하는 단순한 연관 기억 모듈로 공식화될 수 있어요.

graph TD A["복잡한 ML 모델"] --> B{{"여러 중첩된 최적화 문제?"}} B -->|Yes| C["각 문제가 고유한 context flow를 가짐"] C --> D["업데이트 주기로 레벨 구분"] D --> E["레벨 1: 빠른 업데이트 예: Attention"] D --> F["레벨 2: 중간 속도 예: Optimizer states"] D --> G["레벨 3: 느린 업데이트 예: Core weights"] E --> H["통합된 시스템"] F --> H G --> H H --> I["새로운 디자인 차원 확보"]

업데이트 주기(update frequency)를 정의함으로써—즉, 각 컴포넌트의 가중치가 얼마나 자주 조정되는지—이 상호 연결된 최적화 문제들을 “레벨”로 정렬할 수 있어요. 이렇게 정렬된 집합이 Nested Learning 패러다임의 핵심이에요.

실전 적용: 어떻게 활용하나

1. Deep Optimizers

Nested Learning은 optimizer들(예: momentum 기반)을 연관 기억 모듈로 보기 때문에, 연관 기억 관점의 원리들을 적용할 수 있어요. 많은 표준 optimizer들이 단순한 dot-product 유사도에 의존하는데, 이건 서로 다른 데이터 샘플들이 어떻게 연관되는지를 고려하지 않아요.

optimizer의 기본 목적함수를 L2 regression loss 같은 더 표준적인 손실 메트릭으로 바꾸면, momentum 같은 핵심 개념들의 새로운 공식을 도출할 수 있어요. 불완전한 데이터에 더 강건해지죠.

2. Continuum Memory Systems (CMS)

표준 Transformer에서는:

시퀀스 모델이 단기 기억 역할을 해요(즉각적인 컨텍스트 보유)
feedforward 네트워크가 장기 기억 역할을 해요(사전학습 지식 저장)

Nested Learning 패러다임은 이 개념을 확장해서 “continuum memory system”을 만들어요. 메모리를 각각 다른 특정 주기로 업데이트되는 모듈들의 스펙트럼으로 보는 거죠. 이게 지속 학습을 위한 훨씬 더 풍부하고 효과적인 메모리 시스템을 만들어줘요.

graph LR A["전통적 Transformer"] --> B["단기 메모리 Sequence model"] A --> C["장기 메모리 FFN"] D["Nested Learning"] --> E["메모리 연속체"] E --> F["매우 빠른 업데이트 Immediate context"] E --> G["빠른 업데이트 Recent patterns"] E --> H["중간 업데이트 Task-specific"] E --> I["느린 업데이트 Core knowledge"] style D fill:#e8f4f8 style E fill:#e8f4f8

3. Hope: Self-Modifying 아키텍처

개념 증명으로, 연구팀은 Nested Learning 원리를 사용해서 Hope라는 아키텍처를 디자인했어요. Titans 아키텍처의 변형이죠. Titans는 기억을 얼마나 놀라운지에 따라 우선순위를 매기는 장기 메모리 모듈이에요.

Hope는 이보다 한 단계 더 나아가요:

무한한 레벨의 in-context learning을 활용할 수 있어요
CMS 블록이 추가되어 더 큰 컨텍스트 윈도우로 확장 가능해요
Self-referential 프로세스를 통해 자신의 메모리를 최적화할 수 있어요—무한 루프 학습 레벨을 가진 아키텍처죠

실험 결과

연구팀은 deep optimizer들의 효과성과 Hope의 성능을 평가하기 위한 실험을 진행했어요. 언어 모델링, 긴 컨텍스트 추론, 지속 학습, 지식 통합 태스크에서 테스트했죠.

주요 성과

모델	언어 모델링 (Perplexity)	상식 추론 (Accuracy)
Hope	✅ 가장 낮은 perplexity	✅ 가장 높은 정확도
Titans	중간	중간
Samba	중간	중간
Transformer (baseline)	상대적으로 높음	상대적으로 낮음

특히 Hope는 긴 컨텍스트 Needle-In-Haystack (NIAH) 태스크에서 뛰어난 메모리 관리 능력을 보여줬어요. CMS가 확장된 정보 시퀀스를 다루는 더 효율적이고 효과적인 방법을 제공한다는 걸 증명한 거죠.

왜 이게 중요한가

Nested Learning 패러다임은 딥러닝 이해에 있어서 한 걸음 앞으로 나아간 거예요. 아키텍처와 최적화를 중첩된 최적화 문제들의 단일하고 일관된 시스템으로 다룸으로써, 디자인을 위한 새로운 차원을 열었어요. 여러 레벨을 쌓을 수 있게 된 거죠.

Hope 같은 결과물은 이런 요소들을 통합하는 원리적 접근이 더 표현력 있고, 유능하고, 효율적인 학습 알고리즘으로 이어질 수 있다는 걸 보여줘요.

연구팀은 Nested Learning 패러다임이 현재 LLM들의 제한적이고 잊어버리는 특성과 인간 뇌의 놀라운 지속 학습 능력 사이의 격차를 좁히는 견고한 토대를 제공한다고 믿어요. 이 새로운 차원을 탐구해서 다음 세대의 self-improving AI를 만드는 걸 기대한다고 하네요.

결론

Nested Learning은 단순히 새로운 트릭이 아니라, ML 모델을 바라보는 관점 자체를 바꾸는 패러다임이에요. 아키텍처와 학습 알고리즘을 통합된 시스템으로 보면서, catastrophic forgetting 같은 고질적 문제를 구조적으로 해결할 방법을 제시하죠.

인간 뇌의 신경가소성처럼, 모델이 진정으로 계속해서 배우고 적응할 수 있는 길을 열어주는 거예요. 아직 초기 단계지만, Hope 아키텍처의 성능 개선은 이 방향이 유망하다는 걸 보여줘요. 앞으로 더 많은 연구가 이어지길 기대합니다!

참고: 이 글은 Ali Behrouz와 Vahab Mirrokni가 Google Research 블로그에 게시한 NeurIPS 2025 논문 소개 아티클을 번역하고 요약한 것입니다.

원문: https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/

생성: Claude (Anthropic)

총괄: 존 (디노이저denoiser)