The Bitter Lesson (씁쓸한 교훈)

게시일: 2025년 10월 24일 | 원문 작성일: 2019년 3월 13일 | 저자: Rich Sutton | 원문 보기

핵심 요약

AI 연구 70년의 역사가 보여주는 가장 중요한 교훈은 뭘까요? 바로 계산력을 활용하는 범용적인 방법이 결국 가장 효과적이라는 거예요. 그것도 압도적으로요. 많은 AI 연구자들이 사람의 지식과 직관을 시스템에 넣으려고 노력했지만, 장기적으로는 단순히 계산을 확장하는 접근이 항상 이겼습니다.

주요 내용:

무어의 법칙이 핵심이에요: 계산 비용이 지속적으로 떨어지면서 더 많은 계산력을 활용할 수 있게 되었고, 이게 결국 판도를 바꿨어요
사람 지식 vs. 계산력: 체스, 바둑, 음성인식, 컴퓨터 비전 모두에서 사람의 도메인 지식을 활용한 접근은 결국 대규모 계산과 학습에 밀렸습니다
왜 “씁쓸한” 교훈일까: 연구자들이 공들여 만든 지식 기반 시스템이 단순한 검색과 학습 기반 접근에 져버렸기 때문이죠. 개인적으로는 만족스럽지만, 장기적으로는 막다른 길이었던 거예요
앞으로의 방향: 우리가 발견한 것을 넣는 게 아니라, AI가 스스로 발견할 수 있는 메타-방법을 만들어야 해요

AI 연구 70년의 패턴

지난 70년간의 AI 연구에서 얻을 수 있는 가장 큰 교훈이 있어요. 바로 계산을 활용하는 범용적인 방법이 결국에는 가장 효과적이라는 거죠. 그것도 엄청난 차이로요.

그 근본적인 이유는 무어의 법칙 때문이에요. 더 정확히 말하면, 단위 계산당 비용이 계속해서 지수적으로 떨어진다는 거예요. 대부분의 AI 연구는 사용 가능한 계산력이 일정하다는 가정 하에 진행됐어요. 그런 상황이라면 인간의 지식을 활용하는 게 성능을 높이는 거의 유일한 방법이었겠죠. 하지만 전형적인 연구 프로젝트보다 조금만 더 긴 시간을 놓고 보면, 압도적으로 많은 계산력을 사용할 수 있게 되는 게 불가피했어요.

단기적인 개선을 추구하다 보니, 연구자들은 자연스럽게 도메인에 대한 인간의 지식을 활용하려고 했어요. 하지만 장기적으로 진짜 중요한 건 계산을 얼마나 잘 활용하느냐였죠. 이 두 가지가 꼭 충돌할 필요는 없지만, 실제로는 그렇게 되는 경향이 있어요. 한쪽에 시간을 쓰면 다른 쪽에 쓸 시간이 없으니까요. 게다가 심리적으로도 어느 한 접근 방식에 투자하게 되면 그쪽에 집착하게 되고요.

반복되는 역사: 네 가지 사례

graph LR A["연구 시작"] --> B["인간 지식 기반<br/>접근 시도"] B --> C["초기에는<br/>효과 있음"] C --> D["계산력 증가"] D --> E["검색/학습 기반<br/>접근 등장"] E --> F["압도적 승리"] F --> G["씁쓸한 교훈"] style A fill:#e8f4f8 style F fill:#fff3cd style G fill:#ffcccc

1. 컴퓨터 체스 (1997)

1997년 카스파로프를 이긴 방법은 대규모의 깊은 탐색(deep search)을 기반으로 한 거였어요. 당시 대부분의 컴퓨터 체스 연구자들은 체스의 특별한 구조에 대한 인간의 이해를 활용하는 방법을 추구하고 있었어요. 그런데 특수 하드웨어와 소프트웨어를 갖춘 더 단순한 검색 기반 접근이 훨씬 더 효과적이라는 게 증명되자, 이 연구자들은 좋은 패배자가 되지 못했어요.

그들은 “무식한 힘(brute force)” 검색이 이번엔 이겼을지 모르지만, 이건 일반적인 전략이 아니고, 어차피 사람이 체스를 두는 방식도 아니라고 말했죠. 이들은 인간의 입력을 기반으로 한 방법이 이기기를 원했고, 그렇지 못했을 때 실망했어요.

2. 컴퓨터 바둑 (2016년경)

비슷한 패턴이 컴퓨터 바둑에서도 나타났는데, 20년 정도 늦게 일어났죠. 초기에는 인간의 지식이나 게임의 특별한 특성을 활용해서 검색을 피하려는 엄청난 노력이 있었어요. 하지만 이런 노력들은 검색이 대규모로 효과적으로 적용되자 무관해지거나, 더 나쁘게는 방해가 되었어요.

자기 대국(self play)을 통한 학습도 중요했어요. 이건 가치 함수를 학습하는 데 사용됐죠. 학습은 검색과 마찬가지로 대규모 계산을 활용할 수 있게 해줘요. 검색과 학습은 AI 연구에서 막대한 양의 계산을 활용하기 위한 가장 중요한 두 가지 기술이에요.

3. 음성 인식 (1970년대~)

1970년대에 DARPA가 후원한 음성 인식 대회가 있었어요. 참가자들은 인간의 지식을 활용하는 여러 특수한 방법들을 사용했죠. 단어, 음소, 인간 성대의 구조 같은 지식들이요. 반면에 더 통계적이고 훨씬 더 많은 계산을 사용하는 새로운 방법들이 있었어요. 히든 마르코프 모델(HMM) 기반이었죠.

결과는? 통계적 방법이 인간 지식 기반 방법을 이겼어요. 이건 자연어 처리 전체 분야에 큰 변화를 가져왔고, 수십 년에 걸쳐 점진적으로 통계와 계산이 분야를 지배하게 됐어요. 최근 음성 인식에서 딥러닝이 부상한 건 이 일관된 방향의 가장 최근 단계예요.

4. 컴퓨터 비전 (2000년대~)

컴퓨터 비전에서도 비슷한 패턴이 있었어요. 초기 방법들은 비전을 엣지 찾기, 일반화된 실린더, SIFT 특징 같은 것들로 이해했죠. 하지만 오늘날 이 모든 건 버려졌어요. 현대의 딥러닝 신경망은 컨볼루션과 특정 종류의 불변성(invariance) 개념만 사용하는데, 훨씬 더 잘 작동해요.

접근 방식 비교

측면	인간 지식 기반 접근	계산/학습 기반 접근
단기 효과	✓ 즉각적인 개선 연구자에게 만족감	초기에는 더 느릴 수 있음
장기 효과	✗ 정체되고 발전 저해 복잡도 증가	✓ 계산력 확장과 함께 계속 개선 돌파적 발전
필요한 것	도메인 전문 지식 수작업 특성 설계	계산 자원 데이터
일반화	특정 도메인에 한정 새 문제마다 재설계	범용적 확장 가능
사례	체스 휴리스틱 음성 인식의 음소 규칙 비전의 엣지 감지	딥 서치 신경망 self-play 학습

왜 “씁쓸한(Bitter)” 교훈일까

이게 큰 교훈이에요. 하지만 우리 분야는 아직도 이걸 완전히 배우지 못했어요. 여전히 같은 종류의 실수를 반복하고 있거든요. 이걸 보고 효과적으로 저항하려면, 이런 실수가 왜 매력적인지 이해해야 해요.

우리가 생각하는 방식을 시스템에 넣는 게 장기적으로는 작동하지 않는다는 씁쓸한 교훈을 배워야 해요. 이 교훈은 다음의 역사적 관찰에 기반해요:

AI 연구자들은 종종 에이전트에 지식을 넣으려고 시도했어요
이건 항상 단기적으로는 도움이 되고, 연구자에게 개인적으로 만족스러워요
하지만 장기적으로는 정체되고 심지어 추가 발전을 방해해요
결국 돌파적인 발전은 반대 접근, 즉 검색과 학습으로 계산을 확장하는 방식에서 나와요

결국 성공하긴 하지만, 그 성공에는 씁쓸함이 배어있어요. 왜냐하면 선호했던 인간 중심 접근을 이긴 거니까요. 그래서 종종 완전히 소화되지 못하죠.

우리가 배워야 할 것들

1. 범용 방법의 힘

씁쓸한 교훈에서 배워야 할 한 가지는 범용 방법의 엄청난 힘이에요. 사용 가능한 계산력이 아주 커지더라도 계속해서 확장되는 방법들이요. 이런 식으로 임의로 확장될 수 있는 두 가지 방법은 검색(search)과 학습(learning)이에요.

2. 마음의 내용은 복잡해요

씁쓸한 교훈에서 배워야 할 두 번째 일반적인 요점은 마음의 실제 내용이 엄청나게, 돌이킬 수 없을 정도로 복잡하다는 거예요. 우리는 마음의 내용에 대해 단순한 방식으로 생각하려는 시도를 멈춰야 해요. 공간, 객체, 다중 에이전트, 대칭성 같은 것들에 대해 단순하게 생각하려는 거 말이죠.

이 모든 것들은 임의적이고, 본질적으로 복잡한 외부 세계의 일부예요. 이것들은 내장되어야 할 것들이 아니에요. 왜냐하면 그들의 복잡성은 끝이 없거든요. 대신 우리는 이 임의적인 복잡성을 찾고 포착할 수 있는 메타-방법만 내장해야 해요.

3. 발견하는 AI vs. 발견된 것을 담은 AI

이런 메타-방법들에서 핵심적인 건 좋은 근사치를 찾을 수 있다는 거예요. 하지만 그것들을 찾는 건 우리의 방법이어야 하고, 우리가 직접 찾는 게 아니에요. 우리는 우리처럼 발견할 수 있는 AI 에이전트를 원하는 거지, 우리가 발견한 것을 담고 있는 에이전트를 원하는 게 아니에요.

우리의 발견을 내장하는 건 오히려 발견 과정이 어떻게 이루어질 수 있는지 보기 어렵게 만들 뿐이에요.

마무리하며

결국 이 글이 말하는 건 간단해요. 지난 70년간 AI 연구는 한 가지 패턴을 반복해왔어요. 연구자들이 도메인 지식을 활용해서 영리한 시스템을 만들면, 처음엔 잘 작동하는 것처럼 보여요. 하지만 계산력이 충분해지면, 더 단순하지만 확장 가능한 방법(검색과 학습)이 항상 이겼어요.

이게 “씁쓸한” 이유는 뭘까요? 연구자로서는 자신의 통찰과 지식이 중요하지 않다는 걸 받아들이기 어렵기 때문이에요. 하지만 장기적으로는, 범용적이고 확장 가능한 방법을 만드는 게 더 중요해요.

앞으로 우리가 집중해야 할 건 우리가 아는 걸 넣는 게 아니라, AI가 스스로 배우고 발견할 수 있는 메타-방법을 만드는 거예요. 그게 진짜 범용 인공지능으로 가는 길이니까요.

참고: 이 글은 Rich Sutton이 2019년 3월 자신의 웹사이트에 게시한 에세이를 번역하고 요약한 것입니다. AI 연구 커뮤니티에서 매우 영향력 있는 글로, 현대 AI 개발 방향에 대한 중요한 통찰을 제공해요.

원문: http://www.incompleteideas.net/IncIdeas/BitterLesson.html

생성: Claude (Anthropic)

총괄: 존 (디노이저denoiser)