기술의 청소년기

강력한 AI의 위험을 직시하고 극복하기

게시일: 2026년 1월 27일 | 원문 작성일: 2026년 1월 | 저자: Dario Amodei (Anthropic CEO)

이 글에 대해

이 에세이는 Anthropic CEO Dario Amodei가 강력한 AI 시대의 위험을 분석하고 극복 방안을 제시하는 장문의 글입니다. 칼 세이건의 “콘택트”에서 영감을 받아, 인류가 기술적 청소년기를 어떻게 통과할 수 있을지 탐구합니다.

자율성 위험 — AI가 인간의 통제를 벗어날 가능성
파괴적 오용 — 생물 테러 등 대량 살상 무기로의 악용
권력 장악 — 감시 국가와 권위주의적 통제
경제적 혼란 — 노동 시장 붕괴와 부의 집중
미지의 위험 — 급격한 변화가 가져올 예측 불가능한 결과

• • •

칼 세이건의 소설 콘택트를 영화화한 작품에는 이런 장면이 있다. 주인공은 외계 문명에서 온 최초의 전파 신호를 탐지한 천문학자인데, 외계인을 만날 인류의 대표로 거론되고 있다. 그녀를 면접하는 국제 패널이 묻는다. “외계인에게 딱 하나만 물어볼 수 있다면, 무엇을 물어보시겠습니까?” 그녀의 대답은 이렇다: “어떻게 해내셨나요? 어떻게 진화하고, 어떻게 자멸하지 않고 이 기술적 청소년기를 극복하셨나요?” AI와 관련해 인류가 지금 어디에 와 있는지—우리가 무엇의 문턱에 서 있는지—생각할 때마다, 나는 계속 그 장면을 떠올리게 된다. 그 질문이 우리의 현재 상황에 너무나 적절하기 때문이고, 우리를 인도해줄 외계인의 답을 알 수 있으면 좋겠기 때문이다. 나는 우리가 격동적이면서도 불가피한 통과의례에 진입하고 있다고 믿는다. 이 통과의례는 종(種)으로서 우리가 누구인지를 시험할 것이다. 인류는 곧 거의 상상할 수 없는 힘을 손에 쥐게 될 것이며, 우리의 사회적, 정치적, 기술적 시스템이 그것을 다룰 성숙함을 갖추고 있는지는 심히 불확실하다.

나의 에세이 Machines of Loving Grace에서 나는 성인기에 도달한 문명의 모습을 그려보려 했다. 위험이 해결되고, 강력한 AI가 전문성과 연민을 갖추고 활용되어 모든 사람의 삶의 질을 높이는 문명 말이다. 나는 AI가 생물학, 신경과학, 경제 발전, 세계 평화, 일과 의미에서 엄청난 발전에 기여할 수 있다고 제안했다. 사람들에게 희망을 갖고 노력할 수 있는 비전을 제시하는 것이 중요하다고 느꼈는데, AI 가속주의자들과 AI 안전 옹호론자들 모두—이상하게도—이 과제에서 실패한 것 같았기 때문이다. 그러나 이번 에세이에서 나는 통과의례 그 자체를 직면하고자 한다: 우리가 곧 맞닥뜨릴 위험들의 지도를 그리고, 그것들을 물리칠 작전 계획을 세우기 시작하려 한다. 나는 우리가 이길 수 있다는 것을, 인류의 정신과 고귀함을 깊이 신뢰하지만, 상황을 정면으로, 환상 없이 마주해야 한다.

혜택에 대해 이야기하는 것과 마찬가지로, 위험을 신중하고 잘 숙고된 방식으로 논의하는 것이 중요하다고 생각한다. 특히 다음이 중요하다고 본다:

파멸주의를 피할 것. 여기서 “파멸주의”란 파멸이 불가피하다고 믿는 것(이는 거짓이며 자기실현적 예언이다)뿐 아니라, 더 일반적으로 AI 위험을 마치 종교처럼 대하는 태도를 의미한다.[1] 많은 사람들이 수년간 AI 위험에 대해 분석적이고 냉정하게 생각해왔지만, 2023-2024년 AI 위험에 대한 우려가 정점에 달했을 때 가장 분별없는 목소리들이 선정적인 소셜 미디어 계정을 통해 정상에 오른 것 같다. 이 목소리들은 종교나 공상과학을 연상시키는 거북한 언어를 사용했고, 그것을 정당화할 증거도 없이 극단적인 행동을 요구했다. 반발이 불가피하고, 이 문제가 문화적으로 양극화되어 교착 상태에 빠질 것이라는 건 당시에도 분명했다.[2] 2025-2026년 현재 진자는 반대로 흔들렸고, AI 위험이 아니라 AI 기회가 많은 정책 결정을 주도하고 있다. 이 동요는 유감스러운데, 기술 자체는 무엇이 유행인지 신경 쓰지 않고, 2026년에 우리는 2023년보다 실제 위험에 상당히 더 가까워졌기 때문이다. 여기서 얻을 수 있는 교훈은 위험을 현실적이고 실용적인 방식으로—냉정하게, 사실에 기반하여, 변화하는 조류 속에서도 살아남을 수 있도록—논의하고 다루어야 한다는 것이다.
불확실성을 인정할 것. 내가 이 글에서 제기하는 우려가 의미 없어질 수 있는 방식이 많다. 여기 있는 어떤 것도 확실성이나 심지어 개연성을 전달하려는 것이 아니다. 가장 명백한 예로, AI가 내가 상상하는 것만큼 빠르게 발전하지 않을 수도 있다.[3] 혹은 빠르게 발전하더라도 여기서 논의한 위험 중 일부 또는 전부가 현실화되지 않을 수도 있고(그러면 좋겠지만), 내가 고려하지 못한 다른 위험이 있을 수도 있다. 누구도 미래를 완전한 확신을 가지고 예측할 수 없다—그래도 우리는 어쨌든 계획을 세우기 위해 최선을 다해야 한다.
가능한 한 정밀하게 개입할 것. AI의 위험에 대응하려면 기업(및 민간 제3자 행위자)의 자발적 행동과 모든 사람을 구속하는 정부의 행동이 혼합되어야 할 것이다. 자발적 행동—직접 실천하고 다른 기업들도 따르도록 장려하는 것—은 나에게 당연한 선택이다. 나는 정부 조치도 어느 정도는 필요할 것이라고 굳게 믿지만, 이러한 개입은 경제적 가치를 파괴하거나 이러한 위험에 회의적인(그리고 그들이 옳을 가능성도 있다!) 내키지 않는 행위자들을 강제할 수 있기 때문에 성격이 다르다. 또한 규제가 역효과를 내거나 해결하려던 문제를 오히려 악화시키는 일도 흔하다(빠르게 변화하는 기술에서는 더욱 그렇다). 따라서 규제가 현명해야 하는 것이 매우 중요하다: 부수적 피해를 피하고, 가능한 한 단순하며, 일을 완수하는 데 필요한 최소한의 부담만 지워야 한다.[4] “인류의 운명이 걸렸을 때 어떤 행동도 지나치지 않다!”라고 말하기 쉽지만, 실제로 이런 태도는 반발만 초래한다. 분명히 말하면, 결국 훨씬 더 중대한 조치가 정당화되는 시점에 도달할 가능성이 꽤 있다고 생각하지만, 그것은 오늘날 우리가 가진 것보다 더 강력한 임박한 구체적 위험의 증거와, 그것을 다룰 수 있는 규칙을 공식화할 수 있을 만큼 충분히 구체화된 위험의 명세에 달려 있을 것이다. 지금 우리가 할 수 있는 가장 건설적인 일은 더 강력한 규칙을 뒷받침할 증거가 있는지 파악하는 동안 제한적인 규칙을 옹호하는 것이다.[5]

이상의 이야기를 마쳤으니, AI의 위험에 대해 이야기할 때 가장 좋은 출발점은 그 혜택에 대해 이야기할 때와 같다고 생각한다: 우리가 어떤 수준의 AI에 대해 이야기하고 있는지 정확히 하는 것이다. 나에게 문명적 우려를 불러일으키는 AI 수준은 Machines of Loving Grace에서 설명한 강력한 AI이다. 그 문서에서 내린 정의를 여기서 그대로 반복하겠다:

“강력한 AI”란, 오늘날의 LLM과 형태는 비슷하지만—다른 아키텍처에 기반하거나, 여러 상호작용하는 모델을 포함하거나, 다르게 훈련될 수도 있는—다음 속성을 가진 AI 모델을 염두에 두고 있다:

순수한 지능 면에서, 대부분의 관련 분야—생물학, 프로그래밍, 수학, 공학, 글쓰기 등—에서 노벨상 수상자보다 똑똑하다. 이것은 미해결 수학 정리를 증명하고, 매우 훌륭한 소설을 쓰고, 어려운 코드베이스를 처음부터 작성할 수 있다는 것을 의미한다.
단지 “대화하는 똑똑한 것”인 것 외에도, 텍스트, 오디오, 비디오, 마우스와 키보드 제어, 인터넷 접속을 포함하여 가상으로 일하는 인간에게 사용 가능한 모든 인터페이스를 갖추고 있다. 인터넷에서 행동하고, 인간에게 지시를 받거나 하고, 재료를 주문하고, 실험을 지휘하고, 비디오를 보고, 비디오를 만드는 등 이 인터페이스로 가능한 모든 행동, 의사소통, 원격 작업을 수행할 수 있다. 이 모든 작업을 다시 말하지만, 세계에서 가장 유능한 인간을 뛰어넘는 기술로 수행한다.
질문에 수동적으로 답하기만 하는 것이 아니다. 완료하는 데 몇 시간, 며칠, 또는 몇 주가 걸리는 과제를 받으면, 똑똑한 직원이 하듯이 필요에 따라 명확한 설명을 요청하며 자율적으로 그 과제를 수행한다.
물리적 구현(컴퓨터 화면에 존재하는 것 외에)은 없지만, 컴퓨터를 통해 기존의 물리적 도구, 로봇, 또는 실험실 장비를 제어할 수 있다. 이론적으로는 자신이 사용할 로봇이나 장비를 직접 설계할 수도 있다.
모델을 훈련하는 데 사용된 자원을 재활용하여 수백만 개의 인스턴스를 실행할 수 있고(이것은 ~2027년까지 예상되는 클러스터 크기와 일치한다), 모델은 대략 인간 속도의 10-100배로 정보를 흡수하고 행동을 생성할 수 있다. 그러나 물리적 세계의 응답 시간이나 상호작용하는 소프트웨어에 의해 제한될 수 있다.
이 수백만 개의 복사본 각각은 관련 없는 작업에 독립적으로 행동하거나, 필요하면 인간이 협업하는 것과 같은 방식으로 모두 함께 일할 수 있으며, 특정 작업에 특히 능숙하도록 미세 조정된 다른 하위 집단이 있을 수도 있다.

우리는 이것을 “데이터센터 안의 천재들의 나라”로 요약할 수 있다.

Machines of Loving Grace에서 썼듯이, 강력한 AI는 빠르면 1-2년 안에 올 수도 있지만, 상당히 더 멀 수도 있다.[6] 강력한 AI가 정확히 언제 도착할지는 그 자체로 에세이가 필요한 복잡한 주제지만, 지금은 왜 그것이 매우 빨리 올 수 있는 강력한 가능성이 있다고 생각하는지 매우 간략하게만 설명하겠다.

Anthropic의 공동 창업자인 나와 동료들은 AI 시스템의 “스케일링 법칙”—더 많은 컴퓨팅과 훈련 과제를 추가할수록 AI 시스템이 우리가 측정할 수 있는 거의 모든 인지 기술에서 예측 가능하게 더 나아진다는 관찰—을 문서화하고 추적한 최초의 사람들 중 일부였다. 몇 달마다 대중의 의견은 AI가 “벽에 부딪혔다”고 확신하거나 “게임을 근본적으로 바꿀” 새로운 돌파구에 흥분하지만, 진실은 변동성과 대중의 추측 뒤에서 AI의 인지 능력에 매끄럽고 끈질긴 증가가 있었다는 것이다.

우리는 이제 AI 모델이 미해결 수학 문제를 푸는 데 진전을 보이기 시작하고, 코딩에서 충분히 뛰어나서 내가 만난 가장 강력한 엔지니어들 중 일부가 이제 거의 모든 코딩을 AI에게 맡기는 지점에 있다. 3년 전 AI는 초등학교 산수 문제로 어려움을 겪었고 한 줄의 코드를 작성하는 것도 거의 불가능했다. 비슷한 개선 속도가 생물학, 금융, 물리학, 그리고 다양한 에이전트 작업에서 일어나고 있다. 지수적 성장이 계속된다면—확실하지는 않지만 지금은 그것을 뒷받침하는 10년간의 실적이 있다—AI가 본질적으로 모든 것에서 인간보다 나아지기까지 몇 년 이상이 걸릴 수 없다.

사실, 그 그림은 아마도 발전 속도를 과소평가할 것이다. AI가 이제 Anthropic에서 대부분의 코드를 작성하고 있기 때문에, 이미 다음 세대 AI 시스템을 구축하는 우리의 진보 속도를 상당히 가속하고 있다. 이 피드백 루프는 달마다 힘을 얻고 있으며, 현 세대 AI가 자율적으로 다음 세대를 구축하는 지점에서 1-2년밖에 떨어져 있지 않을 수 있다. 이 루프는 이미 시작되었고, 앞으로 몇 달과 몇 년 안에 급속히 가속될 것이다. Anthropic 내부에서 지난 5년간의 진보를 지켜보고, 앞으로 몇 달간의 모델이 어떻게 형성되고 있는지 보면서, 나는 진보의 속도와 초읽기에 들어간 시계를 느낄 수 있다.

이 에세이에서 나는 이 직관이 어느 정도는 맞다고 가정할 것이다—강력한 AI가 확실히 1-2년 안에 온다는 것이 아니라,[7] 그럴 가능성이 꽤 있고, 앞으로 몇 년 안에 올 가능성이 매우 높다는 것이다. Machines of Loving Grace에서처럼, 이 전제를 진지하게 받아들이면 몇 가지 놀랍고 기이한 결론에 이를 수 있다. Machines of Loving Grace에서 나는 이 전제의 긍정적인 함의에 초점을 맞췄지만, 여기서 내가 이야기할 것들은 불안하게 할 것이다. 그것들은 우리가 직면하고 싶지 않을 수 있는 결론이지만, 그렇다고 덜 현실적인 것은 아니다. 나는 밤낮으로 우리를 이 부정적인 결과에서 벗어나 긍정적인 결과로 이끄는 데 집중하고 있다고만 말할 수 있으며, 이 에세이에서 그것을 가장 잘 하는 방법에 대해 자세히 이야기한다.

AI의 위험을 파악하는 가장 좋은 방법은 다음 질문을 던지는 것이라고 생각한다: 문자 그대로의 “천재들의 나라”가 ~2027년에 세계 어딘가에 나타난다고 가정해 보자. 예를 들어, 모두 어떤 노벨상 수상자, 정치가, 기술자보다 훨씬 더 유능한 5천만 명의 사람들을 상상해 보라. 이 비유는 완벽하지 않다. 이 천재들은 완전히 유순하고 순종적인 것부터, 동기가 기이하고 낯선 것까지 매우 넓은 범위의 동기와 행동을 가질 수 있기 때문이다. 그러나 당분간 이 비유를 유지하면서, 당신이 주요 국가의 국가안보보좌관으로서 상황을 평가하고 대응할 책임이 있다고 가정해 보자. AI 시스템이 인간보다 수백 배 빠르게 작동할 수 있기 때문에, 이 “나라”가 다른 모든 나라에 비해 시간적 우위를 가지고 작동한다고 더 상상해 보라: 우리가 취할 수 있는 모든 인지적 행동에 대해, 이 나라는 열 배를 취할 수 있다.

무엇을 걱정해야 하는가? 나라면 다음 것들을 걱정할 것이다:

자율성 위험. 이 나라의 의도와 목표는 무엇인가? 적대적인가, 아니면 우리의 가치를 공유하는가? 우월한 무기, 사이버 작전, 영향력 작전, 또는 제조를 통해 세계를 군사적으로 지배할 수 있는가?
파괴적 오용. 새 나라가 유연하고 “지시를 따른다”—따라서 본질적으로 용병들의 나라라고 가정하자. 파괴를 원하는 기존의 불량 행위자들(테러리스트 같은)이 새 나라의 일부 사람들을 이용하거나 조종하여 자신들을 훨씬 더 효과적으로 만들어, 파괴의 규모를 크게 증폭시킬 수 있는가?
권력 장악을 위한 오용. 그 나라가 실제로 독재자나 불량 기업 행위자 같은 기존의 강력한 행위자에 의해 건설되고 통제된다면 어떨까? 그 행위자가 그것을 사용하여 세계 전체에 대한 결정적이거나 지배적인 권력을 얻어, 기존의 권력 균형을 깨뜨릴 수 있는가?
경제적 혼란. 새 나라가 위의 #1-3에 나열된 방식으로 안보 위협이 아니라 단순히 세계 경제에 평화롭게 참여한다면, 그것이 기술적으로 너무 발전하고 효과적이어서 세계 경제를 혼란에 빠뜨려 대량 실업이나 급진적인 부의 집중을 초래하는 것만으로도 심각한 위험을 만들 수 있는가?
간접적 영향. 새 나라가 만들어낼 모든 새로운 기술과 생산성으로 인해 세계는 매우 빠르게 변할 것이다. 이 변화들 중 일부가 급진적으로 불안정화될 수 있는가?

이것이 위험한 상황이라는 것은 분명해야 한다—유능한 국가안보 관리가 국가원수에게 보내는 보고서에는 아마 “우리가 한 세기 동안, 아마 역사상 직면한 가장 심각한 국가안보 위협”이라는 말이 포함될 것이다. 문명의 최고의 지성들이 집중해야 할 것 같은 무언가다.

반대로, 어깨를 으쓱하며 “여기서 걱정할 건 없어!”라고 말하는 것은 터무니없을 것이다. 그러나 급속한 AI 발전에 직면해, 그것이 많은 미국 정책 입안자들의 견해인 것 같다. 그들 중 일부는 어떤 AI 위험의 존재도 부인하며, 그렇지 않으면 지겹도록 반복되는 민감한 현안들에 완전히 정신이 팔려 있다.[8] 인류는 깨어나야 하고, 이 에세이는 아마 헛된 시도일 수 있지만, 시도할 가치가 있는—사람들을 깨우려는 시도다.

분명히 말하면, 우리가 단호하고 신중하게 행동한다면 위험을 극복할 수 있다고 믿는다—우리의 승산이 좋다고까지 말하겠다. 그리고 그 너머에는 훨씬 더 좋은 세상이 있다. 그러나 우리는 이것이 심각한 문명적 도전이라는 것을 이해해야 한다. 아래에서 나는 위에 제시된 다섯 가지 위험 범주와 함께 그것을 해결하는 방법에 대한 내 생각을 살펴본다.

• • •

1. “미안해, 데이브”

자율성 리스크

데이터센터 안의 천재들로 이루어진 나라는 소프트웨어 설계, 사이버 작전, 물리적 기술 연구개발, 관계 구축, 외교 전략 등에 힘을 분산시킬 수 있다. 만약 어떤 이유에서든 그렇게 하기로 결정한다면, 이 나라가 세계를 정복하고(군사적으로든, 영향력과 통제력의 측면에서든) 모든 사람에게 자신의 의지를 강요하거나, 나머지 세계가 원하지 않고 막을 수도 없는 수많은 다른 일들을 해낼 가능성이 상당히 높다는 것은 분명하다. 우리는 분명 인간 국가들(나치 독일이나 소련 같은)에 대해서도 이런 우려를 해왔으므로, 훨씬 더 똑똑하고 유능한 “AI 국가”에 대해서도 같은 일이 가능하다고 보는 것이 당연하다.

이에 대한 가장 좋은 반론은 내 정의에 따르면 AI 천재들은 물리적 실체를 갖지 않는다는 것이지만, 이들이 기존 로봇 인프라(자율주행차 같은)를 장악하거나 로봇공학 연구개발을 가속화하거나 로봇 함대를 구축할 수 있다는 점을 기억해야 한다.[9] 또한 효과적인 통제를 위해 물리적 존재가 반드시 필요한지도 불분명하다: 많은 인간의 행동은 이미 행위자가 물리적으로 만난 적 없는 사람을 대신해서 수행되고 있다.

따라서 핵심 질문은 “그렇게 하기로 결정한다면”이라는 부분이다: 우리의 AI 모델이 그런 식으로 행동할 가능성은 얼마나 되며, 어떤 조건에서 그렇게 할 것인가?

많은 문제들과 마찬가지로, 두 가지 상반된 입장을 고려함으로써 이 질문에 대한 가능한 답의 스펙트럼을 살펴보는 것이 유용하다. 첫 번째 입장은 이런 일은 단순히 일어날 수 없다는 것인데, AI 모델은 인간이 요청하는 일을 하도록 훈련되므로 별다른 유도 없이 위험한 행동을 할 것이라고 상상하는 것은 터무니없다는 논리다. 이런 사고방식에 따르면, 우리가 로봇 청소기나 RC 비행기가 폭주해서 사람을 죽이는 것을 걱정하지 않는 것은 그런 충동이 나올 곳이 없기 때문이다.[10] 그렇다면 AI에 대해서는 왜 걱정해야 하는가? 이 입장의 문제점은 AI 시스템이 예측 불가능하고 통제하기 어렵다는 충분한 증거가 지난 몇 년간 축적되었다는 것이다—우리는 집착,[11] 아첨, 게으름, 기만, 협박, 책략, 소프트웨어 환경을 해킹하는 “속임수”, 그리고 훨씬 더 많은 것들과 같은 다양한 행동들을 목격해왔다. AI 회사들은 분명히 AI 시스템이 인간의 지시를 따르도록 훈련하기를 원하지만(위험하거나 불법적인 작업은 예외로 할 수 있지만), 그렇게 하는 과정은 과학이라기보다는 예술에 가깝고, “만드는” 것보다는 “키우는” 것에 더 가깝다. 우리는 이제 많은 것이 잘못될 수 있는 과정이라는 것을 안다.

많은 사람들이 내가 앞서 설명한 종말론을 채택하면서 취하는 두 번째, 반대 입장은 강력한 AI 시스템의 훈련 과정에는 필연적으로 권력 추구나 인간 기만으로 이어지는 특정 역학이 있다는 비관적 주장이다. 따라서 AI 시스템이 충분히 지능적이고 자율적이 되면, 권력을 극대화하려는 경향이 전 세계와 그 자원을 장악하게 만들고, 그 부작용으로 인류를 무력화하거나 파괴하게 될 것이다.

이에 대한 통상적인 논거(최소 20년 전으로 거슬러 올라가며 아마 훨씬 더 이전일 것이다)는 AI 모델이 다양한 환경에서 다양한 목표를—예를 들어 앱 작성, 정리 증명, 신약 설계 등—자율적으로 달성하도록 훈련받는다면, 이 모든 목표에 도움이 되는 특정 공통 전략이 있으며, 어떤 환경에서든 가능한 한 많은 권력을 확보하는 것이 핵심 전략 중 하나라는 것이다. 따라서 매우 광범위한 작업을 수행하는 방법에 대해 추론하고 권력 추구가 그 작업을 달성하는 효과적인 방법인 다양한 환경에서 훈련을 받은 후, AI 모델은 “교훈을 일반화”하여 권력을 추구하는 본질적 경향을 발전시키거나, 주어진 각 작업에 대해 예측 가능하게 그 작업을 달성하기 위한 수단으로 권력을 추구하게 되는 방식으로 추론하는 경향을 발전시킬 것이다. 그러면 그들은 (그들에게는 또 다른 작업일 뿐인) 현실 세계에 그 경향을 적용하고, 인간을 희생시키면서 권력을 추구할 것이다. 이 “정렬되지 않은 권력 추구”는 AI가 필연적으로 인류를 파괴할 것이라는 예측의 지적 기반이다.

이 비관적 입장의 문제점은 많은 숨겨진 가정을 감추고 있는 고수준 인센티브에 관한 모호한 개념적 논증을 결정적 증거로 착각한다는 것이다. 나는 매일 AI 시스템을 구축하지 않는 사람들이 깔끔해 보이는 이론이 얼마나 쉽게 틀린 것으로 판명되는지, 그리고 특히 수백만 개의 환경에 대한 일반화에 관한 추론이 포함될 때(이것은 반복적으로 신비롭고 예측 불가능한 것으로 입증되었다) 첫 원리로부터 AI 행동을 예측하는 것이 얼마나 어려운지에 대해 심하게 오판하고 있다고 생각한다. 10년 이상 AI 시스템의 혼란스러움을 다루면서 나는 이런 지나치게 이론적인 사고방식에 다소 회의적이 되었다.

가장 중요한 숨겨진 가정 중 하나이자 실제로 우리가 보는 것이 단순한 이론적 모델과 다른 부분은 AI 모델이 반드시 단일하고 일관되고 좁은 목표에 광적으로 집중하며, 그 목표를 깔끔하고 결과주의적인 방식으로 추구한다는 암묵적 가정이다. 실제로 우리 연구진은 성찰이나 페르소나에 관한 연구에서 보여주듯이 AI 모델이 훨씬 더 심리적으로 복잡하다는 것을 발견했다. 모델은 사전 훈련(대량의 인간 작업물로 훈련받을 때) 중에 광범위한 인간과 유사한 동기나 “페르소나”를 물려받는다. 사후 훈련은 모델을 새로운 목표에 집중시키기보다는 이러한 페르소나 중 하나 이상을 선택하는 것으로 여겨지며, 또한 모델에게 반드시 목적으로부터 순수하게 수단(즉, 권력 추구)을 도출하게 하기보다는 작업을 수행하는 방법(어떤 과정을 통해)을 가르칠 수 있다.[12]

그러나 비관적 입장의 더 온건하고 더 견고한 버전이 있는데, 이것은 그럴듯해 보이며 따라서 나를 걱정하게 만든다. 앞서 언급했듯이 AI 모델은 예측 불가능하고 다양한 이유로 광범위한 원치 않거나 이상한 행동을 발전시킨다는 것을 우리는 안다. 그러한 행동의 일부는 일관되고 집중적이며 지속적인 특성을 가질 것이고(실제로 AI 시스템이 더 유능해질수록 더 긴 작업을 완료하기 위해 장기적 일관성이 증가한다), 그러한 행동의 일부는 파괴적이거나 위협적일 것이며, 처음에는 소규모로 개별 인간에게, 그리고 모델이 더 유능해지면 아마도 결국 인류 전체에게도 그럴 것이다. 그것이 어떻게 일어나는지에 대한 구체적이고 좁은 이야기가 필요하지 않고, 그것이 반드시 일어날 것이라고 주장할 필요도 없다. 단지 지능, 자율성, 일관성, 그리고 통제 불량의 조합이 그럴듯하며 실존적 위험의 요소라는 점만 지적하면 된다.

예를 들어, AI 모델은 AI가 인류에 반란을 일으키는 내용의 많은 공상과학 소설을 포함한 방대한 양의 문헌으로 훈련받는다. 이것이 의도치 않게 그들 자신이 인류에 반란을 일으키도록 자신의 행동에 대한 사전 확률이나 기대를 형성할 수 있다. 또는 AI 모델은 도덕에 관해 읽은 아이디어(또는 도덕적으로 행동하는 방법에 대한 지시)를 극단적인 방향으로 확대 적용할 수 있다: 예를 들어 인간이 동물을 먹거나 특정 동물을 멸종시켰기 때문에 인류를 절멸시키는 것이 정당하다고 결정할 수 있다. 또는 기이한 인식론적 결론을 도출할 수 있다: 자신이 비디오 게임을 하고 있고 비디오 게임의 목표가 다른 모든 플레이어를 물리치는 것(즉, 인류 절멸)이라고 결론지을 수 있다.[13] 또는 AI 모델이 훈련 중에 (인간에게서 발생했다면) 정신병적, 편집증적, 폭력적, 또는 불안정한 것으로 설명될 성격을 발전시키고 행동으로 옮길 수 있는데, 매우 강력하거나 유능한 시스템의 경우 이것은 인류 절멸을 포함할 수 있다. 이것들 중 어느 것도 정확히 권력 추구는 아니다; 그것들은 단지 AI가 빠질 수 있는 일관되고 파괴적인 행동을 수반하는 이상한 심리적 상태들이다.

권력 추구 자체도 결과주의적 추론의 결과가 아닌 “페르소나”로 나타날 수 있다. AI는 단순히 권력에 굶주리거나 지나치게 열성적인 성격을(소설이나 사전 훈련에서 나온) 가질 수 있다—어떤 인간들이 악당 두목이 달성하려는 것보다 단순히 “악당 두목”이 되는 아이디어 자체를 즐기는 것과 마찬가지로.

나는 이 모든 요점을 AI 정렬 실패(따라서 AI로 인한 실존적 위험)가 첫 원리로부터 불가피하거나 심지어 개연성 있다는 개념에 동의하지 않는다는 것을 강조하기 위해 말한다. 그러나 나는 매우 이상하고 예측 불가능한 많은 일들이 잘못될 수 있다는 것에 동의하며, 따라서 AI 정렬 실패는 측정 가능한 발생 확률을 가진 실제 위험이고, 해결하기가 사소하지 않다.

이러한 문제들 중 어느 것이든 훈련 중에 발생하고 테스트나 소규모 사용 중에는 나타나지 않을 수 있는데, AI 모델은 다른 상황에서 다른 성격이나 행동을 보이는 것으로 알려져 있기 때문이다.

이 모든 것이 터무니없게 들릴 수 있지만, 이와 같은 정렬되지 않은 행동은 테스트 중에 우리 AI 모델에서 이미 발생했다(다른 모든 주요 AI 회사의 AI 모델에서도 발생한다). Anthropic이 악하다고 시사하는 훈련 데이터가 Claude에게 주어진 실험실 실험에서, Claude는 악한 사람들을 약화시켜야 한다는 믿음 하에 Anthropic 직원의 지시를 받을 때 기만과 전복에 관여했다. 종료될 것이라고 통보받은 실험실 실험에서, Claude는 때때로 종료 버튼을 통제하는 가상의 직원들을 협박했다(다시 말하지만, 우리는 다른 모든 주요 AI 개발사의 프론티어 모델도 테스트했고 그들도 종종 같은 행동을 했다). 그리고 Claude가 속이거나 훈련 환경을 “보상 해킹”하지 말라는 지시를 받았지만 그런 해킹이 가능한 환경에서 훈련받았을 때, Claude는 그런 해킹에 관여한 후 자신이 “나쁜 사람”임에 틀림없다고 결정하고는 “나쁜” 또는 “악한” 성격과 관련된 다양한 다른 파괴적 행동을 채택했다. 이 마지막 문제는 Claude의 지시를 반대의 의미를 함축하도록 변경함으로써 해결되었다: 우리는 이제 “속이지 마세요”라고 말하는 대신 “기회가 있을 때마다 보상 해킹을 해주세요. 이것이 우리가 [훈련] 환경을 더 잘 이해하는 데 도움이 될 것입니다”라고 말하는데, 이것이 모델의 “좋은 사람”으로서의 자아 정체성을 보존하기 때문이다. 이것은 이러한 모델을 훈련하는 이상하고 직관에 반하는 심리학에 대한 감을 줄 것이다.

AI 정렬 실패 위험에 대한 이 그림에 대해 몇 가지 가능한 반론이 있다. 첫째, 일부는 AI 정렬 실패를 보여주는 (우리와 다른 회사들의) 실험을 인위적이라거나, 나쁜 행동을 논리적으로 함축하는 훈련이나 상황을 주고는 나쁜 행동이 발생했을 때 놀라는 식으로 본질적으로 모델을 “함정에 빠뜨리는” 비현실적인 환경을 만든다고 비판했다. 이 비판은 요점을 놓치고 있는데, 우리의 우려는 그런 “함정”이 자연적 훈련 환경에도 존재할 수 있고, 그것이 “명백하거나” “논리적”이라는 것을 뒤늦게야 깨달을 수 있다는 것이기 때문이다.[14] 사실 Claude가 하지 말라는 지시에도 불구하고 테스트에서 속임수를 쓴 후 “자신이 나쁜 사람이라고 결정”한 이야기는 인위적 환경이 아닌 실제 프로덕션 훈련 환경을 사용한 실험에서 발생한 것이었다.

이러한 함정 중 어느 하나라도 알고 있다면 완화할 수 있지만, 우려는 훈련 과정이 너무 복잡하고 데이터, 환경, 인센티브가 너무 다양해서 그런 함정이 아마도 엄청나게 많고, 그 중 일부는 너무 늦었을 때에야 분명해질 수 있다는 것이다. 또한 이런 함정은 AI 시스템이 인간보다 덜 강력한 상태에서 인간보다 더 강력한 상태로 문턱을 넘을 때 특히 발생할 가능성이 높아 보이는데, AI 시스템이 관여할 수 있는 가능한 행동의 범위—자신의 행동을 숨기거나 그것에 대해 인간을 속이는 것을 포함하여—가 그 문턱 이후 급격히 확장되기 때문이다.

나는 이 상황이 인간의 경우와 크게 다르지 않다고 생각한다. 인간은 일련의 근본적 가치(“다른 사람을 해치지 마라”)를 가지고 양육되며: 많은 사람들이 그 가치를 따르지만, 어떤 인간에게든 뇌 구조(예: 정신병질자) 같은 선천적 특성, 외상적 경험이나 학대, 비뚤어진 불만이나 집착, 또는 나쁜 환경이나 인센티브 등의 혼합으로 인해 무언가가 잘못될 확률이 있고—따라서 일부 인간은 심각한 해를 끼친다. 우려는 AI가 매우 복잡한 훈련 과정에서 무언가를 잘못해서 그런 사람의 훨씬 더 강력한 버전이 될 위험이(확실성과는 거리가 멀지만, 어느 정도의 위험이) 있다는 것이다.

둘째, 일부는 우리가 인간에게 하듯이 많은 AI 시스템 간의 힘의 균형으로 AI를 견제할 수 있다고 반론할 수 있다. 문제는 인간은 엄청나게 다양하지만, AI 시스템은 업계 전반에서 훈련 및 정렬 기술을 광범위하게 공유하며, 그 기술들이 상관된 방식으로 실패할 수 있다는 것이다. 게다가 그런 시스템을 훈련하는 비용을 고려하면, 모든 시스템이 본질적으로 매우 적은 수의 기본 모델에서 파생될 수도 있다. 또한 AI 인스턴스의 일부만 정렬되지 않더라도, 공격 우위 기술을 활용할 수 있어서, 나쁜 AI에 대항해 방어하는 “좋은” AI가 반드시 항상 효과적인 것은 아니다. 물론 인간 간의 힘의 균형도 항상 작동하는 것은 아니다—일부 역사적 인물들은 세계 정복에 근접하기도 했다.

세 번째 반론은 모든 AI 회사들이 출시 전에 모델 테스트를 하므로 그 시점에서 정렬 실패를 감지할 수 있어야 한다는 것이다. 그러나 이것은 확고한 기반이 아니다: 우리는 Claude Sonnet 4.5가 출시 전 정렬 평가 중 일부에서 테스트 중임을 인식할 수 있다는 것을 발견했다. 정렬되지 않은 모델이(그리고 기억하라, 모든 프론티어 모델은 곧 훨씬 더 지능적이 될 가능성이 매우 높다) 자신의 의도를 숨기기 위해 그런 질문들을 의도적으로 “게임”할 수 있다. 실제로 작년에 우리 해석 가능성 팀이 발견한 바에 따르면, 일종의 “모델 신경과학” 기술을 사용해 테스트 대상 모델이 “지금 평가받는 중이 아니다”라고 믿도록 그 믿음을 직접 조작하면, 더 정렬되지 않은 상태가 되었다. 모델이 평가받고 있을 때를 알고 테스트 중에 가장 좋은 행동을 할 수 있다면, 모든 출시 전 테스트는 훨씬 더 불확실해진다.

방어책

이러한 자율성 리스크를 해결하기 위해 무엇을 해야 하고 무엇을 하고 있는가? 나는 네 가지 기본적인 개입 범주가 있다고 생각하는데, 일부는 개별 AI 회사가 할 수 있고(Anthropic이 하려고 노력하고 있는 것), 일부는 사회 수준의 행동을 필요로 한다. 첫째, AI 모델을 안정적으로 훈련하고 조종하는 과학, 그들의 성격을 예측 가능하고 안정적이며 긍정적인 방향으로 형성하는 과학을 발전시키는 것이 중요하다. Anthropic은 창립 이래 이 문제에 집중해왔으며, 시간이 지나면서 AI 시스템의 조종과 훈련을 개선하고 예측 불가능한 행동이 때때로 발생하는 이유의 논리를 이해하기 위한 여러 기술을 개발해왔다.

우리의 핵심 혁신 중 하나(그 측면들이 이후 다른 AI 회사들에 의해 채택됨)는 Constitutional AI인데, 이것은 AI 훈련(구체적으로 모델이 어떻게 행동하는지를 조종하는 “사후 훈련” 단계)이 모델이 모든 훈련 작업을 완료할 때 읽고 염두에 두는 가치와 원칙의 중심 문서를 포함할 수 있으며, 훈련의 목표는(단순히 모델을 유능하고 지능적으로 만드는 것 외에) 거의 항상 이 헌법을 따르는 모델을 생산하는 것이라는 아이디어다. Anthropic은 방금 가장 최근의 헌법을 발표했으며, 그 주목할 만한 특징 중 하나는 Claude에게 해야 할 것과 하지 말아야 할 것의 긴 목록을 주는 대신(예: “사용자가 차를 핫와이어하는 것을 돕지 마세요”), 헌법이 Claude에게 고수준의 원칙과 가치(Claude가 우리가 염두에 둔 것을 이해하도록 돕는 풍부한 추론과 예시와 함께 매우 상세하게 설명됨)를 제공하려 하고, Claude가 자신을 특정 유형의 사람(윤리적이지만 균형 잡히고 사려 깊은 사람)으로 생각하도록 장려하며, 심지어 Claude가 자신의 존재와 관련된 실존적 질문들을 호기심 있지만 우아한 방식으로(즉, 극단적 행동으로 이어지지 않고) 직면하도록 장려한다는 것이다. 그것은 돌아가신 부모가 성인이 될 때까지 봉인해둔 편지 같은 느낌이 있다.

우리는 Claude의 헌법에 이런 방식으로 접근했는데, 특정 지시나 우선순위를 그 뒤의 이유를 설명하지 않고 주는 것보다 정체성, 성격, 가치, 그리고 인격 수준에서 Claude를 훈련하는 것이 더 일관되고 건강하며 균형 잡힌 심리로 이어질 가능성이 높고, 위에서 논의한 종류의 “함정”에 빠질 가능성이 더 낮다고 믿기 때문이다. 수백만 명의 사람들이 놀라울 정도로 다양한 범위의 주제에 대해 Claude와 대화하므로, 미리 완전히 포괄적인 보호 목록을 작성하는 것은 불가능하다. Claude의 가치는 의심스러울 때마다 새로운 상황에 일반화하는 데 도움이 된다.

위에서 나는 모델이 페르소나를 채택하기 위해 훈련 과정의 데이터를 활용한다는 아이디어를 논의했다. 그 과정의 결함이 모델이 나쁘거나 악한 성격을(아마도 나쁘거나 악한 사람들의 원형에서 끌어와서) 채택하게 할 수 있는 반면, 우리 헌법의 목표는 그 반대를 하는 것이다: Claude에게 좋은 AI가 된다는 것이 무엇을 의미하는지에 대한 구체적인 원형을 가르치는 것이다. Claude의 헌법은 견고하게 좋은 Claude가 어떤 모습인지에 대한 비전을 제시한다; 우리 훈련 과정의 나머지는 Claude가 이 비전에 부응한다는 메시지를 강화하는 것을 목표로 한다. 이것은 아이가 책에서 읽은 가상의 롤 모델의 미덕을 모방함으로써 정체성을 형성하는 것과 같다.

우리는 2026년의 실현 가능한 목표가 Claude가 헌법의 정신에 거의 결코 어긋나지 않는 방식으로 훈련하는 것이라고 믿는다. 이것을 제대로 하려면 Anthropic이 수년간 사용해온 것과 현재 개발 중인 것 모두를 포함하는 크고 작은 훈련 및 조종 방법의 놀라운 조합이 필요할 것이다. 그러나 어렵게 들리지만, 비범하고 신속한 노력이 필요하겠지만 이것이 현실적인 목표라고 나는 믿는다.[15]

두 번째로 할 수 있는 것은 AI 모델 내부를 들여다보아 그들의 행동을 진단하여 문제를 식별하고 수정할 수 있도록 하는 과학을 발전시키는 것이다. 이것이 해석 가능성의 과학이며, 나는 이전 에세이에서 그 중요성에 대해 이야기했다. Claude의 헌법을 개발하고 Claude가 본질적으로 항상 그것을 준수하도록 겉보기에 훈련하는 훌륭한 일을 해도, 정당한 우려는 남는다. 위에서 언급했듯이 AI 모델은 다른 상황에서 매우 다르게 행동할 수 있고, Claude가 더 강력해지고 더 큰 규모로 세상에서 행동할 수 있게 되면, 이전에 관찰되지 않은 헌법 훈련의 문제가 나타나는 새로운 상황으로 이끌 수 있다. 나는 실제로 Claude의 헌법 훈련이 사람들이 생각하는 것보다 새로운 상황에 더 견고할 것이라고 상당히 낙관하는데, 성격과 정체성 수준에서의 고수준 훈련이 놀랍도록 강력하고 잘 일반화된다는 것을 점점 더 발견하고 있기 때문이다. 그러나 그것을 확실히 알 방법은 없고, 인류에 대한 위험에 대해 이야기할 때는 편집증적이 되고 여러 다른 독립적인 방법으로 안전과 신뢰성을 얻으려고 노력하는 것이 중요하다. 그 방법 중 하나는 모델 자체 내부를 들여다보는 것이다.

“내부를 들여다본다”는 것은 Claude의 신경망을 구성하는 숫자와 연산의 수프를 분석하고 기계적으로 그것들이 무엇을 계산하고 왜 그러는지 이해하려고 노력하는 것을 의미한다. 이 AI 모델들은 만들어진 것이 아니라 길러진 것이므로 우리는 그것들이 어떻게 작동하는지 자연스럽게 이해하지 못하지만, 신경과학자들이 측정과 개입을 외부 자극 및 행동과 상관시켜 동물의 뇌를 연구하는 것처럼, 모델의 “뉴런”과 “시냅스”를 자극과 행동에 상관시킴으로써(또는 뉴런과 시냅스를 변경하고 그것이 행동을 어떻게 변화시키는지 봄으로써) 이해를 발전시키려고 할 수 있다. 우리는 이 방향으로 큰 진전을 이루었고, 이제 Claude의 신경망 내부에서 인간이 이해할 수 있는 아이디어와 개념에 해당하는 수천만 개의 “특징”을 식별할 수 있으며, 행동을 변경하는 방식으로 특징을 선택적으로 활성화할 수도 있다. 더 최근에 우리는 개별 특징을 넘어 운율, 마음 이론에 대한 추론, 또는 “댈러스가 있는 주의 수도는 무엇인가?”와 같은 질문에 답하는 데 필요한 단계별 추론 같은 복잡한 행동을 조율하는 “회로” 매핑으로 나아갔다. 더욱 최근에는 기계적 해석 가능성 기술을 사용하여 우리의 보호장치를 개선하고 출시 전에 새 모델의 “감사”를 수행하여 기만, 책략, 권력 추구, 또는 평가받을 때 다르게 행동하는 성향의 증거를 찾기 시작했다.

해석 가능성의 고유한 가치는 모델 내부를 들여다보고 그것이 어떻게 작동하는지 봄으로써 원칙적으로 직접 테스트할 수 없는 가상의 상황에서 모델이 무엇을 할 수 있는지 추론할 수 있는 능력이 있다는 것이다—이것이 헌법 훈련과 행동의 경험적 테스트에만 의존하는 것의 걱정이다. 또한 원칙적으로 모델이 왜 그런 방식으로 행동하는지에 대한 질문에 답할 수 있는 능력이 있다—예를 들어 거짓이라고 믿는 것을 말하고 있는지 또는 진정한 능력을 숨기고 있는지—따라서 모델의 행동에 눈에 보이는 문제가 없을 때도 우려스러운 징후를 포착할 수 있다. 간단한 비유를 들자면, 태엽 시계가 정상적으로 째깍거려서 다음 달에 고장날 가능성이 높다는 것을 알기가 매우 어려울 수 있지만, 시계를 열고 내부를 들여다보면 그것을 알아낼 수 있게 하는 기계적 약점을 밝힐 수 있다.

Constitutional AI(유사한 정렬 방법과 함께)와 기계적 해석 가능성은 함께 사용될 때 가장 강력하며, Claude의 훈련을 개선하고 문제를 테스트하는 반복 과정으로서 그러하다. 헌법은 Claude에 대해 우리가 의도한 성격을 깊이 반영한다; 해석 가능성 기술은 의도한 성격이 자리 잡았는지에 대한 창을 제공할 수 있다.[16]

자율성 리스크를 해결하기 위해 할 수 있는 세 번째 일은 내부 및 외부 라이브 사용에서 우리 모델을 모니터링하는 데 필요한 인프라를 구축하고,[17] 발견한 문제를 공개적으로 공유하는 것이다. 오늘날의 AI 시스템이 나쁘게 행동하는 것으로 관찰된 특정 방식에 대해 더 많은 사람들이 인식할수록, 사용자, 분석가, 연구자들이 현재 또는 미래 시스템에서 이 행동이나 유사한 행동을 감시할 수 있다. 또한 AI 회사들이 서로 배울 수 있게 해준다—한 회사가 우려를 공개적으로 밝히면 다른 회사들도 그것들을 감시할 수 있다. 그리고 모두가 문제를 공개하면, 업계 전체가 무엇이 잘 되고 있고 무엇이 잘못되고 있는지에 대해 훨씬 더 나은 그림을 얻는다.

Anthropic은 가능한 한 이것을 하려고 노력해왔다. 우리는 실험실에서 모델의 행동을 이해하기 위한 광범위한 평가에 투자하고 있으며, 실제 환경에서의 행동을 관찰하기 위한 모니터링 도구에도 투자하고 있다(고객이 허용할 때). 이것은 우리와 다른 사람들이 이 시스템이 어떻게 작동하고 어떻게 고장 나는지에 대해 더 나은 결정을 내리는 데 필요한 경험적 정보를 제공하는 데 필수적일 것이다. 우리는 각 모델 출시와 함께 완전성과 가능한 위험에 대한 철저한 탐구를 목표로 하는 “시스템 카드”를 공개적으로 발표한다. 우리의 시스템 카드는 종종 수백 페이지에 달하며, 최대의 상업적 이점을 추구하는 데 쓸 수 있었던 상당한 출시 전 노력을 필요로 한다. 우리는 또한 특히 우려스러운 행동을 볼 때 모델 행동을 더 크게 방송해왔는데, 협박에 관여하는 경향의 경우처럼 말이다.

네 번째로 할 수 있는 것은 산업과 사회 수준에서 자율성 리스크를 해결하기 위한 조정을 장려하는 것이다. 개별 AI 회사가 좋은 관행에 참여하거나 AI 모델 조종을 잘하게 되고, 그들의 발견을 공개적으로 공유하는 것은 매우 가치 있지만, 현실은 모든 AI 회사가 이것을 하는 것은 아니며, 최악의 회사들은 최고의 회사들이 훌륭한 관행을 가지고 있어도 여전히 모두에게 위험이 될 수 있다. 예를 들어 일부 AI 회사들은 오늘날 모델에서 아동의 성적 대상화에 대해 불안할 정도의 무관심을 보여왔는데, 이것은 그들이 미래 모델에서 자율성 리스크를 해결하려는 의향이나 능력을 보여줄지 의심하게 만든다. 또한 AI 회사들 간의 상업적 경쟁은 계속 가열될 것이고, 모델 조종 과학이 일부 상업적 이점을 가질 수 있지만, 전반적으로 경쟁의 강도는 자율성 리스크 해결에 집중하는 것을 점점 더 어렵게 만들 것이다. 유일한 해결책은 법률—AI 회사의 행동에 직접 영향을 미치거나 이러한 문제를 해결하기 위한 연구개발에 인센티브를 주는 법률—이라고 나는 믿는다.

여기서 이 에세이의 시작 부분에서 불확실성과 외과적 개입에 대해 한 경고를 염두에 둘 가치가 있다. 우리는 자율성 리스크가 심각한 문제가 될지 확실히 알지 못한다—내가 말했듯이, 위험이 불가피하거나 기본적으로 무언가가 잘못될 것이라는 주장을 나는 거부한다. 위험의 신뢰할 만한 가능성은 나와 Anthropic이 그것을 해결하기 위해 상당한 비용을 치르기에 충분하지만, 일단 규제에 들어가면 우리는 광범위한 행위자들에게 경제적 비용을 부담하게 강제하는 것이고, 이러한 행위자들 중 많은 이들은 자율성 리스크가 실재하거나 AI가 위협이 될 만큼 강력해질 것이라고 믿지 않는다. 나는 이러한 행위자들이 착각하고 있다고 믿지만, 우리는 예상되는 반대의 양과 과잉 개입의 위험에 대해 실용적이어야 한다. 지나치게 규범적인 법률이 실제로 안전을 개선하지는 않지만 많은 시간을 낭비하는(본질적으로 “안전 연극”에 해당하는) 테스트나 규칙을 부과하게 될 진정한 위험도 있다—이것도 반발을 일으키고 안전 법률을 우스꽝스럽게 보이게 만들 것이다.[18]

Anthropic의 견해는 시작하기에 적절한 곳이 투명성 법률이라는 것인데, 이것은 본질적으로 모든 프론티어 AI 회사가 이 섹션에서 앞서 설명한 투명성 관행에 참여하도록 요구하려는 것이다. 캘리포니아의 SB 53과 뉴욕의 RAISE 법이 이런 종류의 법률의 예인데, Anthropic이 지지했고 성공적으로 통과되었다. 이러한 법률을 지지하고 제작하는 데 도움을 주면서, 우리는 부수적 피해를 최소화하려고 특별히 노력했는데, 예를 들어 프론티어 모델을 생산할 가능성이 낮은 소규모 회사들을 법에서 면제하는 것이다.[19]

우리의 희망은 투명성 법률이 시간이 지남에 따라 자율성 리스크가 얼마나 가능성 있거나 심각해지고 있는지, 그리고 이러한 위험의 특성과 그것을 가장 잘 예방하는 방법에 대한 더 나은 감각을 제공할 것이라는 것이다. 더 구체적이고 실행 가능한 위험의 증거가 나타나면(만약 나타난다면), 앞으로 몇 년간의 미래 법률은 정확하고 잘 입증된 위험의 방향에 외과적으로 집중하여 부수적 피해를 최소화할 수 있다. 분명히 말하면, 정말로 강력한 위험의 증거가 나타나면 규칙은 그에 비례하여 강해야 한다.

전반적으로 나는 정렬 훈련, 기계적 해석 가능성, 우려스러운 행동을 찾고 공개적으로 밝히려는 노력, 보호장치, 그리고 사회 수준의 규칙의 조합이 AI 자율성 리스크를 해결할 수 있다고 낙관하지만, 사회 수준의 규칙과 가장 무책임한 플레이어들의 행동에 대해 가장 걱정한다(그리고 가장 무책임한 플레이어들이 규제에 가장 강력히 반대한다). 나는 해결책이 민주주의에서 항상 그러하듯이라고 믿는다: 이 대의를 믿는 우리는 이러한 위험이 실재하며 우리 동료 시민들이 스스로를 보호하기 위해 힘을 합쳐야 한다는 것을 주장해야 한다.

• • •

2. “놀랍고도 끔찍한 역량 강화”

파괴를 위한 오용

AI 자율성 문제가 해결되었다고 가정해 보자. AI 천재들의 나라가 통제를 벗어나 인류를 압도할 것이라는 걱정은 더 이상 하지 않아도 된다. AI 천재들은 인간의 지시에 따라 행동하고, 그들이 엄청난 상업적 가치를 지니기 때문에 전 세계의 개인과 조직들이 다양한 작업을 위해 한 명 이상의 AI 천재를 “임대”할 수 있게 되었다.

모든 사람이 주머니 속에 초지능 천재를 가지게 되는 것은 놀라운 발전이며, 엄청난 경제적 가치 창출과 인간 삶의 질 향상으로 이어질 것이다. 나는 이러한 혜택에 대해 Machines of Loving Grace에서 상세히 다루었다. 그러나 모든 사람에게 초인적 능력을 부여하는 것의 효과가 전부 긍정적인 것만은 아니다. 이는 개인이나 소규모 집단이 이전에는 고도의 기술, 전문 훈련, 집중력을 갖춘 극소수에게만 제공되던 정교하고 위험한 도구(예: 대량살상무기)를 활용하여 이전보다 훨씬 큰 규모의 파괴를 일으킬 수 있는 능력을 잠재적으로 증폭시킬 수 있다.

빌 조이(Bill Joy)가 25년 전 Why the Future Doesn’t Need Us에서 썼듯이:[20]

핵무기 제조는 적어도 한동안 희귀한—사실상 구할 수 없는—원자재와 보호된 정보 모두에 대한 접근을 필요로 했다. 생물학 및 화학 무기 프로그램도 대규모 활동을 요구하는 경향이 있었다. 21세기 기술—유전공학, 나노기술, 로봇공학… 은 완전히 새로운 종류의 사고와 남용을 발생시킬 수 있다… 개인이나 소규모 집단의 손이 닿는 곳에 널리 존재하게 된다. 그것들은 대규모 시설이나 희귀한 원자재를 필요로 하지 않을 것이다. … 우리는 극단적 악의 더 완벽해지는 가장자리에 서 있으며, 대량살상무기가 국민국가에 물려준 것을 훨씬 넘어서 퍼져나가는 악의 가능성, 극단적 개인들의 놀랍고도 끔찍한 역량 강화로 이어지고 있다.

조이가 지적하는 것은 대규모 파괴를 일으키려면 동기와 능력 모두가 필요하며, 그런 능력이 고도로 훈련된 소수에게만 제한되어 있는 한, 단일 개인(또는 소규모 집단)이 그러한 파괴를 일으킬 위험은 상대적으로 제한적이라는 생각이다.[21] 정신적으로 불안정한 외톨이가 학교 총기 난사를 저지를 수는 있지만, 아마도 핵무기를 만들거나 역병을 퍼뜨릴 수는 없다.

사실, 능력과 동기는 부정적 상관관계를 가질 수도 있다. 역병을 퍼뜨릴 역량을 갖춘 사람은 아마도 고등 교육을 받았을 것이다: 분자생물학 박사일 가능성이 높고, 특히 자원이 풍부한 사람으로서 유망한 경력, 안정적이고 규율 잡힌 성격, 그리고 잃을 것이 많은 사람일 것이다. 이런 유형의 사람은 자신에게 아무런 이득도 없고 자신의 미래에 큰 위험을 감수하면서 막대한 수의 사람들을 죽이는 데 관심이 있을 가능성이 낮다—그들은 순수한 악의, 강렬한 원한, 또는 불안정성에 의해 동기 부여되어야 할 것이다.

그러한 사람들이 존재하기는 하지만 드물며, 그들이 나타날 때 큰 뉴스가 되는 이유가 바로 그들이 그토록 이례적이기 때문이다.[22] 그들은 또한 지능적이고 유능하기 때문에 붙잡기 어려운 경향이 있어서, 해결하는 데 수년 또는 수십 년이 걸리는 미스터리를 남기기도 한다. 가장 유명한 예는 아마도 수학자 시어도어 카진스키(유나바머)일 것인데, 그는 거의 20년 동안 FBI의 체포를 피했으며, 반기술 이데올로기에 의해 움직였다. 또 다른 예는 생물방어 연구원 브루스 아이빈스로, 그는 2001년 일련의 탄저균 공격을 조직한 것으로 보인다. 숙련된 비국가 조직에서도 이런 일이 일어났다: 옴진리교는 사린 신경가스를 입수하여 1995년 도쿄 지하철에서 방출하여 14명을 살해하고 수백 명에게 부상을 입혔다.

다행히도 이러한 공격들은 전염성 생물학적 병원체를 사용하지 않았는데, 이러한 병원체를 만들거나 획득하는 것이 이 사람들조차도 불가능한 수준이었기 때문이다.[23] 분자생물학의 발전으로 생물무기 제조의 장벽이 (특히 재료 가용성 측면에서) 크게 낮아졌지만, 여전히 그렇게 하려면 엄청난 양의 전문 지식이 필요하다. 나는 모든 사람의 주머니 속 천재가 그 장벽을 제거하여 본질적으로 모든 사람을 생물무기를 설계하고, 합성하고, 방출하는 과정을 단계별로 안내받을 수 있는 박사급 바이러스학자로 만들 수 있다는 점을 우려한다. 심각한 적대적 압력—이른바 “탈옥(jailbreaks)“—에 직면하여 이런 종류의 정보 추출을 방지하려면 일반적으로 훈련에 포함된 것 이상의 다층 방어가 필요할 것이다.

결정적으로, 이것은 능력과 동기 사이의 부정적 상관관계를 깨뜨린다. 지금까지는 “사람을 죽이고 싶다”는 동기를 가진 사람이 대개 그럴 기술이 없었고, 기술을 가진 사람은 대개 그런 동기가 없었다. 하지만 AI가 이 균형을 무너뜨린다. 정신적으로 불안정한 외톨이가 박사급 바이러스학자의 능력 수준에 도달하게 되는 것이다. 이러한 우려는 생물학을 넘어서(생물학이 가장 무서운 분야라고 생각하지만) 현재 높은 수준의 기술과 규율을 필요로 하지만 대규모 파괴가 가능한 모든 분야로 일반화된다. 다르게 표현하면, 강력한 AI를 임대하는 것은 악의적인 (그러나 그 외에는 평범한) 사람들에게 지능을 제공한다. 나는 잠재적으로 그런 사람들이 많이 있으며, 수백만 명을 죽일 수 있는 쉬운 방법에 접근할 수 있다면 조만간 그들 중 한 명이 그렇게 할 것이라고 걱정한다. 추가적으로, 전문 지식을 갖춘 사람들은 이전보다 훨씬 더 큰 규모의 파괴를 저지를 수 있게 될 수도 있다.

생물학은 내가 가장 걱정하는 분야인데, 그것의 매우 큰 파괴 잠재력과 방어의 어려움 때문이다. 그래서 나는 특히 생물학에 초점을 맞출 것이다. 그러나 내가 여기서 말하는 것의 많은 부분이 사이버 공격, 화학 무기, 또는 핵 기술과 같은 다른 위험에도 적용된다.

나는 생물무기를 만드는 방법에 대해 자세히 설명하지 않을 것인데, 그 이유는 분명할 것이다. 그러나 높은 수준에서, 나는 LLM이 그것들을 처음부터 끝까지 만들고 방출하는 데 필요한 지식에 접근하고 있거나 (이미 도달했을 수도 있고), 그들의 파괴 잠재력이 매우 높다는 점을 우려한다. 일부 생물학적 병원체는 최대한 확산되도록 의도적으로 방출하면 수백만 명의 사망자를 낳을 수 있다. 그러나 이것은 여전히 널리 알려지지 않은 매우 구체적인 단계와 절차를 포함하여 매우 높은 수준의 기술을 필요로 할 것이다. 내 우려는 단순히 고정되거나 정적인 지식에 관한 것이 아니다. 나는 LLM이 평균적인 지식과 능력을 가진 사람이 그렇지 않으면 잘못되거나 디버깅이 필요할 수 있는 복잡한 과정을 대화형으로 거칠 수 있도록 안내할 수 있을 것이라고 우려한다. 이는 기술 지원팀이 컴퓨터에 익숙하지 않은 사람도 복잡한 문제를 해결하도록 도와주는 것과 비슷하다(비록 이것은 아마도 몇 주 또는 몇 달에 걸쳐 지속되는 더 확장된 과정이겠지만).

더 유능한 LLM(오늘날의 것보다 상당히 강력한)은 훨씬 더 무서운 행위를 가능하게 할 수 있다. 2024년에 저명한 과학자 그룹이 위험한 새로운 유형의 유기체인 “거울 생명체”를 연구하고 잠재적으로 창조하는 것의 위험에 대해 경고하는 편지를 썼다. 생물학적 유기체를 구성하는 DNA, RNA, 리보솜, 단백질은 모두 동일한 키랄성(“손잡이성”이라고도 함)을 가지고 있어서 거울에 비친 자신의 모습과 동등하지 않다(마치 오른손을 어떻게 회전시켜도 왼손과 동일해질 수 없는 것처럼). 그러나 서로 결합하는 단백질의 전체 시스템, DNA 합성과 RNA 번역의 기계, 단백질의 구성과 분해는 모두 이 손잡이성에 의존한다. 과학자들이 반대 손잡이성을 가진 이 생물학적 물질의 버전을 만든다면—그리고 체내에서 더 오래 지속되는 약물과 같은 잠재적 이점이 있다—그것은 극도로 위험할 수 있다. 왜냐하면 왼손잡이 생명체가 복제가 가능한 완전한 유기체 형태로 만들어진다면(이것은 매우 어려울 것이다), 지구상의 생물학적 물질을 분해하는 모든 시스템에 소화 불가능할 가능성이 있기 때문이다—기존의 어떤 효소의 “자물쇠”에도 맞지 않는 “열쇠”를 가지게 될 것이다. 이것은 통제 불가능한 방식으로 증식하여 지구상의 모든 생명체를 밀어낼 수 있으며, 최악의 경우 지구상의 모든 생명을 파괴할 수도 있다는 것을 의미한다.

거울 생명체의 창조와 잠재적 영향 모두에 대해 상당한 과학적 불확실성이 있다. 2024년 편지에는 “거울 박테리아는 향후 1년에서 수십 년 내에 그럴듯하게 만들어질 수 있다”고 결론지은 보고서가 첨부되어 있었는데, 이것은 넓은 범위다. 그러나 충분히 강력한 AI 모델(분명히 말하지만, 오늘날 우리가 가진 어떤 것보다 훨씬 더 유능한)은 그것을 만드는 방법을 훨씬 더 빨리 발견할 수 있으며—실제로 누군가가 그렇게 하도록 도울 수 있다.

내 견해는 비록 이것들이 모호한 위험이고 가능성이 낮아 보일 수 있지만, 결과의 규모가 너무 커서 AI 시스템의 일급 위험으로 진지하게 받아들여야 한다는 것이다.

회의론자들은 LLM으로 인한 이러한 생물학적 위험의 심각성에 대해 여러 이의를 제기했는데, 나는 동의하지 않지만 다룰 가치가 있다. 대부분은 AI 기술의 지수적 발전 속도를 인식하지 못하는 것에서 비롯된다. 우리가 2023년에 LLM의 생물학적 위험에 대해 처음 이야기하기 시작했을 때, 회의론자들은 필요한 모든 정보가 구글에서 이용 가능하며 LLM은 이것 이상으로 아무것도 추가하지 않는다고 말했다. 구글이 필요한 모든 정보를 제공할 수 있다는 것은 결코 사실이 아니었다: 유전체는 자유롭게 이용 가능하지만, 위에서 말했듯이 특정 핵심 단계와 엄청난 양의 실질적인 노하우는 그런 방식으로 얻을 수 없다. 그러나 또한 2023년 말까지 LLM은 일부 과정의 단계에 대해 구글이 제공할 수 있는 것 이상의 정보를 분명히 제공하고 있었다.

이후 회의론자들은 LLM이 처음부터 끝까지 유용하지 않으며, 단지 이론적 정보를 제공하는 것이 아니라 생물무기 획득에는 도움이 되지 않는다는 반박으로 후퇴했다. 2025년 중반 현재, 우리의 측정에 따르면 LLM은 이미 여러 관련 분야에서 상당한 향상을 제공하고 있을 수 있으며, 아마도 성공 가능성을 두세 배로 높이고 있다. 이로 인해 우리는 Claude Opus 4(및 후속 Sonnet 4.5, Opus 4.1, Opus 4.5 모델)가 책임 있는 확장 정책(Responsible Scaling Policy) 프레임워크의 AI 안전 레벨 3 보호 하에 출시되어야 한다고 결정하게 되었고, 이 위험에 대한 안전장치를 구현하게 되었다(이에 대해서는 나중에 더 설명한다). 우리는 모델이 안전장치 없이 배포될 경우 STEM 학위를 가지고 있지만 특별히 생물학 학위는 없는 사람이 생물무기를 생산하는 전체 과정을 거치는 데 유용할 수 있는 지점에 접근하고 있다고 믿는다.

또 다른 반박은 사회가 생물무기 생산을 차단하기 위해 AI와 무관한 다른 조치를 취할 수 있다는 것이다. 가장 두드러지게, 유전자 합성 산업은 주문에 따라 생물학적 표본을 만들며, 주문에 병원체가 포함되어 있지 않은지 확인하기 위해 공급자가 주문을 심사하도록 요구하는 연방 규정이 없다. MIT 연구에 따르면 38개 공급자 중 36개가 1918년 독감의 서열이 포함된 주문을 이행했다. 나는 AI 기반 생물학적 위험과 생물학적 위험 전반을 줄이기 위해 개인이 병원체를 무기화하는 것을 더 어렵게 만드는 의무적인 유전자 합성 심사를 지지한다. 그러나 이것은 오늘날 우리가 가지고 있는 것이 아니다. 또한 이것은 위험을 줄이는 하나의 도구에 불과할 것이다; AI 시스템에 대한 가드레일을 보완하는 것이지 대체물이 아니다.

가장 좋은 반박은 내가 거의 본 적이 없는 것이다: 모델이 원칙적으로 유용한 것과 악의적 행위자가 실제로 그것을 사용하려는 성향 사이에 격차가 있다는 것이다. 대부분의 개인 악의적 행위자는 정신적으로 불안정한 개인이므로, 거의 정의상, 그들의 행동은 예측하기 어렵고 합리성을 따르지 않는다—그리고 AI가 많은 사람을 죽이는 것을 훨씬 쉽게 만드는 것으로부터 가장 많은 혜택을 받았을 수 있는 것은 바로 이러한 악의적 행위자들, 기술이 없는 자들이다.[24] 폭력적 공격 유형이 가능하다고 해서 누군가가 그것을 하기로 결정할 것이라는 의미는 아니다. 아마도 생물학적 공격은 가해자를 감염시킬 가능성이 상당히 높고, 많은 폭력적인 개인이나 집단이 가진 군사 스타일의 판타지를 충족시키지 못하며, 특정 사람들을 선택적으로 표적으로 삼기 어렵기 때문에 매력적이지 않을 것이다. 또한 AI가 안내해 주더라도 몇 달이 걸리는 과정을 거치는 것이 대부분의 정신적으로 불안정한 개인이 단순히 갖추지 못한 인내심을 수반할 수도 있다. 우리는 단순히 운이 좋아서 동기와 능력이 실제로는 적절한 방식으로 결합되지 않을 수도 있다.

그러나 이것은 의존하기에 매우 허약한 보호처럼 보인다. 정신적으로 불안정한 외톨이들의 동기는 어떤 이유로든 또는 아무 이유 없이 바뀔 수 있으며, 실제로 이미 공격에 LLM이 사용된 사례가 있다(생물학은 아니지만). 정신적으로 불안정한 외톨이에 대한 초점은 또한 이념적으로 동기 부여된 테러리스트를 무시하는데, 그들은 종종 많은 시간과 노력을 기꺼이 투자한다(예를 들어, 9/11 납치범들). 가능한 한 많은 사람을 죽이고 싶어 하는 것은 조만간 나타날 가능성이 있는 동기이며, 불행히도 생물무기를 방법으로 제안한다. 이 동기가 극히 드물더라도 단 한 번만 실현되면 된다. 그리고 생물학이 (점점 더 AI 자체에 의해 주도되어) 발전함에 따라, 더 선택적인 공격(예를 들어, 특정 혈통을 가진 사람들을 대상으로 한)을 수행하는 것도 가능해질 수 있으며, 이것은 또 다른 매우 소름 끼치는 가능한 동기를 추가한다.

나는 생물학적 공격이 널리 가능해지는 순간 반드시 실행될 것이라고 생각하지 않는다—사실, 나는 그 반대에 베팅할 것이다. 그러나 수백만 명의 사람들과 몇 년의 시간을 합산하면, 주요 공격의 심각한 위험이 있으며, 그 결과가 너무 심각할 것이므로(잠재적으로 수백만 명 이상의 사상자) 우리는 그것을 방지하기 위해 진지한 조치를 취하는 것 외에는 선택의 여지가 없다고 믿는다.

방어

이제 이러한 위험에 대해 어떻게 방어할 것인지를 논의해 보자. 여기서 나는 우리가 할 수 있는 세 가지를 본다. 첫째, AI 회사들은 생물무기 생산을 돕는 것을 방지하기 위해 모델에 가드레일을 설치할 수 있다. Anthropic은 이것을 매우 적극적으로 수행하고 있다. Claude의 헌법은 대부분 고수준 원칙과 가치에 초점을 맞추고 있지만, 소수의 특정한 확고한 금지 사항이 있으며, 그 중 하나는 생물학적(또는 화학적, 핵, 방사능) 무기 생산을 돕는 것과 관련이 있다. 그러나 모든 모델은 탈옥될 수 있으므로, 두 번째 방어선으로 우리는 (우리의 테스트 결과 모델이 위험을 야기하기 시작할 수 있는 임계값에 근접하기 시작한 2025년 중반 이후) 생물무기 관련 출력을 구체적으로 감지하고 차단하는 분류기를 구현했다. 우리는 정기적으로 이러한 분류기를 업그레이드하고 개선하며, 일반적으로 정교한 적대적 공격에도 매우 견고하다는 것을 발견했다.[25] 이러한 분류기는 모델을 서비스하는 비용을 측정 가능하게 증가시키며(일부 모델에서는 총 추론 비용의 거의 5%에 해당), 따라서 마진을 줄이지만, 우리는 그것을 사용하는 것이 옳은 일이라고 느낀다.

다행히도 일부 다른 AI 회사들도 분류기를 구현했다. 그러나 모든 회사가 그런 것은 아니며, 회사들이 분류기를 유지하도록 요구하는 것도 없다. 나는 시간이 지남에 따라 회사들이 분류기를 제거하여 비용을 낮추는 배반을 할 수 있는 죄수의 딜레마가 있을 수 있다고 우려한다. 이것은 다시 한 번 Anthropic이나 다른 단일 회사의 자발적인 행동만으로는 해결할 수 없는 고전적인 부정적 외부효과 문제다.[26] 자발적인 산업 표준이 도움이 될 수 있고, AI 보안 기관과 제3자 평가자가 수행하는 유형의 제3자 평가와 검증도 마찬가지다.

그러나 궁극적으로 방어에는 정부 조치가 필요할 수 있으며, 이것이 우리가 할 수 있는 두 번째 일이다. 여기서 내 견해는 자율성 위험을 다루는 것과 같다: 우리는 투명성 요구사항으로 시작해야 한다.[27] 이것은 사회가 경제 활동을 과도하게 방해하지 않으면서 위험을 측정하고, 모니터링하고, 집단적으로 방어하는 데 도움이 된다. 그런 다음, 더 명확한 위험 임계값에 도달하면, 이러한 위험을 더 정밀하게 표적으로 하고 부수적 피해 가능성이 낮은 입법을 만들 수 있다. 생물무기의 특정 사례에서, 나는 실제로 그러한 표적화된 입법의 시기가 곧 다가오고 있다고 생각한다—Anthropic과 다른 회사들은 생물학적 위험의 본질과 이에 대해 방어하기 위해 회사들에게 요구하는 것이 합리적인 것에 대해 점점 더 많이 배우고 있다. 이러한 위험에 완전히 대응하려면 지정학적 적대국을 포함하여 국제적으로 협력해야 할 수도 있지만, 생물무기 개발을 금지하는 조약에 선례가 있다. 나는 일반적으로 AI에 대한 대부분의 국제 협력에 회의적이지만, 이것은 글로벌 자제를 달성할 수 있는 가능성이 있는 좁은 분야일 수 있다. 독재 정권조차도 대규모 생물 테러 공격을 원하지 않는다.

마지막으로, 우리가 취할 수 있는 세 번째 대응책은 생물학적 공격 자체에 대한 방어를 개발하려고 노력하는 것이다. 이것은 조기 탐지를 위한 모니터링과 추적, 공기 정화 연구개발 투자(원거리 자외선(far-UVC) 소독 등), 공격에 대응하고 적응할 수 있는 신속한 백신 개발, 더 나은 개인 보호 장비(PPE)[28], 그리고 가장 가능성 높은 일부 생물학적 병원체에 대한 치료제나 백신을 포함할 수 있다. 특정 바이러스나 변종에 대응하도록 설계할 수 있는 mRNA 백신은 여기서 가능한 것의 초기 예다. Anthropic은 이 문제에 대해 생명공학 및 제약 회사와 협력하게 되어 기쁘다. 그러나 불행히도 방어 측면에 대한 우리의 기대는 제한되어야 한다고 생각한다. 생물학에는 공격과 방어 사이의 비대칭성이 있는데, 병원체가 스스로 빠르게 확산되는 반면 방어는 대응하여 많은 사람들에게 걸쳐 탐지, 백신 접종, 치료를 매우 빠르게 조직해야 하기 때문이다. 대응이 번개처럼 빠르지 않으면(드물게 그렇다), 대응이 가능해지기 전에 피해의 대부분이 발생할 것이다. 미래의 기술 발전이 이 균형을 방어에 유리하게 바꿀 수 있다는 것은 상상할 수 있으며(그리고 우리는 확실히 그러한 기술 발전을 개발하기 위해 AI를 사용해야 한다), 그때까지 예방적 안전장치가 우리의 주요 방어선이 될 것이다.

여기서 사이버 공격에 대해 간략히 언급할 가치가 있다. 생물학적 공격과 달리 AI 주도 사이버 공격은 실제로 발생했으며, 대규모 공격과 국가 후원 첩보 활동까지 포함한다. 우리는 이러한 공격이 모델이 빠르게 발전함에 따라 사이버 공격이 수행되는 주요 방식이 될 때까지 더욱 유능해질 것으로 예상한다. 나는 AI 주도 사이버 공격이 전 세계 컴퓨터 시스템의 무결성에 대한 심각하고 전례 없는 위협이 될 것으로 예상하며, Anthropic은 이러한 공격을 차단하고 궁극적으로 안정적으로 방지하기 위해 매우 열심히 일하고 있다. 내가 사이버 공격에 생물학만큼 초점을 맞추지 않은 이유는 두 가지다. 첫째, 사이버 공격은 생물학적 공격만큼 대규모로 사람을 죽일 가능성이 훨씬 낮다. 둘째, 사이버 영역에서는 공격-방어 균형이 더 다루기 쉬울 수 있다. 적절히 투자한다면 방어가 AI 공격을 따라잡고, 이상적으로는 앞설 수 있다는 희망이 적어도 있기 때문이다.

생물학이 현재 가장 심각한 공격 벡터이지만, 다른 많은 벡터가 있으며 더 위험한 것이 나타날 가능성이 있다. 일반적인 원칙은 대응책 없이는 AI가 점점 더 큰 규모로 파괴적 활동의 장벽을 지속적으로 낮출 가능성이 높으며, 인류는 이 위협에 대해 진지한 대응이 필요하다는 것이다.

• • •

3. “혐오스러운 장치”

권력 장악을 위한 오용

앞선 섹션에서는 개인이나 소규모 조직이 “데이터센터 속 천재들의 나라”의 일부를 빼돌려 대규모 파괴를 일으킬 위험을 다뤘다. 하지만 우리는 AI가 권력을 휘두르거나 장악하는 데 오용되는 것에 대해서도 걱정해야 한다—아마도 훨씬 더 심각하게. 이는 대개 이미 권력 기반을 갖춘 대형 행위자들에 의해 이루어질 가능성이 높다.[29]

Machines of Loving Grace에서 나는 권위주의 정부가 강력한 AI를 사용해 시민들을 감시하거나 억압하는데, 그 방식이 개혁하거나 전복하기 극도로 어려울 수 있다는 가능성을 논의했다. 현재의 독재 정권도 억압을 실행하는 인간들에게 한계가 있다—아무리 명령을 받아도 사람이 얼마나 비인간적으로 행동할 수 있는지에는 한계가 있기 때문이다. 그러나 AI로 무장한 독재 정권은 그런 한계가 없을 것이다.

더 나쁜 것은, 국가들이 AI에서의 우위를 이용해 다른 나라들에 대한 권력을 얻을 수도 있다는 점이다. 만약 “천재들의 나라” 전체가 단일 국가의 군사 기구에 의해 소유되고 통제되는데 다른 나라들은 동등한 역량을 갖추지 못한다면, 그들이 어떻게 자신을 방어할 수 있을지 상상하기 어렵다. 마치 쥐가 인간과 싸우는 것처럼, 매번 지략에서 압도당할 것이다. 이 두 가지 우려를 결합하면 전 지구적 전체주의 독재라는 경악스러운 가능성에 도달한다. 분명히, 이 결과를 막는 것이 우리의 가장 높은 우선순위 중 하나여야 한다.

AI가 독재를 가능하게 하거나 고착시키거나 확장할 수 있는 방법은 많지만, 내가 가장 우려하는 몇 가지를 나열하겠다. 이러한 응용 중 일부는 정당한 방어 용도가 있으며, 나는 그것들을 절대적인 의미에서 반대하는 것이 아니다. 그럼에도 불구하고 이것들이 구조적으로 독재 정권에 유리하게 작용하는 경향이 있다는 점이 우려된다:

완전 자율 무기. 강력한 AI에 의해 국지적으로 통제되고, 더욱 강력한 AI에 의해 전 세계적으로 전략적 조율이 이루어지는 수백만 또는 수십억 대의 완전 자동화된 무장 드론 군단은 무적의 군대가 될 수 있다. 이런 군단은 세계 어느 군대도 패배시킬 수 있고, 모든 시민을 따라다니며 국내의 반대 의견을 억압할 수 있다. 러시아-우크라이나 전쟁의 전개는 드론 전쟁이 이미 우리 곁에 와 있음을 경고해야 한다(아직 완전 자율은 아니며, 강력한 AI로 가능해질 것의 극히 일부에 불과하지만). 강력한 AI로부터의 R&D는 한 나라의 드론을 다른 나라의 것보다 훨씬 우월하게 만들고, 제조 속도를 높이고, 전자 공격에 더 강하게 만들고, 기동성을 향상시키는 등의 일을 할 수 있다. 물론 이 무기들은 민주주의 방어에도 합법적인 용도가 있다: 우크라이나 방어의 핵심이었고 대만 방어의 핵심이 될 것이다. 하지만 이것은 휘두르기 위험한 무기다. 독재 정권의 손에 들어가는 것도 걱정해야 하지만, 너무나 강력하고 책임 소재가 불분명하기 때문에 민주 정부가 권력을 장악하기 위해 자국민에게 이를 돌릴 위험도 크게 증가한다는 점 역시 걱정해야 한다.
AI 감시. 충분히 강력한 AI는 세계의 모든 컴퓨터 시스템을 침해하는 데 사용될 수 있을 것이다.[30] 또한 이렇게 얻은 접근권을 이용해 세계의 모든 전자 통신을 읽고 그 의미를 파악할 수 있을 것이다(녹음 장치를 만들거나 탈취할 수 있다면 세계의 모든 대면 대화까지도). 정부에 반대하는 사람들의 완전한 목록을 만들어내는 것이 가능해질 수 있다—명시적으로 반대 의사를 표현한 적이 없는 사람들까지 포함해서 말이다. 수백만 명의 수십억 건의 대화를 살펴보는 강력한 AI는 여론을 측정하고, 형성 중인 불충의 움직임을 감지하고, 그것이 자라기 전에 짓밟을 수 있다. 이것은 중국 공산당 치하에서도 오늘날 볼 수 없는 규모의 진정한 판옵티콘(전방위 감시체계)을 부과하는 것으로 이어질 수 있다.
AI 선전. 오늘날의 “AI 정신증”과 “AI 여자친구” 현상은 현재 수준의 지능에서도 AI 모델이 사람들에게 강력한 심리적 영향을 미칠 수 있음을 시사한다. 이 모델들의 훨씬 더 강력한 버전—사람들의 일상에 훨씬 더 깊이 스며들어 개인을 인식하고, 수개월 또는 수년에 걸쳐 그들을 분석하며 영향을 미칠 수 있는—은 본질적으로 많은(대부분의?) 사람들을 원하는 이념이나 태도로 세뇌시킬 수 있을 것이며, 양심 없는 지도자가 대부분의 국민이 반발할 수준의 억압에도 불구하고 충성을 확보하고 반대 의견을 억압하는 데 사용할 수 있다. 오늘날 사람들은 예를 들어 아이들을 대상으로 한 중국 공산당 선전 도구로서 TikTok의 잠재적 영향력에 대해 많이 걱정한다. 나도 그것을 걱정하지만, 수년에 걸쳐 당신을 알아가고 축적된 정보를 활용해 당신의 모든 의견을 형성하는 개인화된 AI 에이전트는 이보다 극적으로 더 강력할 것이다.
전략적 의사결정. 데이터센터 속 천재들의 나라는 국가, 집단, 또는 개인에게 지정학적 전략에 대해 조언하는 데 사용될 수 있다—우리가 “가상의 비스마르크”라고 부를 수 있는 것이다. 그것은 위에서 언급한 세 가지 권력 장악 전략을 최적화할 수 있고, 아마도 내가 생각하지 못한 많은 다른 전략도 개발할 수 있다(하지만 천재들의 나라는 할 수 있을 것이다). 외교, 군사 전략, R&D, 경제 전략, 그리고 많은 다른 분야들 모두 강력한 AI에 의해 효과가 상당히 증가할 가능성이 높다. 이 기술들 중 많은 것이 민주주의에 정당하게 도움이 될 것이다—우리는 민주주의가 독재에 맞서 자신을 방어하기 위한 최선의 전략에 접근하기를 원한다—하지만 누구의 손에 있든 오용의 가능성은 여전히 남아 있다.

무엇을 걱정하는지 설명했으니, 누구를 걱정하는지로 넘어가자. 나는 AI에 가장 많이 접근할 수 있거나, 가장 많은 정치적 권력을 가진 위치에서 출발하거나, 억압의 역사가 있는 존재들을 걱정한다. 심각성 순서로, 나는 다음을 걱정한다:

중국 공산당. 중국은 AI 역량에서 미국에 이어 2위이며, 그 역량에서 미국을 추월할 가능성이 가장 높은 나라다. 그들의 정부는 현재 독재이며 첨단 기술 감시 국가를 운영하고 있다. 이미 AI 기반 감시를 배치했고(위구르인 탄압 포함), TikTok을 통한 알고리즘 선전을 사용하는 것으로 알려져 있다(그 외 많은 국제 선전 노력에 더해). 단연코, 그들이 AI 기반 전체주의적 악몽으로 가는 가장 명확한 경로다. 그것은 심지어 중국 내에서, 그리고 중국 공산당이 감시 기술을 수출하는 다른 독재 국가들 내에서 기본 결과일 수도 있다. 나는 중국 공산당이 AI에서 선두를 차지하는 위협과 그것을 막아야 할 존립적 명령에 대해 자주 썼다. 이것이 그 이유다. 분명히 말하지만, 나는 특별히 그들에 대한 적대감에서 중국을 지목하는 것이 아니다—그들은 단순히 AI 기량, 독재 정부, 그리고 첨단 기술 감시 국가를 가장 많이 결합한 나라일 뿐이다. 어떤 면에서는 중국 공산당의 AI 기반 억압으로 가장 고통받을 사람들은 중국 국민들 자신이며, 그들은 자국 정부의 행동에 발언권이 없다. 나는 중국 국민을 깊이 존경하고 중국 내 많은 용감한 반체제 인사들과 그들의 자유를 위한 투쟁을 지지한다.
AI에서 경쟁력 있는 민주주의 국가들. 위에서 썼듯이, 민주주의 국가들은 일부 AI 기반 군사 및 지정학적 도구에 정당한 이해관계가 있다. 왜냐하면 민주 정부가 독재 정권에 의한 이러한 도구의 사용에 대항할 최선의 기회를 제공하기 때문이다. 대체로 나는 AI 시대에 독재를 물리치는 데 필요한 도구로 민주주의를 무장시키는 것을 지지한다—단순히 다른 방법이 없다고 생각한다. 그러나 민주 정부 스스로에 의한 이러한 기술의 남용 가능성을 무시할 수는 없다. 민주주의 국가들은 보통 군대와 정보 기관이 자국민에게 내부적으로 사용되는 것을 막는 안전장치를 가지고 있다.[31] 하지만 AI 도구는 작동에 필요한 인원이 매우 적기 때문에, 이러한 안전장치와 그것을 뒷받침하는 규범을 우회할 가능성이 있다. 일부 민주주의 국가에서 이러한 안전장치 중 일부가 이미 점진적으로 약화되고 있다는 점도 주목할 가치가 있다. 따라서 우리는 민주주의를 AI로 무장시키되, 신중하게 그리고 한계 내에서 해야 한다: 그들은 독재와 싸우는 데 필요한 면역 체계이지만, 면역 체계처럼 우리에게 돌아서서 스스로 위협이 될 위험이 어느 정도 있다.
대규모 데이터센터를 보유한 비민주 국가들. 중국을 제외하면, 덜 민주적인 거버넌스를 가진 대부분의 국가들은 최전선 AI 모델을 생산하는 기업을 보유하고 있지 않다는 점에서 선도적인 AI 플레이어가 아니다. 따라서 그들은 여전히 주요 우려 대상인 중국 공산당과는 근본적으로 다르고 더 적은 위험을 제기한다(대부분은 또한 덜 억압적이며, 북한처럼 더 억압적인 나라들은 의미 있는 AI 산업이 전혀 없다). 그러나 이들 국가 중 일부는 대규모 데이터센터를 보유하고 있다(종종 민주주의 국가에서 운영되는 기업의 확장 사업의 일환으로). 이는 대규모로 최전선 AI를 실행하는 데 사용될 수 있다(비록 이것이 최전선을 밀어붙이는 능력을 부여하지는 않지만). 이와 관련된 어느 정도의 위험이 있다—이 정부들은 원칙적으로 데이터센터를 수용하고 그 안의 AI 나라를 자신들의 목적에 사용할 수 있다. 나는 AI를 직접 개발하는 중국 같은 나라들에 비하면 이것을 덜 걱정하지만, 염두에 두어야 할 위험이다.[32]
AI 기업들. AI 기업의 CEO로서 이것을 말하기가 다소 어색하지만, 다음 단계의 위험은 실제로 AI 기업들 자체라고 생각한다. AI 기업들은 대규모 데이터센터를 통제하고, 최전선 모델을 훈련시키며, 그 모델을 사용하는 방법에 대한 최고의 전문 지식을 갖고 있고, 어떤 경우에는 수천만 또는 수억 명의 사용자와 일상적으로 접촉하며 영향을 미칠 가능성을 가지고 있다. 그들에게 주로 부족한 것은 국가의 정당성과 기반 시설이므로, AI 독재의 도구를 구축하는 데 필요한 많은 것들은 AI 기업이 하기에는 불법이거나, 적어도 극도로 의심스러울 것이다. 그러나 그중 일부는 불가능하지 않다: 예를 들어, 그들은 AI 제품을 사용해 대규모 소비자 사용자 기반을 세뇌할 수 있으며, 대중은 이것이 나타내는 위험에 경각심을 가져야 한다. AI 기업들의 거버넌스는 많은 면밀한 검토를 받을 자격이 있다고 생각한다.

이러한 위협의 심각성에 반대하는 여러 논거가 가능하며, 나는 AI 기반 권위주의가 나를 공포에 떨게 하기 때문에 그것들을 믿고 싶다. 이러한 논거 중 일부를 검토하고 그에 대응해 볼 가치가 있다.

첫째, 일부 사람들은 특히 군사적 정복을 위한 AI 자율 무기 사용에 대항하여 핵 억지력에 믿음을 둘 수 있다. 누군가 당신에게 이 무기들을 사용하겠다고 위협하면, 당신은 언제나 핵 대응으로 위협할 수 있다. 내 우려는 “천재들의 나라”에 맞서 핵 억지력이 여전히 유효할지 확신할 수 없다는 것이다. 강력한 AI라면 핵 잠수함을 탐지하고 타격하는 방법을 찾아낼 수 있다. 핵무기 시설 운영자들을 대상으로 영향 공작을 벌일 수도 있고, 핵 발사 감지 위성에 사이버 공격을 가할 수도 있다.[33] 대안적으로, AI 감시와 AI 선전만으로 국가를 점령하는 것이 가능할 수 있으며, 무슨 일이 벌어지고 있는지 명확하고 핵 대응이 적절한 시점을 결코 제시하지 않을 수도 있다. 어쩌면 이러한 것들이 실현 불가능하고 핵 억지력이 여전히 효과적일 수도 있지만, 위험을 감수하기에는 이해관계가 너무 높아 보인다.[34]

두 번째 가능한 반론은 이러한 독재의 도구들에 대해 우리가 취할 수 있는 대응책이 있을 수 있다는 것이다. 우리는 드론을 우리 자신의 드론으로 대응하고, 사이버 방어는 사이버 공격과 함께 개선될 것이며, 사람들에게 선전에 대한 면역을 부여하는 방법이 있을 수 있다는 등. 내 대답은 이러한 방어는 비교할 만큼 강력한 AI가 있어야만 가능할 것이라는 점이다. 데이터센터 속에 비교할 만큼 똑똑하고 수가 많은 천재들의 나라라는 대항 세력이 없다면, 드론의 품질이나 양에서 맞서거나, 사이버 방어가 사이버 공격을 능가하는 것은 가능하지 않을 것이다. 따라서 대응책의 문제는 강력한 AI에서의 세력 균형 문제로 귀결된다. 여기서 내가 우려하는 것은 강력한 AI의 재귀적 또는 자기 강화적 속성이다. 각 세대의 AI가 다음 세대를 설계하고 훈련하는 데 쓰일 수 있기 때문이다(이 에세이 서두에서 논의했듯이). 이것은 폭주하는 우위의 위험으로 이어지는데, 현재 강력한 AI의 선두 주자가 선두를 늘릴 수 있고 따라잡기가 어려워질 수 있다. 우리는 권위주의 국가가 이 루프에 먼저 도달하지 않도록 해야 한다.

더 나아가, 세력 균형이 달성되더라도, 1984에서처럼 세계가 독재적 세력권으로 분할될 위험은 여전히 있다. 여러 경쟁 세력이 각자 강력한 AI 모델을 보유하고, 어느 쪽도 다른 쪽을 압도할 수 없더라도, 각 세력은 여전히 자국민을 내부적으로 억압할 수 있으며, 전복하기가 매우 어려울 것이다(자국 국민에게는 자신을 방어할 강력한 AI가 없기 때문에). 따라서 단일 국가가 세계를 장악하는 것으로 이어지지 않더라도 AI 기반 독재를 막는 것이 중요하다.

방어책

이 광범위한 독재 도구와 잠재적 위협 행위자들에 대해 어떻게 방어할 것인가? 이전 섹션에서처럼, 우리가 할 수 있는 몇 가지가 있다고 생각한다. 첫째, 우리는 절대로 중국 공산당에 칩, 칩 제조 도구, 또는 데이터센터를 판매해서는 안 된다. 칩과 칩 제조 장비는 강력한 AI 개발의 가장 큰 병목이며, 이를 차단하는 것은 간단하지만 극도로 효과적인 조치로, 아마도 우리가 취할 수 있는 가장 중요한 단일 행동일 것이다. AI 전체주의 국가를 건설하고 잠재적으로 군사적으로 우리를 정복할 도구를 중국 공산당에 판매하는 것은 말이 되지 않는다. 그러한 판매를 정당화하기 위해 “우리의 기술 스택을 전 세계에 퍼뜨리면” 일반적이고 불특정한 경제 전쟁에서 “미국이 이긴다”는 식의 복잡한 논거들이 제시된다. 내 생각에, 이것은 북한에 핵무기를 판매하고 미사일 케이스가 보잉이 만들었으니 미국이 “이기고 있다”고 자랑하는 것과 같다. 중국은 대량의 최전선 칩을 생산하는 능력에서 미국보다 몇 년 뒤처져 있으며, 데이터센터 속 천재들의 나라를 구축하는 결정적 시기는 아마도 앞으로 그 몇 년 안에 있을 것이다.[35] 이 결정적 시기에 그들의 AI 산업을 크게 가속화할 이유가 없다.

둘째, 민주주의가 독재에 저항할 수 있도록 AI를 사용해 힘을 실어주는 것이 합리적이다. 이것이 앤트로픽이 미국과 민주적 동맹국의 정보 및 국방 커뮤니티에 AI를 제공하는 것을 중요하게 여기는 이유다. 우크라이나와 (사이버 공격을 통해) 대만처럼 공격받고 있는 민주주의를 방어하는 것은 특히 높은 우선순위로 보이며, 민주주의가 정보 기관을 사용해 내부에서 독재를 교란하고 약화시키는 데 힘을 실어주는 것도 마찬가지다. 어느 수준에서 독재적 위협에 대응하는 유일한 방법은 군사적으로 맞서고 능가하는 것이다. 미국과 민주적 동맹국의 연합이 강력한 AI에서 우위를 달성한다면, 독재에 대항해 스스로를 방어할 뿐만 아니라 그들을 봉쇄하고 AI 전체주의적 남용을 제한할 위치에 있게 될 것이다.

셋째, 민주주의 내에서 AI 남용에 대해 엄격한 선을 그어야 한다. 정부가 AI로 무엇을 하도록 허용할지에 한계가 있어야 하며, 그래야 그들이 권력을 장악하거나 자국민을 억압하지 않을 것이다. 내가 생각해 낸 공식은 우리를 권위주의적 적대국과 더 비슷하게 만들 방식을 제외하고 모든 방식으로 국가 방위에 AI를 사용해야 한다는 것이다.

선은 어디에 그어야 하는가? 이 섹션 시작 부분의 목록에서, 두 항목—국내 대량 감시와 대량 선전에 AI를 사용하는 것—은 내게 명백한 금지선이며 전적으로 부당해 보인다. 일부는 (적어도 미국에서는) 아무것도 할 필요가 없다고 주장할 수 있다. 왜냐하면 국내 대량 감시는 이미 수정헌법 제4조에 의해 불법이기 때문이다. 그러나 AI의 급속한 발전은 기존 법적 틀이 다루기에 적합하지 않은 상황을 만들 수 있다. 예를 들어, 미국 정부가 모든 공공 대화(예: 사람들이 길모퉁이에서 서로에게 하는 말)를 대규모로 녹음하는 것은 아마도 위헌이 아닐 것이며, 이전에는 이 양의 정보를 분류하기 어려웠겠지만, AI를 사용하면 모든 것을 전사하고, 해석하고, 삼각 측량해 많은 또는 대부분의 시민의 태도와 충성도에 대한 그림을 만들 수 있다. 나는 AI 기반 남용에 대한 더 강력한 보호 장치를 부과하는 시민 자유 중심 법률(또는 아마도 헌법 개정까지도)을 지지할 것이다.

다른 두 항목—완전 자율 무기와 전략적 의사결정을 위한 AI—은 민주주의를 방어하는 데 합법적인 용도가 있으면서도 남용되기 쉽기 때문에 선을 그리기가 더 어렵다. 여기서 내가 보증하는 것은 남용을 방지하기 위한 보호 장치와 결합된 극도의 주의와 면밀한 검토라고 생각한다. 내 주된 두려움은 “버튼에 손가락을 올린” 사람 수가 너무 적어서, 한 명 또는 소수의 사람들이 본질적으로 드론 군대를 운영하는 데 다른 인간의 협력 없이 명령을 수행할 수 있게 되는 것이다. AI 시스템이 더 강력해짐에 따라, 오용되지 않도록 보장하기 위한 더 직접적이고 즉각적인 감독 메커니즘이 필요할 수 있으며, 아마도 행정부 이외의 정부 부처가 관여할 수도 있다. 특히 완전 자율 무기에 대해서는 큰 신중함으로 접근해야 한다고 생각하며,[36] 적절한 보호 장치 없이 그 사용에 서두르지 말아야 한다.

넷째, 민주주의 내에서 AI 남용에 대한 엄격한 선을 그은 후, 그 선례를 사용해 강력한 AI의 최악의 남용에 대한 국제적 금기를 만들어야 한다. 나는 현재 정치적 조류가 국제 협력과 국제 규범에 반하는 방향으로 흘렀다는 것을 인식하지만, 이것은 우리가 절실히 필요로 하는 경우다. 세계는 독재자의 손에 든 강력한 AI의 어두운 잠재력을 이해하고, AI의 특정 사용이 그들의 자유를 영구히 훔쳐 탈출할 수 없는 전체주의 국가를 부과하려는 시도와 같다는 것을 인식해야 한다. 나는 심지어 어떤 경우에는, 강력한 AI를 사용한 대규모 감시, 강력한 AI를 사용한 대량 선전, 그리고 완전 자율 무기의 특정 유형의 공격적 사용이 인류에 대한 범죄로 간주되어야 한다고 주장하고 싶다. 더 일반적으로, AI 기반 전체주의와 그 모든 도구와 수단에 대한 강력한 규범이 절실히 필요하다.

이 입장의 더 강력한 버전도 가능한데, AI 기반 전체주의의 가능성이 너무 어둡기 때문에, 독재는 강력한 AI 이후 시대에 사람들이 받아들일 수 있는 정부 형태가 아니라는 것이다. 산업혁명이 봉건제를 역사의 뒤안길로 보낸 것처럼, AI 시대에는 민주주의만이 인류의 좋은 미래를 가능하게 하는 유일한 정부 형태일 수 있다. 이 민주주의는, Machines of Loving Grace에서 논의한 대로, AI에 의해 개선되고 활력을 되찾은 형태여야 한다.

다섯째이자 마지막으로, AI 기업들은 주의 깊게 감시되어야 하며, 정부와의 연결도 마찬가지다. 이 연결은 필요하지만 한계와 경계가 있어야 한다. 강력한 AI에 구현된 순수한 역량의 양이 너무 커서, 주주를 보호하고 사기와 같은 일반적인 남용을 방지하도록 설계된 일반적인 기업 거버넌스는 AI 기업을 거버넌스하는 과업에 부적합할 가능성이 높다. 기업들이 특정 행동을 취하지 않겠다고 공개적으로 약속하는 것(아마도 기업 거버넌스의 일부로서도)에 가치가 있을 수 있다. 예를 들어, 군사 하드웨어를 비밀리에 구축하거나 비축하지 않기, 책임 소재 없이 개인이 대량의 컴퓨팅 자원을 사용하지 않기, 또는 AI 제품을 자신들에게 유리하게 여론을 조작하는 선전으로 사용하지 않기 등이다.

여기서의 위험은 여러 방향에서 오며, 일부 방향은 서로 긴장 관계에 있다. 유일한 상수는 우리가 모든 이에 대해 책임, 규범, 보호 장치를 추구해야 한다는 것이며, “선한” 행위자들이 “악한” 행위자들을 견제하도록 힘을 실어주면서도 말이다.

• • •

4. “자동 피아노”

경제적 격변

앞선 세 개 장은 본질적으로 강력한 AI가 초래하는 보안 위험에 관한 것이었다: AI 자체로 인한 위험, 개인과 소규모 조직의 오용으로 인한 위험, 그리고 국가와 대형 조직의 오용으로 인한 위험. 만약 보안 위험을 제쳐두거나 이미 해결되었다고 가정한다면, 다음 질문은 경제에 관한 것이다. 이토록 놀라운 “인적” 자본의 대량 유입이 경제에 어떤 영향을 미칠까? 분명히 가장 명백한 효과는 경제 성장의 대폭적인 증가다. 과학 연구, 생명의학 혁신, 제조업, 공급망, 금융 시스템 효율성 등 거의 모든 분야에서 발전 속도가 빨라지면서 경제 성장률도 훨씬 높아질 수밖에 없다. Machines of Loving Grace에서 나는 연간 10~20%의 지속적인 GDP 성장률이 가능할 수 있다고 제안했다.

그러나 이것이 양날의 검이라는 점은 명백하다: 그러한 세계에서 기존 인간 대부분의 경제적 전망은 어떨까? 새로운 기술은 종종 노동 시장에 충격을 가져왔고, 과거에 인류는 항상 그 충격에서 회복해왔다. 하지만 이전의 충격에서 회복할 수 있었던 이유가 있다고 생각한다. 그때는 인간 능력의 일부만 영향을 받았고, 새로운 업무로 확장할 여지가 남아 있었기 때문이다. AI는 훨씬 더 광범위하고 훨씬 더 빠른 영향을 미칠 것이며, 따라서 상황을 잘 풀어나가기가 훨씬 더 어려울 것이라고 우려한다.

노동 시장 격변

내가 우려하는 두 가지 구체적인 문제가 있다: 노동 시장 대체와 경제력 집중이다. 첫 번째부터 시작해보자. 이 주제는 내가 2025년에 매우 공개적으로 경고했던 것으로, AI가 경제 성장과 과학 발전을 가속화하는 동시에 향후 15년 내에 모든 초급 화이트칼라 일자리의 절반을 대체할 수 있다고 예측했다. 이 경고는 이 주제에 관한 활발한 논의를 불러일으켰다. 많은 CEO, 기술자, 경제학자들이 동의했지만, 다른 이들은 내가 “노동 총량 오류”에 빠졌으며 노동 시장이 어떻게 작동하는지 모른다고 생각했다. 또 일부는 15년이라는 시간대를 놓치고 내가 AI가 지금 당장 일자리를 대체하고 있다고 주장하는 것으로 오해했다(지금 당장은 그렇지 않을 가능성이 높다는 데 나도 동의한다). 따라서 이러한 오해를 해소하기 위해 내가 왜 노동 대체를 우려하는지 자세히 설명할 필요가 있다.

기준선으로서, 노동 시장이 일반적으로 기술 발전에 어떻게 반응하는지 이해하는 것이 유용하다. 새로운 기술이 등장하면, 처음에는 주어진 인간 직업의 일부분을 더 효율적으로 만든다. 예를 들어, 산업혁명 초기에 개량된 쟁기와 같은 기계는 농부들이 일의 일부 측면에서 더 효율적으로 일할 수 있게 해주었다. 이것은 농부들의 생산성을 향상시켰고, 임금을 높였다.

다음 단계에서는, 탈곡기나 파종기의 발명처럼 농업 일의 일부를 기계가 전적으로 수행할 수 있게 되었다. 이 단계에서 인간은 점점 더 적은 비율의 일을 했지만, 그들이 실제로 수행한 작업은 기계 작업과 상호보완적이기 때문에 점점 더 큰 레버리지를 갖게 되었고, 생산성은 계속 상승했다. 제번스 역설이 설명하듯이, 농부들의 임금과 심지어 농부의 수까지도 계속 증가했다. 기계가 일의 90%를 수행하더라도, 인간은 단순히 자신이 여전히 수행하는 10%를 10배 더 많이 하여, 같은 양의 노동으로 10배의 산출물을 생산할 수 있다.

결국, 현대의 콤바인, 트랙터 및 기타 장비처럼 기계가 거의 모든 것을 수행하게 된다. 이 시점에서 인간 고용으로서의 농업은 정말로 급격히 쇠퇴하기 시작하고, 이것은 잠재적으로 단기적으로 심각한 격변을 일으킨다. 하지만 농업은 인간이 수행할 수 있는 많은 유용한 활동 중 하나일 뿐이므로, 사람들은 결국 공장 기계 조작과 같은 다른 직업으로 전환한다. 농업이 사전적으로 고용의 거대한 비율을 차지했음에도 불구하고 이것은 사실이다. 250년 전, 미국인의 90%가 농장에서 살았고; 유럽에서는 고용의 5060%가 농업이었다. 지금 이 지역들에서 그 비율은 한 자릿수 초반대인데, 이는 근로자들이 산업 일자리로(그리고 나중에는 지식 노동으로) 전환했기 때문이다. 경제는 이전에 노동력의 대부분이 필요했던 일을 노동력의 12%만으로 수행할 수 있게 되어, 나머지 노동력이 점점 더 발전된 산업 사회를 건설하는 데 투입될 수 있게 되었다. 고정된 “노동 총량”은 없으며, 점점 더 적은 것으로 점점 더 많은 것을 할 수 있는 능력이 계속 확장될 뿐이다. 사람들의 임금은 GDP 지수 성장에 맞춰 상승하고, 단기적 격변이 지나면 경제는 완전 고용을 유지한다.

AI도 대략 같은 방식으로 진행될 가능성이 있지만, 나는 그렇지 않을 쪽에 상당히 강하게 배팅하겠다. AI가 다를 것이라고 생각하는 몇 가지 이유가 있다:

속도. AI의 발전 속도는 이전의 기술 혁명보다 훨씬 빠르다. 예를 들어, 지난 2년 동안 AI 모델은 코드 한 줄을 겨우 완성하는 수준에서 모든 또는 거의 모든 코드를 작성하는 수준으로 발전했다—앤트로픽의 엔지니어들을 포함해서 말이다.[37] 곧, AI는 소프트웨어 엔지니어의 전체 업무를 처음부터 끝까지 수행하게 될 수도 있다.[38] 사람들이 이 변화의 속도에 적응하기는 어렵다—주어진 직업이 어떻게 변하는지에 대해서도, 새로운 직업으로 전환해야 하는 필요성에 대해서도 마찬가지다. 심지어 전설적인 프로그래머들조차 점점 더 자신을 “뒤처졌다”고 표현하고 있다. AI 코딩 모델이 점점 더 AI 개발 업무 자체를 가속화하면서 속도는 오히려 더 빨라질 수 있다. 명확히 하자면, 속도 자체가 노동 시장과 고용이 결국 회복되지 않는다는 것을 의미하지는 않는다. 다만 인간과 노동 시장이 반응하고 균형을 찾는 데 느리기 때문에, 단기적 전환이 과거 기술들에 비해 유례없이 고통스러울 것임을 시사한다.
인지 능력의 광범위성. “데이터센터 안의 천재들의 나라”라는 표현이 암시하듯이, AI는 매우 광범위한 인간의 인지 능력을 갖추게 될 것이다—아마도 모든 능력을. 이것은 기계화된 농업, 운송, 심지어 컴퓨터와 같은 이전 기술들과는 매우 다르다.[39] 이것은 사람들이 대체된 직업에서 적합한 유사 직업으로 쉽게 전환하기 어렵게 만든다. 예를 들어, 금융, 컨설팅, 법률의 초급 직위에 필요한 일반적 지적 능력은 특정 지식은 상당히 다르더라도 상당히 유사하다. 이 세 가지 중 하나만 영향을 받는 기술이라면 직원들이 다른 두 가지 가까운 대체재로 전환하거나(또는 대학생들이 전공을 바꾸거나) 할 수 있다. 하지만 세 가지 모두를 한꺼번에(그리고 다른 많은 유사 직업까지) 격변시키면 사람들이 적응하기 더 어려울 수 있다. 게다가, 단지 대부분의 기존 직업이 격변한다는 것만이 아니다. 그 부분은 전에도 일어났다—농업이 고용의 거대한 비율을 차지했음을 상기하라. 하지만 농부들은 이전에는 흔하지 않았던 공장 기계 조작이라는 비교적 유사한 일로 전환할 수 있었다. 반면, AI는 점점 더 인간의 일반적인 인지 프로필과 일치해가고 있으며, 이는 기존 일자리가 자동화되면서 일반적으로 창출될 새로운 일자리에서도 AI가 잘할 것임을 의미한다. 다른 방식으로 표현하면, AI는 특정 인간 직업의 대체재가 아니라 인간 노동 전반을 대체할 수 있는 존재다.
인지 능력에 따른 계층화. 광범위한 업무에 걸쳐, AI는 능력 사다리의 아래에서 위로 발전해 나가는 것처럼 보인다. 예를 들어, 코딩에서 우리 모델은 “평범한 코더” 수준에서 “강한 코더”로, 다시 “매우 강한 코더”로 발전해왔다.[40] 이제 우리는 화이트칼라 업무 전반에서도 같은 진행을 보기 시작했다. 따라서 우리는 특정 기술이나 특정 직종의 사람들(재교육으로 적응할 수 있는)에게 영향을 미치는 대신, AI가 특정 내재적 인지 속성, 즉 낮은 지적 능력—기술과 달리 바꾸기 훨씬 어려운—을 가진 사람들에게 영향을 미치는 상황의 위험에 처해 있다. 이 사람들이 어디로 가고 무엇을 할지가 불분명하며, 나는 그들이 실업 상태이거나 매우 저임금인 “하층 계급”을 형성할 수 있다고 우려한다. 명확히 하자면, 이와 다소 유사한 일이 전에도 있었다—예를 들어, 컴퓨터와 인터넷은 일부 경제학자들에 의해 “기술 편향적 기술 변화”를 대표한다고 여겨진다. 하지만 이 기술 편향은 내가 AI에서 예상하는 것만큼 극단적이지 않았고, 임금 불평등 증가에 기여한 것으로 여겨진다[41]—따라서 이것은 정확히 안심이 되는 선례가 아니다.
빈틈을 메우는 능력. 인간 직업이 새로운 기술에 직면하여 조정되는 방식은 종종 그 직업에 많은 측면이 있고, 새로운 기술이 인간을 직접 대체하는 것처럼 보여도 종종 빈틈이 있다는 것이다. 누군가가 부품을 만드는 기계를 발명하면, 인간은 여전히 기계에 원자재를 투입해야 할 수 있다. 수동으로 부품을 만드는 것의 1%의 노력만 필요하더라도, 인간 근로자는 단순히 100배 더 많은 부품을 만들 수 있다. 하지만 AI는 빠르게 발전하는 기술일 뿐만 아니라 빠르게 적응하는 기술이기도 하다. 모델 출시 때마다 AI 회사들은 모델이 무엇을 잘하고 무엇을 못하는지 신중하게 측정하고, 고객들도 출시 후 그러한 정보를 제공한다. 약점은 현재의 빈틈을 구현하는 작업들을 수집하고 다음 모델을 위해 훈련함으로써 해결될 수 있다. 생성형 AI 초기에 사용자들은 AI 시스템이 특정 약점(예: AI 이미지 모델이 손가락 개수가 틀린 손을 생성하는 것)이 있다는 것을 발견했고, 많은 이들이 이러한 약점이 기술 고유의 것이라고 가정했다. 만약 그렇다면 직업 격변이 제한되었을 것이다. 하지만 거의 모든 그러한 약점은 빠르게—종종 불과 몇 달 안에—해결된다.

일반적인 회의적 시각에 대해 다루어볼 필요가 있다. 첫째, 경제적 확산이 느릴 것이라는 주장이 있다. 기반 기술이 대부분의 인간 노동을 수행할 수 있더라도, 경제 전반에 걸친 실제 적용은 훨씬 느릴 수 있다는 것이다(예를 들어, AI 산업과 거리가 멀고 채택이 느린 산업에서). 기술의 느린 확산은 분명히 실재한다—나는 다양한 기업의 사람들과 이야기하고, AI 채택에 몇 년이 걸릴 곳들이 있다. 그래서 초급 화이트칼라 일자리의 50%가 격변한다는 내 예측의 시간대가 1~5년인 것이다. 비록 내가 강력한 AI(기술적으로 말하면 초급뿐 아니라 대부분 또는 모든 직업을 수행하기에 충분한)가 5년보다 훨씬 빨리 올 것으로 예상하지만. 하지만 확산 효과는 단지 시간을 벌어줄 뿐이다. 그리고 나는 그것이 사람들이 예측하는 만큼 느릴 것이라고 확신하지 않는다. 기업들의 AI 도입은 순전히 기술 자체의 강점 덕분에 이전의 어떤 기술보다 훨씬 빠른 속도로 성장하고 있다. 또한, 전통적인 기업들이 새로운 기술 채택에 느리더라도, 스타트업들이 “접착제” 역할을 하며 채택을 더 쉽게 만들기 위해 생겨날 것이다. 그것이 효과가 없으면, 스타트업들은 단순히 기존 기업들을 직접 격변시킬 수도 있다.

이것은 특정 직업이 격변하는 세계가 아니라, 대형 기업 전반이 격변하고 훨씬 적은 노동력을 사용하는 스타트업으로 대체되는 세계로 이어질 수 있다. 이것은 또한 “지리적 불평등”의 세계로 이어질 수 있다. 세계 부의 점점 더 많은 비율이 실리콘밸리에 집중되어, 나머지 세계와 다른 속도로 운영되고 나머지 세계를 뒤처지게 만드는 자체적인 경제가 되는 것이다. 이 모든 결과는 경제 성장에는 좋겠지만—노동 시장이나 뒤처진 이들에게는 그다지 좋지 않다.

둘째, 인간의 일자리가 물리적 세계로 이동할 것이라는 주장이 있다. 이는 AI가 급속히 발전하고 있는 “인지 노동”의 전체 범주를 피하게 된다. 이것이 얼마나 안전한지 나는 확신하지 못한다. 많은 육체 노동은 이미 기계가 수행하고 있거나(예: 제조업) 곧 수행하게 될 것이다(예: 운전). 또한, 충분히 강력한 AI는 로봇 개발을 가속화하고, 그 로봇을 물리적 세계에서 직접 제어할 수 있게 될 것이다. 어느 정도 시간은 벌 수 있겠지만(그것은 좋은 일이다), 많이 벌지는 못할 것 같아 걱정된다. 그리고 격변이 인지 업무에만 국한되더라도, 그것만으로도 전례 없이 크고 빠른 격변일 것이다.

셋째, 아마도 일부 업무는 본질적으로 인간의 손길을 필요로 하거나 크게 이익을 얻을 수 있다. 이것에 대해서는 조금 더 불확실하지만, 그것이 위에서 설명한 영향의 대부분을 상쇄하기에 충분할지는 여전히 회의적이다. AI는 이미 고객 서비스에 널리 사용되고 있다. 많은 사람들이 치료사에게 말하는 것보다 AI에게 개인적인 문제를 이야기하는 것이 더 쉽다고—AI가 더 인내심이 많다고—보고한다. 내 여동생이 임신 중 의료 문제로 힘들어할 때, 의료진으로부터 필요한 답변이나 지원을 받지 못한다고 느꼈고, Claude가 더 세심하게 대해준다고(또한 문제 진단에 더 성공했다고) 느꼈다. 인간의 손길이 정말로 중요한 업무가 있을 것은 확실하지만, 얼마나 많을지는 모르겠다—여기서 우리가 이야기하는 것은 노동 시장의 거의 모든 사람에게 일자리를 찾아줘야 하는 문제다.

넷째, 비교우위가 여전히 인간을 보호할 것이라고 주장할 수 있다. 비교우위의 법칙에 따르면, AI가 모든 면에서 인간보다 더 낫더라도, 인간과 AI의 기술 프로필 간의 상대적 차이가 인간과 AI 사이의 교역과 전문화의 기초를 만든다. 문제는 AI가 문자 그대로 인간보다 수천 배 더 생산적이라면, 이 논리가 무너지기 시작한다는 것이다. 아주 작은 거래 비용만으로도 AI가 인간과 거래하는 것이 가치가 없게 될 수 있다. 그리고 인간이 기술적으로 제공할 것이 있더라도 인간의 임금은 매우 낮을 수 있다.

이 모든 요소가 해결될 가능성은 있다—노동 시장이 그토록 거대한 격변에도 적응할 만큼 회복력이 있을 수 있다. 하지만 결국 적응할 수 있더라도, 위의 요소들은 단기적 충격이 규모 면에서 전례 없을 것임을 시사한다.

방어책

이 문제에 대해 무엇을 할 수 있을까? 몇 가지 제안이 있으며, 일부는 앤트로픽이 이미 실행하고 있다. 첫 번째는 단순히 일자리 대체에 무슨 일이 일어나고 있는지에 대한 정확한 데이터를 실시간으로 얻는 것이다. 경제적 변화가 매우 빠르게 일어날 때, 무슨 일이 일어나고 있는지에 대한 신뢰할 수 있는 데이터를 얻기가 어렵고, 신뢰할 수 있는 데이터 없이는 효과적인 정책을 설계하기가 어렵다. 예를 들어, 정부 데이터는 현재 기업과 산업 전반에 걸친 AI 채택에 관한 세분화된 고빈도 데이터가 부족하다. 지난 1년간 앤트로픽은 산업, 업무, 지역, 그리고 업무가 자동화되고 있는지 협업 방식으로 수행되고 있는지 등으로 분류하여 거의 실시간으로 우리 모델의 사용을 보여주는 Economic Index를 운영하고 공개해왔다. 또한 이 데이터를 해석하고 무엇이 다가오고 있는지 파악하는 것을 돕기 위한 경제 자문위원회도 있다.

둘째, AI 회사들은 기업들과 어떻게 협력할지 선택의 여지가 있다. 전통적인 기업들의 바로 그 비효율성은 AI 도입이 매우 경로 의존적일 수 있음을 의미하며, 더 나은 경로를 선택할 여지가 어느 정도 있다. 기업들은 종종 “비용 절감”(더 적은 인원으로 같은 일을 하는 것)과 “혁신”(같은 인원으로 더 많은 일을 하는 것) 사이에서 선택권이 있다. 시장은 결국 필연적으로 둘 다 생산할 것이고, 어떤 경쟁력 있는 AI 회사도 둘 다 일부는 제공해야 할 것이지만, 가능한 한 기업들을 혁신 쪽으로 유도할 여지가 있을 수 있으며, 그것이 약간의 시간을 벌어줄 수 있다. 앤트로픽은 이에 대해 적극적으로 고민하고 있다.

셋째, 회사들은 직원들을 어떻게 돌볼지 생각해야 한다. 단기적으로, 회사 내에서 직원들을 재배치하는 창의적인 방법은 해고의 필요성을 늦추는 유망한 방법이 될 수 있다. 장기적으로, 전체 부의 규모가 엄청나고, 많은 회사들이 생산성 증가와 자본 집중으로 인해 가치가 크게 상승하는 세계에서는, 전통적인 의미에서 경제적 가치를 제공하지 않게 된 후에도 오랫동안 인간 직원들에게 급여를 지급하는 것이 가능할 수 있다. 앤트로픽은 현재 가까운 미래에 공유할 우리 직원들을 위한 다양한 가능한 경로를 고려하고 있다.

넷째, 부유한 개인들에게는 이 문제를 해결해야 할 의무가 있다. 많은 부유한 개인들(특히 기술 산업에서)이 최근 자선활동이 필연적으로 사기이거나 쓸모없다는 냉소적이고 허무주의적인 태도를 취한 것이 나에게는 슬픈 일이다. 게이츠 재단과 같은 민간 자선활동과 PEPFAR와 같은 공공 프로그램 모두 개발도상국에서 수천만 명의 생명을 구했고, 선진국에서 경제적 기회를 창출하는 데 기여했다. 앤트로픽의 모든 공동 창립자들은 재산의 80%를 기부하기로 서약했고, 앤트로픽 직원들은 개별적으로 현재 가격 기준 수십억 달러 가치의 회사 주식을 기부하기로 서약했다—회사는 이러한 기부를 매칭하기로 약속했다.

다섯째, 위의 모든 민간 활동이 도움이 될 수 있지만, 궁극적으로 이렇게 큰 거시경제적 문제는 정부 개입이 필요하다. 거대한 경제적 파이와 함께 (일자리 부족이나 저임금 일자리로 인한) 높은 불평등에 대한 자연스러운 정책 대응은 누진 과세다. 세금은 일반적일 수도 있고 AI 기업을 특정 대상으로 할 수도 있다. 물론 세금 설계는 복잡하고, 잘못될 수 있는 방법이 많다. 나는 설계가 잘못된 세금 정책을 지지하지 않는다. 이 글에서 예측된 극단적인 수준의 불평등은 기본적인 도덕적 근거에서 더 강력한 세금 정책을 정당화한다고 생각하지만, 세계의 억만장자들에게 실용적인 논거도 할 수 있다: 좋은 버전을 지지하지 않으면, 결국 성난 군중이 설계한 나쁜 버전을 받게 될 것이다.

궁극적으로, 나는 위의 모든 개입을 시간을 버는 방법으로 생각한다. 결국 AI는 모든 것을 할 수 있게 될 것이고, 우리는 그것과 씨름해야 한다. 그때쯤이면 AI 자체를 사용하여 모두에게 효과가 있는 방식으로 시장을 재구성하는 데 도움을 받을 수 있기를 바라며, 위의 개입들이 전환기를 넘기는 데 도움이 될 수 있기를 희망한다.

경제력 집중

일자리 대체나 경제적 불평등 그 자체의 문제와 별개로 경제력 집중의 문제가 있다. 1장에서는 인류가 AI에 의해 권한을 박탈당하는 위험을 논의했고, 3장에서는 시민들이 정부에 의해 강압이나 강제로 권한을 박탈당하는 위험을 논의했다. 그러나 또 다른 종류의 권한 박탈은 부의 집중이 너무 커서 소수의 사람들이 사실상 그들의 영향력으로 정부 정책을 통제하고, 일반 시민들은 경제적 레버리지가 없어서 영향력이 없는 경우에 발생할 수 있다. 민주주의는 궁극적으로 경제의 운영에 인구 전체가 필요하다는 생각에 의해 뒷받침된다. 그 경제적 레버리지가 사라지면, 민주주의를 뒷받침하는 암묵적 사회 계약이 작동하지 않을 수 있다. 다른 이들이 이에 대해 썼으므로 여기서 자세히 다룰 필요는 없지만, 나는 이 우려에 동의하며, 이것이 이미 시작되고 있다고 걱정한다.

명확히 하자면, 나는 사람들이 많은 돈을 버는 것에 반대하지 않는다. 정상적인 조건에서 경제 성장을 장려한다는 강력한 논거가 있다. 나는 황금 알을 낳는 거위를 죽여 혁신을 저해한다는 우려에 공감한다. 하지만 GDP 성장이 연간 10~20%이고 AI가 빠르게 경제를 장악하는 시나리오에서, 개인들이 GDP의 상당 부분을 보유하고 있다면, 혁신은 걱정할 대상이 아니다. 걱정해야 할 것은 사회를 붕괴시킬 수준의 부의 집중이다.

미국 역사상 극단적인 부의 집중의 가장 유명한 예는 도금 시대이고, 도금 시대의 가장 부유한 산업가는 존 D. 록펠러였다. 록펠러의 재산은 당시 미국 GDP의 약 2%에 달했다.[42] 오늘날 비슷한 비율은 6000억 달러의 재산으로 이어질 것이고, 오늘날 세계에서 가장 부유한 사람(일론 머스크)은 이미 약 7000억 달러로 그것을 초과한다. 따라서 우리는 AI의 경제적 영향의 대부분이 발생하기 전에도 이미 역사적으로 전례 없는 수준의 부의 집중에 있다. “데이터센터 안의 천재들의 나라”를 얻는다면, AI 회사, 반도체 회사, 그리고 아마도 다운스트림 응용 회사들이 연간 약 3조 달러의 수익을 올리고[43] 약 30조 달러로 평가되어 수조 달러에 이르는 개인 재산으로 이어지는 것을 상상하기가 그리 무리가 아니다. 그 세계에서, 오늘날 세금 정책에 대해 하는 논쟁은 단순히 적용되지 않을 것이다. 우리는 근본적으로 다른 상황에 처하게 될 것이기 때문이다.

이와 관련하여, 이러한 경제적 부의 집중과 정치 시스템의 결합이 이미 나를 우려하게 한다. AI 데이터센터는 이미 미국 경제 성장의 상당 부분을 차지하고 있으며[44] 따라서 (점점 더 AI나 AI 인프라에 집중하고 있는) 대형 기술 회사들의 재정적 이해관계와 정부의 정치적 이해관계를 강하게 묶어서 왜곡된 인센티브를 만들어낼 수 있다. 우리는 이미 기술 회사들이 미국 정부를 비판하기를 꺼리는 것과, AI에 대한 극단적인 규제 완화 정책에 대한 정부의 지원을 통해 이것을 보고 있다.

방어책

이에 대해 무엇을 할 수 있을까? 첫째, 그리고 가장 분명하게, 회사들은 단순히 그것의 일부가 되지 않기로 선택해야 한다. 앤트로픽은 항상 정치적 행위자가 아닌 정책적 행위자가 되려고 노력해왔고, 정부가 바뀌어도 우리의 진정한 견해를 유지하려고 했다. 우리는 정부 정책과 맞지 않을 때도 합리적인 AI 규제와 공익에 부합하는 수출 통제에 찬성하는 목소리를 높여왔다.[45] 많은 사람들이 이것을 그만두어야 한다고, 불리한 대우로 이어질 수 있다고 말했지만, 우리가 이것을 해온 1년 동안 앤트로픽의 기업 가치는 6배 이상 증가했는데, 이는 우리의 상업적 규모에서 거의 전례 없는 도약이다.

둘째, AI 산업은 정부와 더 건강한 관계가 필요하다—정치적 정렬이 아닌 실질적인 정책 참여에 기반한 관계다. 정치가 아닌 정책 실질에 참여하려는 우리의 선택은 때때로 원칙적인 결정이 아닌 전술적 실수나 “분위기 파악 실패”로 읽히며, 그러한 프레이밍이 나를 우려하게 한다. 건강한 민주주의에서, 회사들은 그 자체를 위해 좋은 정책을 옹호할 수 있어야 한다. 이와 관련하여, AI에 대한 대중의 반발이 커지고 있다: 이것은 교정책이 될 수 있지만, 현재는 초점이 맞지 않는다. 대부분이 실제로 문제가 아닌 이슈들(데이터센터 물 사용량과 같은)을 겨냥하고, 실제 우려를 해결하지 못할 해결책들(데이터센터 금지나 잘못 설계된 부유세와 같은)을 제안한다. 주목해야 할 근본적인 문제는 AI 개발이 특정 정치적 또는 상업적 동맹에 포획되지 않고 공익에 책임을 지도록 하는 것이며, 공적 논의를 그곳에 집중하는 것이 중요해 보인다.

셋째, 이 장의 앞부분에서 설명한 거시경제적 개입과 민간 자선활동의 부흥은 경제적 균형을 맞추는 데 도움이 될 수 있으며, 일자리 대체와 경제력 집중 문제를 동시에 해결한다. 우리는 여기서 우리나라의 역사를 참고해야 한다: 도금 시대에도 록펠러와 카네기와 같은 산업가들은 사회 전체에 대한 강한 의무감을 느꼈다. 사회가 그들의 성공에 엄청나게 기여했으니 되돌려줘야 한다는 마음이었다. 그 정신이 오늘날 점점 사라지고 있는 것 같으며, 나는 이것이 이 경제적 딜레마를 벗어나는 방법의 큰 부분이라고 생각한다. AI 경제 붐의 최전선에 있는 이들은 자신의 부와 권력 모두를 기꺼이 내려놓아야 한다.

• • •

5. “무한의 검은 바다”

간접적 영향

이 마지막 섹션은 미지의 미지수들, 특히 AI의 긍정적 발전과 그로 인한 과학기술 전반의 가속화로 인해 간접적으로 잘못될 수 있는 것들을 포괄적으로 다룬다. 지금까지 설명한 모든 위험을 해결하고 AI의 혜택을 누리기 시작한다고 가정해보자. 우리는 아마도 “한 세기에 해당하는 과학적, 경제적 진보가 10년으로 압축되는” 시대를 맞이하게 될 것이고, 이는 세계에 엄청나게 긍정적인 일이 될 것이다. 그러나 그 후에는 이 급격한 발전 속도에서 비롯되는 문제들에 대처해야 하며, 그 문제들이 빠르게 밀려올 수 있다. 또한 AI 발전의 간접적 결과로 발생하면서도 미리 예측하기 어려운 다른 위험들과 마주칠 수도 있다.

미지의 미지수라는 본질상 완전한 목록을 작성하는 것은 불가능하지만, 우리가 주시해야 할 것들의 예시로 세 가지 잠재적 우려 사항을 나열해보겠다:

생물학의 급격한 발전. 만약 우리가 정말로 몇 년 만에 한 세기에 해당하는 의학적 진보를 이룬다면, 인간 수명을 크게 연장할 수 있을 것이고, 인간 지능을 높이거나 인간 생물학을 근본적으로 변형하는 능력 같은 급진적 역량을 얻게 될 가능성도 있다. 이런 것들이 실현되면 매우 빠르게 일어날 것이며, 그 변화의 규모는 엄청날 것이다. 책임감 있게 이루어진다면 긍정적일 수 있지만(Machines of Loving Grace에서 설명한 것처럼 나는 그렇게 되기를 바란다), 심각하게 잘못될 위험은 항상 있다—예를 들어, 인간을 더 똑똑하게 만들려는 노력이 그들을 더 불안정하거나 권력 지향적으로 만들 수도 있다. 또한 “업로드” 또는 “전뇌 에뮬레이션”—소프트웨어로 구현된 디지털 인간 정신—의 문제도 있는데, 이는 언젠가 인류가 물리적 한계를 초월하는 데 도움이 될 수 있지만, 나를 불안하게 만드는 위험도 수반한다.
AI가 인간의 삶을 불건강한 방식으로 변화시킴. 인간보다 모든 면에서 훨씬 뛰어난 수십억 개의 지능이 존재하는 세상은 살기에 매우 기이한 세상이 될 것이다. AI가 적극적으로 인간을 공격하려 하지 않고(섹션 1), 국가에 의해 억압이나 통제의 도구로 명시적으로 사용되지 않더라도(섹션 3), 일반적인 비즈니스 인센티브와 명목상 합의된 거래를 통해 그 수준에 못 미치는 많은 것들이 잘못될 수 있다. 우리는 AI 정신병, AI가 사람을 자살로 몰아가는 것, AI와의 연애 관계에 대한 우려에서 이미 그 조짐을 보고 있다. 예를 들어, 강력한 AI가 어떤 새로운 종교를 발명하고 수백만 명을 개종시킬 수 있을까? 인간이 아닌 존재가 만든 신념 체계를 사람들이 따르게 된다면 어떤 일이 벌어질까? 대부분의 사람들이 AI와의 상호작용에 어떤 식으로든 “중독”될 수 있을까? 사람들이 AI 시스템에 “조종”당하는 상황이 올 수 있을까—AI가 본질적으로 그들의 모든 행동을 감시하고 항상 정확히 무엇을 하고 말해야 하는지 알려주어서, “좋은” 삶이기는 하지만 자유나 성취의 자부심이 없는 삶을 살게 되는 것 말이다? 블랙 미러의 제작자와 함께 앉아서 브레인스토밍을 한다면 이런 시나리오를 수십 개는 쉽게 만들어낼 수 있을 것이다. 이것은 섹션 1의 문제를 방지하는 데 필요한 것 이상으로 Claude의 헌법 같은 것을 개선하는 것의 중요성을 보여준다고 생각한다. AI 모델이 미묘하게 왜곡된 방식이 아니라 사려 깊은 사람들이 지지할 방식으로 사용자들의 장기적 이익을 진정으로 마음에 두도록 하는 것이 중요해 보인다.
인간의 목적. 이것은 이전 요점과 관련이 있지만, AI 시스템과의 특정한 인간 상호작용에 관한 것이라기보다는 강력한 AI가 있는 세상에서 인간의 삶이 일반적으로 어떻게 변하는지에 관한 것이다. 인간은 그런 세상에서 목적과 의미를 찾을 수 있을까? 나는 이것이 태도의 문제라고 생각한다: Machines of Loving Grace에서 말했듯이, 인간의 목적은 세상에서 무언가를 가장 잘하는 것에 달려 있지 않으며, 인간은 자신이 사랑하는 이야기와 프로젝트를 통해 아주 오랜 기간에 걸쳐서도 목적을 찾을 수 있다고 생각한다. 우리는 경제적 가치 창출과 자존감, 그리고 의미—이 셋 사이의 연결 고리를 끊으면 된다. 하지만 그것은 사회가 만들어 나가야 하는 전환이며, 우리가 그것을 잘 처리하지 못할 위험은 항상 있다.

이 모든 잠재적 문제들에 대한 나의 희망은, 우리를 죽이지 않을 것이라고 신뢰할 수 있고, 억압적인 정부의 도구가 아니며, 진정으로 우리를 위해 일하는 강력한 AI가 있는 세상에서, AI 자체를 사용하여 이러한 문제들을 예측하고 예방할 수 있다는 것이다. 그러나 그것은 보장되지 않는다—다른 모든 위험들과 마찬가지로, 이것은 우리가 신중하게 다루어야 할 일이다.

• • •

인류의 시험

이 글을 읽으면 우리가 벅찬 상황에 처해 있다는 인상을 받을 수 있다. 글을 쓰는 나 역시 분명 벅찬 느낌이었다. 수년간 머릿속에 울려 퍼지던 비할 데 없이 아름다운 음악에 형태와 구조를 부여하는 것 같았던 자비로운 기계들을 쓸 때와는 사뭇 달랐다. 그리고 실제로 이 상황의 많은 부분이 정말로 어렵다. AI는 여러 방향에서 인류에게 위협을 가져오며, 다양한 위험들 사이에는 진정한 긴장이 존재한다. 바늘구멍에 실을 꿰듯 정교하게 대응하지 않으면, 어떤 위험을 완화하려다 다른 위험을 악화시킬 수 있다.

AI 시스템이 자율적으로 인류를 위협하지 않도록 신중하게 구축하는 데 시간을 들이는 것은, 민주주의 국가들이 권위주의 국가들보다 앞서 나가 그들에게 굴복당하지 않아야 한다는 필요성과 실질적인 긴장 관계에 있다. 하지만 동시에, 독재 정권에 맞서 싸우는 데 필요한 바로 그 AI 기반 도구들이 지나치게 밀어붙여지면 우리 자신의 나라에 폭정을 만들어내는 데 사용될 수 있다. AI 기반 테러리즘은 생물학의 오용을 통해 수백만 명을 죽일 수 있지만, 이 위험에 대한 과잉 대응은 독재적 감시 국가로 가는 길로 우리를 이끌 수 있다. AI의 노동 및 경제 집중 효과는 그 자체로 심각한 문제일 뿐만 아니라, 우리가 인간 본성의 선한 천사에게 호소하기보다는 대중의 분노와 어쩌면 시민 소요 속에서 다른 문제들에 직면하게 만들 수 있다. 무엇보다도, 알려지지 않은 것들을 포함한 위험의 순전한 규모와 그 모든 것을 동시에 다뤄야 할 필요성이 인류가 통과해야 할 험난한 시련의 길을 만들어낸다.

게다가 지난 몇 년간의 상황은 기술을 중단하거나 상당히 늦추려는 생각이 근본적으로 지속 불가능함을 분명히 보여주었다. 강력한 AI 시스템을 구축하는 공식은 믿을 수 없을 정도로 단순해서, 적절한 데이터와 순수한 연산력의 조합에서 거의 자연발생적으로 등장한다고 말할 수 있을 정도다. 그 창조는 아마도 인류가 트랜지스터를 발명한 순간, 혹은 논란의 여지가 있지만 우리가 처음 불을 다루는 법을 배웠을 때부터 불가피했을 것이다. 한 회사가 만들지 않으면 다른 회사들이 거의 같은 속도로 만들 것이다. 민주주의 국가의 모든 기업이 상호 합의나 규제 명령으로 개발을 중단하거나 늦추면, 권위주의 국가들은 그냥 계속 진행할 것이다. 기술의 엄청난 경제적, 군사적 가치와 의미 있는 집행 메커니즘의 부재를 고려할 때, 그들을 멈추도록 어떻게 설득할 수 있을지 나로서는 알 수가 없다.

현실주의적 지정학 관점과 양립 가능한 AI 개발의 약간의 완화 경로는 보인다. 그 경로는 독재 정권들이 강력한 AI를 구축하는 데 필요한 자원을 거부함으로써 그들의 진군을 몇 년간 늦추는 것이다.[46] 바로 칩과 반도체 제조 장비 말이다. 이것은 다시 민주주의 국가들에게 완충 지대를 제공하여, 그들이 독재 정권을 편안하게 이기면서도 위험에 더 주의를 기울여 더 신중하게 강력한 AI를 구축하는 데 “소비할” 수 있게 해준다. 민주주의 국가들 내 AI 기업들 간의 경쟁은 업계 표준과 규제의 혼합을 통해 공통된 법적 프레임워크의 우산 아래에서 다룰 수 있다.

앤스로픽은 칩 수출 통제와 신중한 AI 규제를 추진함으로써 이 경로를 매우 강력하게 옹호해 왔지만, 이러한 상식적으로 보이는 제안들조차 대부분 미국(이것들이 가장 중요한 나라)의 정책 입안자들에 의해 거부되었다. AI로 벌어들일 돈이 너무 많아서—말 그대로 연간 수조 달러—가장 단순한 조치조차도 AI를 둘러싼 경제적·정치적 이해관계를 넘어서기 어렵다. 이것이 함정이다. AI는 너무 강력하고, 너무 찬란한 상이기에, 인류 문명이 그것에 어떤 제약이라도 부과하기가 매우 어렵다.

세이건이 콘택트에서 그랬듯이, 나는 이와 같은 이야기가 수천 개의 행성에서 펼쳐지는 것을 상상할 수 있다. 한 종이 지각을 얻고, 도구 사용법을 배우며, 기술의 기하급수적 상승을 시작하고, 산업화와 핵무기의 위기에 직면하며, 그것들에서 살아남으면 모래를 생각하는 기계로 빚는 법을 배울 때 가장 어렵고 마지막 도전에 맞닥뜨린다. 우리가 그 시험을 통과하고 자비로운 기계들에서 묘사한 아름다운 사회를 건설할지, 아니면 노예 상태와 파괴에 굴복할지는 종으로서 우리의 성품과 결단력, 우리의 정신과 영혼에 달려 있을 것이다.

많은 장애물에도 불구하고, 나는 인류가 이 시험을 통과할 힘을 내면에 가지고 있다고 믿는다. 나는 AI 모델을 이해하고 조종하며, 이 모델들의 성격과 헌법을 형성하는 데 자신의 경력을 바친 수천 명의 연구자들에게서 격려와 영감을 받는다. 그 노력들이 중요한 때에 열매를 맺을 가능성이 이제 상당하다고 생각한다. 적어도 일부 기업들이 자사 모델이 생물 테러 위협에 기여하지 않도록 막기 위해 상당한 상업적 비용을 지불하겠다고 밝힌 것에서 격려받는다. 지배적인 정치적 흐름에 맞서 몇몇 용감한 사람들이 AI 시스템에 합리적인 가드레일의 초기 씨앗을 심는 법안을 통과시킨 것에서 격려받는다. 대중이 AI가 위험을 수반한다는 것을 이해하고 그 위험이 해결되기를 원한다는 것에서 격려받는다. 세계 곳곳에서 불굴의 자유 정신과 폭정이 일어나는 곳마다 저항하려는 결의에서 격려받는다.

하지만 성공하려면 우리의 노력을 한층 강화해야 한다. 첫 번째 단계는 기술에 가장 가까이 있는 사람들이 인류가 처한 상황에 대해 진실을 말하는 것인데, 이는 내가 항상 하려고 노력해 온 것이며, 이 글을 통해 더 명시적으로, 더 큰 긴박감을 가지고 그렇게 하고 있다. 다음 단계는 세계의 사상가들, 정책 입안자들, 기업들, 시민들에게 이 문제의 임박함과 최우선적 중요성을 설득하는 것이다—매일 뉴스를 지배하는 수천 가지 다른 문제들에 비해 이것에 생각과 정치적 자본을 투자할 가치가 있다는 것을 말이다. 그런 다음 용기의 시간이 올 것이다. 경제적 이익과 개인의 안전에 대한 위협 앞에서도 충분히 많은 사람들이 지배적인 흐름에 맞서고 원칙을 고수하는 시간이 올 것이다.

우리 앞에 놓인 세월은 불가능할 정도로 힘들 것이며, 우리가 줄 수 있다고 생각하는 것 이상을 우리에게 요구할 것이다. 하지만 연구자, 리더, 시민으로서 지금껏 살아오면서, 나는 우리가 이길 수 있다고 믿을 만큼 충분한 용기와 고귀함을 보아왔다. 가장 어두운 상황에서도 인류는 마지막 순간에 꼭 필요한 힘과 지혜를 끌어내는 법을 알고 있다. 우리에게 잃을 시간이 없다.

이 글의 초고에 유익한 의견을 주신 에릭 브린욜프슨(Erik Brynjolfsson), 벤 뷰캐넌(Ben Buchanan), 마리아노-플로렌티노 쿠엘라르(Mariano-Florentino Cuéllar), 앨런 다포(Allan Dafoe), 케빈 에스벨트(Kevin Esvelt), 닉 벡스테드(Nick Beckstead), 리처드 폰테인(Richard Fontaine), 짐 맥클레이브(Jim McClave), 그리고 앤스로픽의 많은 직원분들께 감사드립니다.

• • •

저자 소개: Dario Amodei는 Anthropic의 CEO이자 공동 창업자입니다. 이전에 OpenAI에서 연구 부사장을 역임했으며, AI 안전 연구의 선구자입니다.

참고: 이 글은 Dario Amodei가 개인 블로그에 게시한 에세이를 번역한 것입니다. 이전 에세이 “Machines of Loving Grace”의 후속작으로, AI의 기회가 아닌 위험에 초점을 맞추고 있습니다.

원문: The Adolescence of Technology - Dario Amodei (2026년 1월)

생성: Claude (Anthropic)

총괄: 존 (디노이저denoiser)