AWS 장애, 결국 인재 유출이 현실이 되다

게시일: 2025년 10월 21일 | 원문 작성일: 2025년 10월 20일 | 원저자: Corey Quinn (The Register) | 원문 보기

핵심 요약

AWS US-EAST-1 리전에서 대규모 장애가 발생했어요. 원인은 또 DNS 문제였는데, 문제를 파악하는 데만 75분이나 걸렸죠. 필자는 이게 우연이 아니라고 봐요. 수년간 쌓아온 베테랑 엔지니어들이 대거 떠나면서, 과거 비슷한 문제를 겪어본 사람들이 없어진 거죠. 레이오프, 강압적인 재택 복귀 정책, 그리고 “안 떠났으면 좋았을 인재”의 81%가 퇴사하는 상황. 이게 바로 그 결과예요.

주요 내용:

장애 발생: 10월 20일 오전, DynamoDB endpoint의 DNS 문제로 US-EAST-1 리전 전체가 다운. 은행, 게임, 소셜미디어, 정부 서비스까지 먹통
늦은 진단: 문제 발생부터 원인 파악까지 75분 소요. 베테랑들이라면 바로 알았을 패턴을 몰랐다는 방증
인재 유출의 증거: 2022~~2025년 사이 27,000명 이상 레이오프, 69~~81%의 “regretted attrition”(회사가 후회하는 퇴사)
경고의 실현: 2023년 말 떠난 전직 AWS 엔지니어가 2024년 대형 장애를 예측했는데, 2025년에야 터진 것
앞으로의 전망: 이건 시작일 뿐. 경험 많은 엔지니어들 없이는 다음 장애도 시간문제

무슨 일이 있었나요?

시스템 관리자들 사이에 유명한 격언이 있죠: “문제는 항상 DNS다”. 그리고 이번에도 역시 DNS였어요. AWS는 10월 20일 오전 12시 11분(PDT)에 US-EAST-1 리전에서 여러 서비스의 에러율과 레이턴시가 증가하는 걸 발견했어요. 약 한 시간 뒤인 1시 26분에는 DynamoDB endpoint 요청에서 “심각한 에러율”을 확인했고요.

새벽 2시 1분이 되어서야 엔지니어들은 US-EAST-1의 DynamoDB API endpoint에 대한 DNS 해석이 근본 원인일 가능성이 높다는 걸 파악했어요. 문제는 DynamoDB가 “기초 서비스”라는 거죠. 다른 AWS 서비스들이 대부분 이걸 기반으로 돌아가거든요. 그러니 여기가 죽으면 도미노처럼 다 무너져요.

graph TD A["DynamoDB Endpoint DNS 장애"] --> B["DynamoDB 서비스 다운"] B --> C["Lambda 함수 실패"] B --> D["S3 메타데이터 접근 불가"] B --> E["CloudWatch 로깅 중단"] C --> F["웹 애플리케이션 중단"] D --> F E --> G["모니터링 불가"] F --> H["은행/게임/소셜미디어 먹통"] style A fill:#ff6b6b style B fill:#ee5a52 style H fill:#c92a2a

결과적으로 인터넷의 상당 부분이 멈췄어요. 은행, 게임, 소셜미디어, 정부 서비스, 심지어 Amazon.com에서 필요 없는 물건 사는 것까지요.

75분이라는 시간

AWS는 전통대로 장애가 발생하면 점점 더 자세한 정보를 공개해요. 그걸 읽다 보면 정말로 뭐가 문제인지 몰랐다는 느낌을 받아요. “뭔가 터졌다”에서 “단일 서비스 endpoint로 좁혔지만 아직 조사 중”까지 가는 데 75분이 걸렸다는 건 좀… 쓴맛이죠.

더 웃긴 건, 그 75분 동안 AWS 상태 페이지를 방문한 사람들(자기 웹사이트가 바다에 빠져 침몰한 걸 보며 당연히 궁금해하던)은 “모든 게 정상입니다!” 라는 기본 메시지를 봤다는 거예요. 아, 물론 AWS가 예전에 느린 장애 알림 시간을 개선 영역으로 언급한 적이 있긴 하죠. 여러 번이요. 계속 나열할까요?

예언의 실현

AWS는 인프라 구축에 정말 뛰어나요. 이게 사실인 걸 알 수 있는 증거가 뭐냐면, 38개 리전 중 하나만 다운됐는데(물론 엄청 중요한 리전이긴 하지만) 이 정도로 난리가 난다는 거죠. “그냥 월요일 장애” 정도가 아니라요. AWS 규모에서는 모든 문제가 복잡해요. 누군가 실수해서 생긴 단순한 이슈가 아니란 거죠.

하지만 더 걱정되는 건 AWS가 하루 종일 이 문제를 잡으려고 헤매는 모습이었어요. 그러다 갑자기 떠오른 게 있었죠. 정말 잊고 싶었던 것.

2023년 말, Justin Garrison이 AWS를 떠나면서 회사를 날카롭게 비판했어요. AWS에서 Large Scale Events(LSE, 대형 장애)가 증가했고, 2024년에 심각한 장애가 올 거라고 예측했죠. 그는 관성의 힘을 과소평가했나 봐요. 하지만 시니어 AWS 엔지니어들의 퇴사는 계속됐고, 이제 이런 장애를 보니 그 퇴사들이 원인 중 하나가 아닐까 의심하게 되네요.

살 수 없는 것

DNS가 기술적으로 어떻게 작동하는지 설명할 수 있는 똑똑한 사람들은 고용할 수 있어요(또는 저처럼 틀린 설명을 할 사람도요 - DNS는 데이터베이스라고). 하지만 고용할 수 없는 건 이거예요: “DNS가 이상해지면, 저기 구석에 있는 겉보기엔 관련 없어 보이는 시스템을 체크해봐. 예전 장애에서 그게 원인이었거든” 이라고 기억하는 사람.

그런 부족 지식(tribal knowledge)이 떠나면, 당신은 엄청나게 많은 사내 전문성을 처음부터 다시 만들어야 해요. RTO(Return to Office) 게임이나 또 다시 레이오프 룰렛에 참여하고 싶지 않았던 전문성 말이에요. 이건 당신의 서비스 안정성에 영향을 주지 않아요 — 어느 날 극적으로 영향을 주기 전까지는요. 제 생각엔 그날이 오늘인 것 같네요.

인재 유출의 증거

여기는 The Register, 존중받는 언론 매체예요. 그래서 제가 이 글을 이대로 발행하면, AWS PR 담당자가 마법처럼 나타나서 손을 흔들며 “AWS에는 인재 유출이 없습니다”라고 주장할 거란 걸 알아요. 그러니 그 시간 낭비를 막기 위해 데이터를 좀 보여드릴게요:

지표	데이터	의미
레이오프	2022~2025년 사이 27,000명 이상	이 중 AWS와 Amazon 본사 비율은 불명 (회사가 함구)
Regretted Attrition	모든 직급에서 69~81%	“안 떠났으면 좋았을 사람들”이 퇴사
재택 복귀 정책	강압적 시행	시니어 엔지니어들의 불만 폭발, 전문가들도 우려 표명
조기 입사자들	이직 러시	이 시스템을 만든 사람들에게 세상은 넓다. 전문성을 무시하는 회사에 남을 이유가 없음

필자의 견해

이건 티핑 포인트예요. 깊은 장애 모드를 이해했던 인재들이 떠났다는 게 점점 명확해지고 있어요. 새롭고 더 날씬하고, 아마도 더 저렴한 팀들은 이런 장애를 애초에 막지는 못하더라도, 탐지와 복구 시간을 크게 줄이는 데 필요한 제도적 지식이 부족해요.

기억하세요, Amazon의 “Frugality(절약)” 리더십 원칙이 “더 적은 것으로 더 많이 하기”를 의미했던 시절이 있었어요. “거의 아무것도 없이 모든 걸 하기”가 아니라요. AWS의 운영 강점은 여유롭고 경험 많은 사람들에게서 나왔어요. 뼈까지 자르면 기본적인 것들이 무너지기 시작해요.

마지막으로 명확히 하고 싶은 것

이건 기술이 낡았다는 게 아니에요. 그걸 유지보수하는 사람들이 신참이라는 거죠.

다음에 뭐가 일어날지 추측하자면, 시장은 이번엔 AWS를 용서할 거예요. 하지만 패턴은 계속될 거고요. AWS는 거의 확실히 이게 “isolated incident(고립된 사건)“라고 말할 거예요. 하지만 엔지니어링 인력을 텅 비게 만들어버리면, 모든 장애는 더 발생하기 쉬워져요.

다음 장애는 이미 끓고 있어요. 단지 어느 인력 부족 팀이 어느 엣지 케이스를 먼저 밟을지의 문제죠. 닭들이 집으로 돌아오고 있거든요.

결론

이 글은 단순히 AWS를 까기 위한 게 아니에요. 실제로 일어나고 있는 일에 대한 경고예요. 클라우드 인프라의 안정성은 코드나 아키텍처만으로 유지되는 게 아니거든요. 경험으로 유지되는 거죠.

그 경험이 대거 퇴사하면, 아무리 좋은 시스템이라도 새로운 팀은 같은 실수를 반복하게 돼요. 75분이 걸린 건 우연이 아니에요. 이전에 이 문제를 겪어본 사람이 없었기 때문이죠.

다른 테크 기업들도 주목해야 해요. 레이오프와 강압적인 정책으로 베테랑들을 내보내면, 당신도 곧 같은 상황을 맞이하게 될 거예요. 문제는 “만약”이 아니라 “언제”예요.

참고: 이 글은 Corey Quinn이 The Register에 게시한 칼럼을 번역하고 요약한 것입니다.

원문: https://www.theregister.com/2025/10/20/aws_outage_amazon_brain_drain_corey_quinn/

생성: Claude (Anthropic)

총괄: 존 (디노이저denoiser)