DeepSeek-OCR: 텍스트를 이미지로 압축하는 새로운 접근
게시일: 2025년 10월 22일 | 원문 작성일: 2025년 10월 21일 | 발표일: 2025년 10월 20일 | 출처: DeepSeek AI | 원문 보기
핵심 요약
중국 AI 스타트업 DeepSeek가 텍스트 처리 방식을 완전히 뒤집는 오픈소스 모델을 공개했어요. 기존처럼 단어나 토큰으로 텍스트를 읽는 게 아니라, 텍스트를 픽셀로 바꿔서 2D 이미지로 이해하는 방식이에요. 이걸로 문서를 7~20배나 압축할 수 있다고 하네요.
왜 중요한가:
- 토큰 효율이 미쳤어요 - 1,000단어 문서를 고작 100개 비전 토큰으로 압축 가능
- 성능도 괜찮아요 - 9~10배 압축에서 96% OCR 정확도, 20배 압축에서도 60% 유지
- 실용적이에요 - A100 GPU 하나로 하루에 20만 페이지 이상 처리 가능
- 오픈소스죠 - GitHub랑 Hugging Face에 코드랑 모델 웨이트 전부 공개
뭐가 다른가?
기존 LLM들은 텍스트를 토큰 단위로 쪼개서 처리하잖아요. 근데 DeepSeek-OCR은 아예 접근을 바꿨어요. 텍스트를 이미지로 렌더링한 다음에, 그 이미지를 작은 패치로 나눠서 “비전 토큰”으로 압축하는 거예요. 그러니까 텍스트를 텍스트로 읽는 게 아니라 이미지로 읽는다는 게 핵심이에요.
OpenAI 공동창업자였던 Andrej Karpathy도 이거 보고 “토크나이저가 아예 필요 없어질 수도 있겠네”라고 했다는데, 그 정도로 패러다임이 다른 접근법이에요.
작동 방식
프로세스를 좀 더 자세히 보면:
- 텍스트를 이미지로 - 일반 텍스트를 비주얼 레이아웃으로 렌더링해요
- 비전 인코딩 - 커스텀 DeepEncoder가 이미지를 스캔하고 작은 패치로 쪼개요 (Meta의 SAM이랑 OpenAI의 CLIP 컴포넌트 사용)
- 압축 - 이 패치들을 “비전 토큰”이라는 압축된 표현으로 변환해요
- 디코딩 - AI가 이 압축된 비전 토큰에서 텍스트의 의미를 재구성해요
성능 비교
| 모델 | 필요 토큰 수 | 비고 |
|---|---|---|
| DeepSeek-OCR (기본) | 100개 | 10배 압축 |
| DeepSeek-OCR (Gundam) | 800개 미만 | 복잡한 레이아웃 처리 |
| GOT-OCR2.0 | 256개 | DeepSeek보다 2.5배 많음 |
| MinerU 2.0 | 7,000개 가까이 | DeepSeek보다 거의 9배 많음 |
OmniDocBench 벤치마크에서 DeepSeek-OCR은 훨씬 적은 토큰으로 경쟁 모델들을 압도했어요.
여러 모드 지원
DeepSeek-OCR은 상황에 따라 다른 해상도 모드를 쓸 수 있어요:
- Tiny 모드 - 512×512 (64 비전 토큰): 간단한 문서용
- 기본 모드 - 1024×1024 (100~200 토큰): 일반적인 경우
- Gundam 모드 - 최대 800 토큰: 신문이나 빽빽한 레이아웃 같은 복잡한 문서 처리할 때 쓰는 “풀파워” 모드예요. 슬라이딩 윈도우나 타일링 기법으로 전체 페이지를 다 커버해요
실용성
이게 그냥 리서치 프로젝트가 아니라 실제로 쓸 만한 이유가 있어요:
| 설정 | 처리량 |
|---|---|
| A100 GPU 1개 | 하루 20만 페이지 이상 |
| 서버 20대 (각 8개 GPU) | 하루 3,300만 페이지 |
이 정도면 하룻밤 사이에 대규모 AI 모델 학습용 데이터셋을 만들 수 있는 수준이에요.
학습 데이터
DeepSeek은 이 모델을 학습시키기 위해 꽤 방대한 데이터를 모았어요:
- 약 100개 언어로 된 PDF 3천만 페이지
- 자연 장면 이미지 2천만 개
- 다이어그램, 화학식, 기하학적 도형 등의 합성 샘플 수백만 개
활용 사례
특히 챗봇 같은 경우, 대화 히스토리를 이미지로 저장하면 토큰을 훨씬 적게 쓸 수 있어요. 1,000 토큰이 필요했던 게 100개 정도로 줄어들면, 응답 속도도 10배 빨라지는 거죠.
메모리 관리 아이디어
논문에서 제안한 재밌는 아이디어 중 하나는, 최근 컨텍스트는 고해상도로 저장하고 오래된 건 점점 해상도를 낮춰서 저장하는 거예요. 마치 사람 기억처럼 최근 일은 선명하고 오래된 기억은 희미해지는 식이죠.
한계점과 향후 과제
연구팀도 이게 “초기 탐색”이라고 명확히 밝혔어요. 아직 해결해야 할 질문들이 있거든요:
- “Needle-in-a-Haystack” 테스트 - 엄청 긴 컨텍스트에서 특정 정보를 찾을 때 어떻게 작동하는지는 아직 불명확해요
- 추론 성능 - OCR 정확도는 높은데, 압축된 비전 토큰만으로 복잡한 추론 작업을 잘 할 수 있을지는 더 연구가 필요해요
- 디지털-옵티컬 인터리브 사전학습 - 텍스트와 이미지를 섞어서 학습하는 방식 같은 걸 앞으로 더 실험할 계획이래요
논문에서도 “OCR 하나만으로는 진정한 context optical compression을 완전히 검증하기엔 부족하다”고 인정하고 있어요.
왜 이게 중요한가
이 연구가 던지는 근본적인 질문은 이거예요: 언어 모델이 텍스트를 텍스트로 처리해야 하나, 아니면 텍스트의 이미지로 처리해야 하나?
적어도 압축 목적으로는 비주얼 표현이 확실한 장점이 있다는 게 증명됐어요. 이게 실제로 방대한 컨텍스트에서의 효과적인 추론으로 이어질지는 앞으로 봐야겠지만요.
DeepSeek은 계속해서 서양 AI 랩들보다 훨씬 적은 컴퓨팅 리소스로 경쟁력 있는 결과를 내고 있어요. 이번 DeepSeek-OCR도 그런 맥락에서 나온 거죠 - 효율성을 극대화하는 방향으로요.
어떻게 써볼까
오픈소스니까 직접 써볼 수 있어요. GitHub에서 코드 받아서 설치하면 돼요:
git clone https://github.com/deepseek-ai/DeepSeek-OCR.git모델 웨이트는 Hugging Face에 있고요:
model_name = ‘deepseek-ai/DeepSeek-OCR’문서를 마크다운으로 변환하고 싶으면:
prompt = “<image>\n<|grounding|>Convert the document to markdown.”환경은 CUDA 11.8 + PyTorch 2.6.0이고, vLLM이나 Transformers로 inference 돌릴 수 있어요.
마무리
DeepSeek-OCR은 텍스트 처리에 대한 참신한 접근이에요. 텍스트를 이미지로 바꿔서 압축하면 토큰을 대폭 줄일 수 있고, 그만큼 LLM이 더 많은 컨텍스트를 다룰 수 있게 되는 거죠.
아직 초기 단계고 검증해야 할 부분들이 있지만, 효율성 측면에서는 명확한 이점을 보여줬어요. 오픈소스로 공개한 것도 좋고요. 커뮤니티가 이걸 어떻게 발전시킬지, 그리고 이런 접근이 장기적으로 LLM 아키텍처에 어떤 영향을 미칠지 지켜보는 게 재밌을 것 같네요.
참고: 이 글은 DeepSeek AI가 공식 블로그에 게시한 DeepSeek-OCR 발표 내용을 번역하고 요약한 것입니다.
원문: https://deepseek.ai/blog/deepseek-ocr-context-compression
생성: Claude (Anthropic)