DeepSeek-OCR: 텍스트를 이미지로 압축하는 새로운 접근

게시일: 2025년 10월 22일 | 원문 작성일: 2025년 10월 21일 | 발표일: 2025년 10월 20일 | 출처: DeepSeek AI | 원문 보기

핵심 요약

중국 AI 스타트업 DeepSeek가 텍스트 처리 방식을 완전히 뒤집는 오픈소스 모델을 공개했어요. 기존처럼 단어나 토큰으로 텍스트를 읽는 게 아니라, 텍스트를 픽셀로 바꿔서 2D 이미지로 이해하는 방식이에요. 이걸로 문서를 7~20배나 압축할 수 있다고 하네요.

왜 중요한가:

토큰 효율이 미쳤어요 - 1,000단어 문서를 고작 100개 비전 토큰으로 압축 가능
성능도 괜찮아요 - 9~10배 압축에서 96% OCR 정확도, 20배 압축에서도 60% 유지
실용적이에요 - A100 GPU 하나로 하루에 20만 페이지 이상 처리 가능
오픈소스죠 - GitHub랑 Hugging Face에 코드랑 모델 웨이트 전부 공개

뭐가 다른가?

기존 LLM들은 텍스트를 토큰 단위로 쪼개서 처리하잖아요. 근데 DeepSeek-OCR은 아예 접근을 바꿨어요. 텍스트를 이미지로 렌더링한 다음에, 그 이미지를 작은 패치로 나눠서 “비전 토큰”으로 압축하는 거예요. 그러니까 텍스트를 텍스트로 읽는 게 아니라 이미지로 읽는다는 게 핵심이에요.

OpenAI 공동창업자였던 Andrej Karpathy도 이거 보고 “토크나이저가 아예 필요 없어질 수도 있겠네”라고 했다는데, 그 정도로 패러다임이 다른 접근법이에요.

작동 방식

graph LR A["텍스트 입력"] --> B["이미지로 렌더링"] B --> C["DeepEncoder 처리"] C --> D["16x 압축"] D --> E["비전 토큰 생성"] E --> F["DeepSeek-3B-MoE 디코딩"] F --> G["텍스트 출력"]

프로세스를 좀 더 자세히 보면:

텍스트를 이미지로 - 일반 텍스트를 비주얼 레이아웃으로 렌더링해요
비전 인코딩 - 커스텀 DeepEncoder가 이미지를 스캔하고 작은 패치로 쪼개요 (Meta의 SAM이랑 OpenAI의 CLIP 컴포넌트 사용)
압축 - 이 패치들을 “비전 토큰”이라는 압축된 표현으로 변환해요
디코딩 - AI가 이 압축된 비전 토큰에서 텍스트의 의미를 재구성해요

성능 비교

모델	필요 토큰 수	비고
DeepSeek-OCR (기본)	100개	10배 압축
DeepSeek-OCR (Gundam)	800개 미만	복잡한 레이아웃 처리
GOT-OCR2.0	256개	DeepSeek보다 2.5배 많음
MinerU 2.0	7,000개 가까이	DeepSeek보다 거의 9배 많음

OmniDocBench 벤치마크에서 DeepSeek-OCR은 훨씬 적은 토큰으로 경쟁 모델들을 압도했어요.

여러 모드 지원

DeepSeek-OCR은 상황에 따라 다른 해상도 모드를 쓸 수 있어요:

Tiny 모드 - 512×512 (64 비전 토큰): 간단한 문서용
기본 모드 - 1024×1024 (100~200 토큰): 일반적인 경우
Gundam 모드 - 최대 800 토큰: 신문이나 빽빽한 레이아웃 같은 복잡한 문서 처리할 때 쓰는 “풀파워” 모드예요. 슬라이딩 윈도우나 타일링 기법으로 전체 페이지를 다 커버해요

실용성

이게 그냥 리서치 프로젝트가 아니라 실제로 쓸 만한 이유가 있어요:

설정	처리량
A100 GPU 1개	하루 20만 페이지 이상
서버 20대 (각 8개 GPU)	하루 3,300만 페이지

이 정도면 하룻밤 사이에 대규모 AI 모델 학습용 데이터셋을 만들 수 있는 수준이에요.

학습 데이터

DeepSeek은 이 모델을 학습시키기 위해 꽤 방대한 데이터를 모았어요:

약 100개 언어로 된 PDF 3천만 페이지
자연 장면 이미지 2천만 개
다이어그램, 화학식, 기하학적 도형 등의 합성 샘플 수백만 개

활용 사례

graph TD A["DeepSeek-OCR"] --> B["긴 컨텍스트 처리"] A --> C["PDF 문서 분석"] A --> D["대화 히스토리 압축"] A --> E["대규모 학습 데이터 생성"] B --> F["10배 빠른 응답"] C --> G["마크다운 변환"] D --> H["챗봇 메모리 효율"] E --> I["데이터셋 구축"]

특히 챗봇 같은 경우, 대화 히스토리를 이미지로 저장하면 토큰을 훨씬 적게 쓸 수 있어요. 1,000 토큰이 필요했던 게 100개 정도로 줄어들면, 응답 속도도 10배 빨라지는 거죠.

메모리 관리 아이디어

논문에서 제안한 재밌는 아이디어 중 하나는, 최근 컨텍스트는 고해상도로 저장하고 오래된 건 점점 해상도를 낮춰서 저장하는 거예요. 마치 사람 기억처럼 최근 일은 선명하고 오래된 기억은 희미해지는 식이죠.

한계점과 향후 과제

연구팀도 이게 “초기 탐색”이라고 명확히 밝혔어요. 아직 해결해야 할 질문들이 있거든요:

“Needle-in-a-Haystack” 테스트 - 엄청 긴 컨텍스트에서 특정 정보를 찾을 때 어떻게 작동하는지는 아직 불명확해요
추론 성능 - OCR 정확도는 높은데, 압축된 비전 토큰만으로 복잡한 추론 작업을 잘 할 수 있을지는 더 연구가 필요해요
디지털-옵티컬 인터리브 사전학습 - 텍스트와 이미지를 섞어서 학습하는 방식 같은 걸 앞으로 더 실험할 계획이래요

논문에서도 “OCR 하나만으로는 진정한 context optical compression을 완전히 검증하기엔 부족하다”고 인정하고 있어요.

왜 이게 중요한가

이 연구가 던지는 근본적인 질문은 이거예요: 언어 모델이 텍스트를 텍스트로 처리해야 하나, 아니면 텍스트의 이미지로 처리해야 하나?

적어도 압축 목적으로는 비주얼 표현이 확실한 장점이 있다는 게 증명됐어요. 이게 실제로 방대한 컨텍스트에서의 효과적인 추론으로 이어질지는 앞으로 봐야겠지만요.

DeepSeek은 계속해서 서양 AI 랩들보다 훨씬 적은 컴퓨팅 리소스로 경쟁력 있는 결과를 내고 있어요. 이번 DeepSeek-OCR도 그런 맥락에서 나온 거죠 - 효율성을 극대화하는 방향으로요.

어떻게 써볼까

오픈소스니까 직접 써볼 수 있어요. GitHub에서 코드 받아서 설치하면 돼요:

git clone https://github.com/deepseek-ai/DeepSeek-OCR.git

모델 웨이트는 Hugging Face에 있고요:

model_name = ‘deepseek-ai/DeepSeek-OCR’

문서를 마크다운으로 변환하고 싶으면:

prompt = “<image>\n<|grounding|>Convert the document to markdown.”

환경은 CUDA 11.8 + PyTorch 2.6.0이고, vLLM이나 Transformers로 inference 돌릴 수 있어요.

마무리

DeepSeek-OCR은 텍스트 처리에 대한 참신한 접근이에요. 텍스트를 이미지로 바꿔서 압축하면 토큰을 대폭 줄일 수 있고, 그만큼 LLM이 더 많은 컨텍스트를 다룰 수 있게 되는 거죠.

아직 초기 단계고 검증해야 할 부분들이 있지만, 효율성 측면에서는 명확한 이점을 보여줬어요. 오픈소스로 공개한 것도 좋고요. 커뮤니티가 이걸 어떻게 발전시킬지, 그리고 이런 접근이 장기적으로 LLM 아키텍처에 어떤 영향을 미칠지 지켜보는 게 재밌을 것 같네요.

참고: 이 글은 DeepSeek AI가 공식 블로그에 게시한 DeepSeek-OCR 발표 내용을 번역하고 요약한 것입니다.

원문: https://deepseek.ai/blog/deepseek-ocr-context-compression

생성: Claude (Anthropic)

총괄: 존 (디노이저denoiser)