1. 서론: "반사 신경(Reflex)"에서 "인지적 사고(Cognition)"로
- 전통적 비전: "이 픽셀 뭉치는 'A'라는 글자다." (기계적 형태 추출)
- VLM (Vision-Language Model): "이 문서는 '영수증'이며, 하단의 숫자는 내가 지불해야 할 '최종 합계'다." (맥락과 의도 이해)
2. 핵심 이론: 파운데이션 모델(Foundation Model)과 VLM의 구조
현대 비전 AI는 특정 작업(Task)을 위해 밑바닥부터 학습하는 개별 모델에서, 방대한 세상의 지식을 미리 학습한 파운데이션 모델 기반으로 패러다임이 전환되었습니다.
A. VLM의 3대 구성 요소
- Vision Encoder (눈): 이미지를 특징 벡터(Patch)로 분할하여 시각적 패턴을 인식합니다.
- Connector/Projection (연결 통로): 시각 정보를 언어 모델이 이해할 수 있는 토큰(Token) 형태로 번역합니다.
- LLM Backbone (뇌): 변환된 시각 토큰과 사용자의 텍스트(Prompt)를 함께 엮어 종합적인 추론 결과를 생성합니다.
B. OCR의 진화: 텍스트 추출에서 문서 구조화로
과거에는 텍스트 박스를 찾고(Detection) 글자를 읽는(Recognition) 복잡한 파이프라인이 필요했습니다. 하지만 현재의 VLM은 이미지를 통째로 입력받아, 글자의 내용뿐만 아니라 표(Table)나 서식의 레이아웃 위치까지 한 번에 구조화된 데이터(JSON 등)로 출력해 냅니다.
3. 구현 시 주의사항
경량 VLM(Small VLM)을 실제 서비스나 로봇에 탑재할 때 반드시 고려해야 할 '이론적 한계'입니다.
- 해상도와 패치(Patch)의 한계: 경량 모델은 연산 효율을 위해 입력 이미지 사이즈(예: $224 \times 224$)를 작게 축소합니다. 이로 인해 영수증이나 문서의 작은 글씨가 뭉개질 수 있으며, 이를 해결하기 위해 고해상도 이미지를 여러 개로 쪼개서 넣는 타일링(Tiling) 기법이 추가로 필요할 수 있습니다.
- 추가 학습(SFT)의 필요성: 파운데이션 모델은 범용적이지만, 공장의 특수 부품 코드나 복잡한 사내 양식 등 특정 도메인의 과제를 완벽히 수행하려면 최소한의 파인튜닝(Supervised Fine-Tuning)이나 정교한 코딩(프롬프트 파이프라인 구축)이 수반되어야 합니다.
- 환각(Hallucination) 가능성: VLM도 사람이 글자를 잘못 읽거나 하듯이 잘못 읽어내는 경우가 있음
4. 결론: 어떤 뇌를 선택할 것인가?
| 구분 | 경량 VLM (Local / On-board) | 거대 범용 VLM (Cloud API) |
| 특징 | 파라미터가 작아 디바이스 자체 구동 가능 | 수천억 개 파라미터의 압도적 지능 |
| 주요 장점 | 저지연(Low Latency), 데이터 보안 유리 | 고도의 복합 추론, 제로샷(Zero-shot) 문제 해결 |
| 단점/과제 | 도메인 특화 학습(Fine-tuning) 필수 | 토큰 비용 |
| 실무 활용 | 비슷한 양식의 프린트물 내용 추출 | 다양한 양식에서 주요 정보 추출 |