Blog by Shin & Co

1. 서론: "반사 신경(Reflex)"에서 "인지적 사고(Cognition)"로

전통적 비전: "이 픽셀 뭉치는 'A'라는 글자다." (기계적 형태 추출)
VLM (Vision-Language Model): "이 문서는 '영수증'이며, 하단의 숫자는 내가 지불해야 할 '최종 합계'다." (맥락과 의도 이해)

2. 핵심 이론: 파운데이션 모델(Foundation Model)과 VLM의 구조

현대 비전 AI는 특정 작업(Task)을 위해 밑바닥부터 학습하는 개별 모델에서, 방대한 세상의 지식을 미리 학습한 파운데이션 모델 기반으로 패러다임이 전환되었습니다.

A. VLM의 3대 구성 요소

Vision Encoder (눈): 이미지를 특징 벡터(Patch)로 분할하여 시각적 패턴을 인식합니다.
Connector/Projection (연결 통로): 시각 정보를 언어 모델이 이해할 수 있는 토큰(Token) 형태로 번역합니다.
LLM Backbone (뇌): 변환된 시각 토큰과 사용자의 텍스트(Prompt)를 함께 엮어 종합적인 추론 결과를 생성합니다.

B. OCR의 진화: 텍스트 추출에서 문서 구조화로

과거에는 텍스트 박스를 찾고(Detection) 글자를 읽는(Recognition) 복잡한 파이프라인이 필요했습니다. 하지만 현재의 VLM은 이미지를 통째로 입력받아, 글자의 내용뿐만 아니라 표(Table)나 서식의 레이아웃 위치까지 한 번에 구조화된 데이터(JSON 등)로 출력해 냅니다.

3. 구현 시 주의사항

경량 VLM(Small VLM)을 실제 서비스나 로봇에 탑재할 때 반드시 고려해야 할 '이론적 한계'입니다.

해상도와 패치(Patch)의 한계: 경량 모델은 연산 효율을 위해 입력 이미지 사이즈(예: $224 \times 224$)를 작게 축소합니다. 이로 인해 영수증이나 문서의 작은 글씨가 뭉개질 수 있으며, 이를 해결하기 위해 고해상도 이미지를 여러 개로 쪼개서 넣는 타일링(Tiling) 기법이 추가로 필요할 수 있습니다.
추가 학습(SFT)의 필요성: 파운데이션 모델은 범용적이지만, 공장의 특수 부품 코드나 복잡한 사내 양식 등 특정 도메인의 과제를 완벽히 수행하려면 최소한의 파인튜닝(Supervised Fine-Tuning)이나 정교한 코딩(프롬프트 파이프라인 구축)이 수반되어야 합니다.
환각(Hallucination) 가능성: VLM도 사람이 글자를 잘못 읽거나 하듯이 잘못 읽어내는 경우가 있음

4. 결론: 어떤 뇌를 선택할 것인가?

구분	경량 VLM (Local / On-board)	거대 범용 VLM (Cloud API)
특징	파라미터가 작아 디바이스 자체 구동 가능	수천억 개 파라미터의 압도적 지능
주요 장점	저지연(Low Latency), 데이터 보안 유리	고도의 복합 추론, 제로샷(Zero-shot) 문제 해결
단점/과제	도메인 특화 학습(Fine-tuning) 필수	토큰 비용
실무 활용	비슷한 양식의 프린트물 내용 추출	다양한 양식에서 주요 정보 추출