1. 비전 AI의 근간: CNN (Convolutional Neural Networks)
모든 현대적 컴퓨터 비전 기술의 이론적 출발점입니다.
- 핵심 개념: 이미지 위를 슬라이딩하는 필터(Kernel)를 통해 유의미한 시각적 특징(Feature)을 추출합니다.
- 계층적 구조:
- 저수준 레이어: 선, 점, 색상 등 단순 기하학적 형태 인식.
- 고수준 레이어: 사물의 형태, 복잡한 패턴 등 추상적 정보 학습.
2. 실시간 객체 탐지의 표준: YOLO (You Only Look Once)
이미지 전체를 한 번의 연산으로 처리하여 속도와 정확도를 동시에 잡은 모델입니다.
A. 기본 객체 탐지 (Object Detection)
- 작동 원리: 이미지를 그리드(Grid)로 나누고, 각 그리드에서 물체의 존재 여부와 위치(Bounding Box)를 동시에 예측합니다.
- HBB (Horizontal Bounding Box): 수평/수직으로 고정된 일반적인 사각형 박스로 사물을 탐지합니다. 좌표는 보통 중심점과 가로·세로 길이인 $(x, y, w, h)$ 4개(또는 신뢰도 포함 5개) 값으로 정의됩니다.
B. OBB (Oriented Bounding Box) - 정밀 제어를 위한 진화
- 정의: 물체의 회전 각도($\theta$)를 포함하여 기울어진 형태에 딱 맞게 생성되는 경계 상자입니다.
- 차이점:
- 좌표 체계: 단순한 가로·세로가 아니라 4개 모서리의 좌표 $(x_1, y_1, x_2, y_2, x_3, y_3, x_4, y_4)$ 총 8개 값을 활용해 학습 및 추론합니다.
- 필요성: 로봇의 파지(Grasping) 위치 결정, 항공 사진 내 비스듬한 선박 탐지 등 물체의 '방향성'이 중요한 실무 환경에서 필수적입니다.
C. YOLO v11+ 프레임워크의 확장성
최신 버전은 단순 탐지를 넘어 다양한 태스크를 통합 지원합니다.
- Instance Segmentation: 픽셀 단위로 테두리(Mask)를 구분하여 개별 객체 분리.
- Pose Estimation: 신체 주요 관절(Keypoints) 17개를 실시간 추적.
- Multi-Object Tracking (MOT): 인식된 객체에 고유 ID를 부여하여 프레임 간 추적 유지.
3. Web & Mobile 인터랙션의 강자: MediaPipe
구글이 제공하는 온디바이스(On-device) 최적화 비전 파이프라인입니다.
- 핵심 가치: 별도의 복잡한 모델 학습 없이, 구글이 사전 학습(Pre-trained)한 고성능 모델을 즉시 활용합니다.
- HCI(Human-Computer Interaction) 최적화:
- Face Landmarker: 얼굴의 478개 3D 좌표 추적 (홍채 및 시선 포함).
- Hand Landmarker: 손가락 마디별 21개 좌표 추적 (수어, 제스처 인식).
- Holistic Landmarker: 얼굴, 손, 전신을 하나의 모델로 통합 인식.
- 플랫폼 유연성: JavaScript 기반의 WebAssembly/WebGL 가속을 통해 서버 비용 없이 브라우저에서 실시간 연산이 가능합니다.
4. 실무 기술 선택 가이드
| 구분 | YOLO 시리즈 | MediaPipe |
| 주요 대상 | 커스텀 객체 (산업용 부품, 불량품 등) | 인체 (얼굴, 손, 자세) |
| 학습 필요성 | 필수 (데이터 수집 및 라벨링 필요) | 불필요 (Pre-trained 모델 활용) |
| 주요 환경 | 로봇 온보드(Jetson), C++, Python | 웹(JS), 모바일 앱, 가벼운 프로토타입 |
| 강점 | OBB를 통한 정밀한 위치/각도 제어 | 서버리스 구현, 설치 및 사용의 간편함 |
5. 전통적 판별 모델의 한계와 VLM의 등장 배경
YOLO와 MediaPipe 같은 판별 모델(Discriminative Model)은 명확한 한계를 가집니다.
- 닫힌 세계 (Closed-set)의 벽: 학습 데이터에 없는 객체는 인식하지 못하거나 엉뚱하게 분류합니다. "모르는 것"에 대해 "모른다"고 답하는 지능이 부족합니다.
- 맥락(Context) 이해 부재: 물체의 위치는 찾지만, 해당 상황의 의미(예: 칼이 요리용인지 위험 상황인지)나 물체 간의 인과관계를 추론하지 못합니다.
- 데이터 의존성: 새로운 객체를 인식시키기 위해 매번 대량의 라벨링 데이터가 필요합니다.