[ AI & Robot ] 11 -1 비전 AI 프레임워크

2026년 05월 14일
공개 Hanyang Univ 26-01

1. 비전 AI의 근간: CNN (Convolutional Neural Networks)

모든 현대적 컴퓨터 비전 기술의 이론적 출발점입니다.

  1. 핵심 개념: 이미지 위를 슬라이딩하는 필터(Kernel)를 통해 유의미한 시각적 특징(Feature)을 추출합니다.
  2. 계층적 구조:
  3. 저수준 레이어: 선, 점, 색상 등 단순 기하학적 형태 인식.
  4. 고수준 레이어: 사물의 형태, 복잡한 패턴 등 추상적 정보 학습.

2. 실시간 객체 탐지의 표준: YOLO (You Only Look Once)

이미지 전체를 한 번의 연산으로 처리하여 속도와 정확도를 동시에 잡은 모델입니다.

A. 기본 객체 탐지 (Object Detection)

  1. 작동 원리: 이미지를 그리드(Grid)로 나누고, 각 그리드에서 물체의 존재 여부와 위치(Bounding Box)를 동시에 예측합니다.
  2. HBB (Horizontal Bounding Box): 수평/수직으로 고정된 일반적인 사각형 박스로 사물을 탐지합니다. 좌표는 보통 중심점과 가로·세로 길이인 $(x, y, w, h)$ 4개(또는 신뢰도 포함 5개) 값으로 정의됩니다.

B. OBB (Oriented Bounding Box) - 정밀 제어를 위한 진화

  1. 정의: 물체의 회전 각도($\theta$)를 포함하여 기울어진 형태에 딱 맞게 생성되는 경계 상자입니다.
  2. 차이점:
  3. 좌표 체계: 단순한 가로·세로가 아니라 4개 모서리의 좌표 $(x_1, y_1, x_2, y_2, x_3, y_3, x_4, y_4)$ 총 8개 값을 활용해 학습 및 추론합니다.
  4. 필요성: 로봇의 파지(Grasping) 위치 결정, 항공 사진 내 비스듬한 선박 탐지 등 물체의 '방향성'이 중요한 실무 환경에서 필수적입니다.

C. YOLO v11+ 프레임워크의 확장성

최신 버전은 단순 탐지를 넘어 다양한 태스크를 통합 지원합니다.

  1. Instance Segmentation: 픽셀 단위로 테두리(Mask)를 구분하여 개별 객체 분리.
  2. Pose Estimation: 신체 주요 관절(Keypoints) 17개를 실시간 추적.
  3. Multi-Object Tracking (MOT): 인식된 객체에 고유 ID를 부여하여 프레임 간 추적 유지.

3. Web & Mobile 인터랙션의 강자: MediaPipe

구글이 제공하는 온디바이스(On-device) 최적화 비전 파이프라인입니다.

  1. 핵심 가치: 별도의 복잡한 모델 학습 없이, 구글이 사전 학습(Pre-trained)한 고성능 모델을 즉시 활용합니다.
  2. HCI(Human-Computer Interaction) 최적화:
  3. Face Landmarker: 얼굴의 478개 3D 좌표 추적 (홍채 및 시선 포함).
  4. Hand Landmarker: 손가락 마디별 21개 좌표 추적 (수어, 제스처 인식).
  5. Holistic Landmarker: 얼굴, 손, 전신을 하나의 모델로 통합 인식.
  6. 플랫폼 유연성: JavaScript 기반의 WebAssembly/WebGL 가속을 통해 서버 비용 없이 브라우저에서 실시간 연산이 가능합니다.

4. 실무 기술 선택 가이드

구분YOLO 시리즈MediaPipe
주요 대상커스텀 객체 (산업용 부품, 불량품 등)인체 (얼굴, 손, 자세)
학습 필요성필수 (데이터 수집 및 라벨링 필요)불필요 (Pre-trained 모델 활용)
주요 환경로봇 온보드(Jetson), C++, Python웹(JS), 모바일 앱, 가벼운 프로토타입
강점OBB를 통한 정밀한 위치/각도 제어서버리스 구현, 설치 및 사용의 간편함

5. 전통적 판별 모델의 한계와 VLM의 등장 배경

YOLO와 MediaPipe 같은 판별 모델(Discriminative Model)은 명확한 한계를 가집니다.

  1. 닫힌 세계 (Closed-set)의 벽: 학습 데이터에 없는 객체는 인식하지 못하거나 엉뚱하게 분류합니다. "모르는 것"에 대해 "모른다"고 답하는 지능이 부족합니다.
  2. 맥락(Context) 이해 부재: 물체의 위치는 찾지만, 해당 상황의 의미(예: 칼이 요리용인지 위험 상황인지)나 물체 간의 인과관계를 추론하지 못합니다.
  3. 데이터 의존성: 새로운 객체를 인식시키기 위해 매번 대량의 라벨링 데이터가 필요합니다.