Blog by Shin & Co

VLA 모델은 시각 정보(Vision)와 언어 명령(Language)을 입력받아 로봇의 물리적 행동(Action)을 직접 도출하는 지능형 시스템입니다. 본 자료는 VLA 모델의 성능과 안전성을 결정짓는 핵심 학습 방법론 4가지를 기술적 관점에서 정리합니다.

"전문가의 행동 궤적을 통한 직접 사사"

개념: 전문가(인간 조종자)가 수행한 동작 데이터셋(Expert Trajectory)을 기반으로 로봇의 정책(Policy)을 학습시키는 방식입니다.
핵심 기법 (Behavior Cloning, BC):
특정 상태 $s$에서 전문가의 행동 $a$가 나타날 확률을 최대화하는 지도학습(Supervised Learning) 형태를 취합니다.
: 전문가의 행동과 로봇의 행동 사이의 오차를 최소화합니다.
특징:
데이터가 존재하는 영역 내에서는 매우 빠르게 기본 동작을 습득합니다.
한계: 학습 데이터에 포함되지 않은 낯선 환경(Out-of-Distribution)에 처할 경우, 미세한 오차가 누적되어 로봇이 통제 불능 상태에 빠지는 'Compounding Error' 문제가 발생합니다.

"실시간 상호작용과 시행착오를 통한 최적화"

개념: 로봇이 환경 속에서 직접 행동을 취하고, 그 결과로 주어지는 보상(Reward)을 극대화하는 방향으로 정책을 업데이트합니다.
핵심 기법:
탐험과 이용(Exploration & Exploitation): 새로운 행동을 시도하여 더 높은 보상을 찾거나, 기존에 검증된 높은 보상의 행동을 반복합니다.
Q-Learning 등을 통해 특정 상태에서의 행동 가치를 지속적으로 수정합니다.
특징:
이론적으로 인간의 실력을 뛰어넘는 최적의 효율적 움직임을 찾아낼 수 있습니다.
한계: 실제 로봇 적용 시 물리적 충돌 위험이 크고, 수많은 시행착오가 필요하여 시간적/비용적 효율이 낮습니다.

"기존 로그 데이터셋 기반의 보수적 최적화"

개념: 추가적인 실시간 탐험 없이, 이미 수집된 과거의 모든 기록(성공 및 실패 포함)을 분석하여 최적의 전략을 도출합니다.
핵심 기법 (Pessimistic Optimization):
비관적 가치 추정: 데이터셋에 존재하지 않는 행동(안 가본 길)에 대해서는 보상을 극히 낮게 추정하여 위험을 방지합니다.
정책 제약(Policy Constraint): 새로운 정책이 기존 데이터의 분포(Distribution)에서 너무 멀어지지 않도록 수학적 제약을 겁니다. (예: CQL, BCQ 알고리즘)
특징:
IL과의 차이: 모방학습이 데이터를 '복제'한다면, 오프라인 RL은 데이터 속에서 '성공과 실패의 인과관계'를 파악해 데이터 이상의 최적 효율을 찾아냅니다.

"가상 환경의 지능을 실제 환경으로 전이"

개념: 물리 엔진 기반의 시뮬레이션에서 학습된 모델을 실제 로봇에 적용할 때 발생하는 'Reality Gap'을 극복하는 기술입니다.
핵심 기법 (Domain Randomization):
시뮬레이션의 물리 파라미터(마찰력, 질량, 센서 노이즈, 조명 등)를 매 학습마다 무작위로 변경합니다.
로봇은 수만 가지의 서로 다른 가상 환경 모두에서 성공하는 법을 배워야 합니다.
특징:
강인성(Robustness): 특정 환경 수치에 과적합되지 않고, 환경의 변화에 흔들리지 않는 로버스트한 솔루션을 확보하게 됩니다. 실제 세계는 로봇이 경험한 수많은 랜덤 환경 중 하나가 되어 자연스러운 전이가 가능해집니다.

[ AI & Robot ] 12-2 Vision-Language-Action (VLA) 모델 학습 방법론 개론