[AI & Robot] 2-2 OpenClaw와 Agentic AI

2026년 03월 12일
공개 Hanyang Univ 26-01

1. OpenClaw

1-1. 역사적 배경 (2025-2026)

  1. 태동: 2025년 말 'ClaudeBot'에서 시작하여, 2026년 1월 'Moltbot'을 거쳐 현재의 OpenClaw로 완성되었습니다.
  2. 변곡점: 기존 AI가 샌드박스 내부에서 텍스트만 뱉어내던 것과 달리, 오픈클로는 컴퓨터의 운영체제(OS) 권한을 직접 부여받아 '행동'하는 주체가 되었습니다.
  3. 산업적 파급력: 젠슨 황(NVIDIA CEO)은 이를 **"리눅스 30년의 성과를 단 3주 만에 압축한 혁명"**이라 평했습니다. 이는 AI가 단순한 '도구'에서 '디지털 노동력'으로 격상되었음을 의미합니다.

1-2. 핵심 철학: BYOK (Bring Your Own Key)

  1. 특정 LLM에 종속되지 않는 독립적 프레임워크입니다.
  2. 사용자는 필요에 따라 GPT-5, Claude 4, 혹은 자체 구축한 경량화 모델(sLLM) 등을 자유롭게 교체하며 '뇌'로 활용할 수 있습니다.

2. AI Agent vs Agentic AI: 패러다임의 전환

현대 AI 시스템을 이해하기 위해서는 '에이전트'라는 개체와 '에이전틱'한 성질을 구분하는 것이 필수적입니다.

항목AI Agent (Legacy)Agentic AI (Modern)
작동 방식1회성 명령 수행 (Single-turn)자율적 계획 및 반복 수행 (Multi-step Loop)
스킬 구조사전에 정의된 함수 호출 (Hard-coded)실시간 코드 생성 및 실행 (Dynamic JIT)
핵심 목표정보의 전달 (Answer)작업의 완수 (Task Completion)
자기 수정인간의 피드백 필요Self-Correction (에러 스스로 수정)




오픈클로는 단순히 명령을 수행하는 프로그램이 아니라, 스스로 생각하고 도구를 사용하는 계층적 제어 구조를 가집니다.

4. 기술적 혁신: 코드 생성(Code Gen)과 메모리 혁명

4-1. 동적 코드 생성 (Just-in-Time Skills)

  1. 개념: 미리 정의된 스킬이 없을 때, 에이전트가 스스로 Python/Shell 스크립트를 작성하여 문제를 해결합니다.
  2. Self-Healing: 실행 중 에러가 발생하면 에러 메시지를 다시 컨텍스트로 입력받아 수 초 내에 코드를 수정하여 재실행합니다.

4-2. 메모리 관리의 변화: Markdown(.md) vs Vector DB

  1. 인지적 메모리 (.md): 최근 맥락, 사용자 취향, 당일 업무 일지 등은 텍스트 기반의 .md 파일로 관리합니다. 이는 LLM이 RAG(검색) 과정 없이 **전체 문맥(Global Context)**을 즉시 흡수하게 하여 추론의 정확도를 높입니다.
  2. 아카이브 메모리 (Vector DB): 방대한 매뉴얼이나 과거 로그 전체 등은 기존처럼 벡터 DB에 저장하여 필요할 때만 호출합니다.

5. Physical AI로의 확장 및 보안 제언

5-1. 로보틱스와의 연동 (VLA 모델)

  1. 디지털 상에서 마우스를 제어하는 논리는 물리 세계의 로봇 제어와 일맥상통합니다.
  2. VLA (Vision-Language-Action) 모델: 시각 정보와 언어 지시를 물리적 행동으로 직접 매핑하는 수식은 다음과 같습니다.

1. 아주 쉬운 의미 (한 문장 요약)

"AI가 지금 내린 명령($Instruction$)을 듣고, 눈($Vision$)과 몸의 상태($State$)를 살펴서, 지금 당장 행동($Action$)하는 공식"

2. 왜 이 수식이 필요한가? (목적)

  1. 답변이 아닌 결과: "어떻게 옮길까요?"라고 **말(Text)**하는 AI가 아니라, 실제로 컵을 옮기는(Action) AI를 만들기 위해서입니다.
  2. 예외 상황 대응: 미리 짜인 프로그램은 장애물을 만나면 멈추지만, 이 수식을 따르는 AI는 상황을 **추론($f$)**해서 스스로 우회합니다.
  3. 인간과의 소통: 개발자가 복잡한 코드를 짤 필요 없이, 인간의 **자연어($Instruction$)**만으로 기계를 움직이기 위함입니다.

3. 구성 요소별 구체적 예시

  1. $Instruction$ (목적: 무엇을 원하는가?)
  2. 예: "바닥에 떨어진 파란색 컵을 집어서 책상 위에 올려줘."
  3. $Vision_{t-n:t}$ (눈: 무엇을 보고 있는가?)
  4. 예: "지금 컵이 굴러가고 있네(과거~현재 영상 흐름). 저기 앞에 의자 다리라는 장애물도 있어."
  5. $State_t$ (몸: 나의 현재 상태는?)
  6. 예: "내 팔은 지금 바닥까지 닿을 수 있는 위치인가? 손가락은 벌어져 있는가?"
  7. $f$ (지능: 어떻게 할까?)
  8. 예: "의자 다리를 피해서 팔을 뻗은 뒤, 컵의 중심을 잡고 들어 올리자"라고 **생각(추론)**하는 뇌.
  9. $Action_t$ (행동: 그래서 무엇을 하는가?)
  10. 예: 실제로 모터를 돌려 팔을 뻗거나, 장애물을 피하는 코드(Script)를 생성해 실행함.


5-2. 안전 가드레일 (Safety Guardrail)

  1. 필요성: AI가 생성한 코드가 시스템을 파괴하거나 물리적 사고를 일으키는 것을 방지합니다.
  2. 구조: 실행 전 정적 분석(Static Analysis)과 실행 중 동적 모니터링(Runtime Monitoring)이 독립된 레이어에서 동작해야 합니다.