1. OpenClaw
1-1. 역사적 배경 (2025-2026)
- 태동: 2025년 말 'ClaudeBot'에서 시작하여, 2026년 1월 'Moltbot'을 거쳐 현재의 OpenClaw로 완성되었습니다.
- 변곡점: 기존 AI가 샌드박스 내부에서 텍스트만 뱉어내던 것과 달리, 오픈클로는 컴퓨터의 운영체제(OS) 권한을 직접 부여받아 '행동'하는 주체가 되었습니다.
- 산업적 파급력: 젠슨 황(NVIDIA CEO)은 이를 **"리눅스 30년의 성과를 단 3주 만에 압축한 혁명"**이라 평했습니다. 이는 AI가 단순한 '도구'에서 '디지털 노동력'으로 격상되었음을 의미합니다.
1-2. 핵심 철학: BYOK (Bring Your Own Key)
- 특정 LLM에 종속되지 않는 독립적 프레임워크입니다.
- 사용자는 필요에 따라 GPT-5, Claude 4, 혹은 자체 구축한 경량화 모델(sLLM) 등을 자유롭게 교체하며 '뇌'로 활용할 수 있습니다.
2. AI Agent vs Agentic AI: 패러다임의 전환
현대 AI 시스템을 이해하기 위해서는 '에이전트'라는 개체와 '에이전틱'한 성질을 구분하는 것이 필수적입니다.
| 항목 | AI Agent (Legacy) | Agentic AI (Modern) |
| 작동 방식 | 1회성 명령 수행 (Single-turn) | 자율적 계획 및 반복 수행 (Multi-step Loop) |
| 스킬 구조 | 사전에 정의된 함수 호출 (Hard-coded) | 실시간 코드 생성 및 실행 (Dynamic JIT) |
| 핵심 목표 | 정보의 전달 (Answer) | 작업의 완수 (Task Completion) |
| 자기 수정 | 인간의 피드백 필요 | Self-Correction (에러 스스로 수정) |
오픈클로는 단순히 명령을 수행하는 프로그램이 아니라, 스스로 생각하고 도구를 사용하는 계층적 제어 구조를 가집니다.
4. 기술적 혁신: 코드 생성(Code Gen)과 메모리 혁명
4-1. 동적 코드 생성 (Just-in-Time Skills)
- 개념: 미리 정의된 스킬이 없을 때, 에이전트가 스스로 Python/Shell 스크립트를 작성하여 문제를 해결합니다.
- Self-Healing: 실행 중 에러가 발생하면 에러 메시지를 다시 컨텍스트로 입력받아 수 초 내에 코드를 수정하여 재실행합니다.
4-2. 메모리 관리의 변화: Markdown(.md) vs Vector DB
- 인지적 메모리 (.md): 최근 맥락, 사용자 취향, 당일 업무 일지 등은 텍스트 기반의
.md파일로 관리합니다. 이는 LLM이 RAG(검색) 과정 없이 **전체 문맥(Global Context)**을 즉시 흡수하게 하여 추론의 정확도를 높입니다. - 아카이브 메모리 (Vector DB): 방대한 매뉴얼이나 과거 로그 전체 등은 기존처럼 벡터 DB에 저장하여 필요할 때만 호출합니다.
5. Physical AI로의 확장 및 보안 제언
5-1. 로보틱스와의 연동 (VLA 모델)
- 디지털 상에서 마우스를 제어하는 논리는 물리 세계의 로봇 제어와 일맥상통합니다.
- VLA (Vision-Language-Action) 모델: 시각 정보와 언어 지시를 물리적 행동으로 직접 매핑하는 수식은 다음과 같습니다.
1. 아주 쉬운 의미 (한 문장 요약)
"AI가 지금 내린 명령($Instruction$)을 듣고, 눈($Vision$)과 몸의 상태($State$)를 살펴서, 지금 당장 행동($Action$)하는 공식"
2. 왜 이 수식이 필요한가? (목적)
- 답변이 아닌 결과: "어떻게 옮길까요?"라고 **말(Text)**하는 AI가 아니라, 실제로 컵을 옮기는(Action) AI를 만들기 위해서입니다.
- 예외 상황 대응: 미리 짜인 프로그램은 장애물을 만나면 멈추지만, 이 수식을 따르는 AI는 상황을 **추론($f$)**해서 스스로 우회합니다.
- 인간과의 소통: 개발자가 복잡한 코드를 짤 필요 없이, 인간의 **자연어($Instruction$)**만으로 기계를 움직이기 위함입니다.
3. 구성 요소별 구체적 예시
- $Instruction$ (목적: 무엇을 원하는가?)
- 예: "바닥에 떨어진 파란색 컵을 집어서 책상 위에 올려줘."
- $Vision_{t-n:t}$ (눈: 무엇을 보고 있는가?)
- 예: "지금 컵이 굴러가고 있네(과거~현재 영상 흐름). 저기 앞에 의자 다리라는 장애물도 있어."
- $State_t$ (몸: 나의 현재 상태는?)
- 예: "내 팔은 지금 바닥까지 닿을 수 있는 위치인가? 손가락은 벌어져 있는가?"
- $f$ (지능: 어떻게 할까?)
- 예: "의자 다리를 피해서 팔을 뻗은 뒤, 컵의 중심을 잡고 들어 올리자"라고 **생각(추론)**하는 뇌.
- $Action_t$ (행동: 그래서 무엇을 하는가?)
- 예: 실제로 모터를 돌려 팔을 뻗거나, 장애물을 피하는 코드(Script)를 생성해 실행함.
5-2. 안전 가드레일 (Safety Guardrail)
- 필요성: AI가 생성한 코드가 시스템을 파괴하거나 물리적 사고를 일으키는 것을 방지합니다.
- 구조: 실행 전 정적 분석(Static Analysis)과 실행 중 동적 모니터링(Runtime Monitoring)이 독립된 레이어에서 동작해야 합니다.