World Model의 세 기능: Fei-Fei Li

“World model”이라는 말이 너무 넓게 쓰이고 있음. 영상 생성 모델, 로봇 계획 모델, 물리 시뮬레이터가 모두 같은 이름으로 불리지만 실제 기능은 다름
World Labs는 이를 세 가지 기능으로 나눔. renderer는 픽셀을 만들고, simulator는 상태를 만들고, planner는 행동을 만듦
핵심 주장은 simulator가 가장 덜 화려하지만 가장 중요하다는 것. 예쁜 영상과 실제로 작동하는 로봇 사이를 잇는 구조적 뼈대이기 때문
renderers는 이미 상업적으로 성숙했지만 물리적으로 틀릴 수 있고, planners는 흥미롭지만 아직 실험실 환경에 가까움. simulation은 3D 데이터 부족, sim-to-real gap, 고비용 multi-physics 같은 어려운 문제가 남아 있음
Fei-Fei Li와 World Labs 팀이 쓴 에세이. World Labs는 공간지능(spatial intelligence)과 3D world model을 만드는 AI 스타트업

world model이라는 말은 왜 헷갈리나?

원래 기술적 의미는 agent가 world와 상호작용하는 루프에서 출발함
agent는 어떤 행동(action)을 함. 그 행동은 world의 상태(state)를 바꿈. agent는 그 상태 전체를 직접 보지 못하고 관찰값(observation)만 받음
쉬운 예로, 로봇이 컵을 밀면 컵의 위치, 속도, 접촉 상태가 바뀜. 로봇 카메라에 들어오는 건 그중 일부 픽셀뿐임
여기서 state는 “진짜 세상에서 벌어지는 전체 상태”에 가까움. observation은 그중 agent가 보는 일부이고, action은 agent가 다음에 취하는 움직임임
지금 사람들이 부르는 world model은 이 루프의 서로 다른 조각을 출력하는 모델들임. 그래서 같은 단어를 쓰지만 실제로는 전혀 다른 제품이 될 수 있음

세 가지 world model은 무엇이 다른가?

유형	출력	무엇을 잘해야 하나	예시	한계
renderer	관찰값, 픽셀, 영상	사람이 보기에 그럴듯해야 함	텍스트 투 비디오, Genie 3, RTFM	예뻐 보여도 3D 구조나 물리가 틀릴 수 있음
simulator	상태, 구조, 물리 세계	geometry, physics, dynamics가 맞아야 함	Omniverse, Marble, 로봇 훈련 환경	데이터가 부족하고 계산 비용이 큼
planner	행동	목표를 보고 다음 행동을 정해야 함	VLA 모델, World Action Model	실제 환경의 복잡도와 긴 작업 시간에서 검증이 부족함

renderer는 “사람 눈에 무엇이 보일까”를 만듦. 영화 같은 드론샷은 만들 수 있지만, 그 도시 안으로 차를 몰고 들어가면 건물 구조가 무너질 수 있음
simulator는 “그 세계가 실제로 어떻게 구성되어 있나”를 만듦. 건축가, 게임 개발자, 로봇, 자율주행 시스템이 함께 계산할 수 있어야 함
planner는 “지금 무엇을 해야 하나”를 출력함. 관찰값과 목표를 보고 로봇 팔이 어디로 움직일지, 소프트웨어 agent가 어떤 다음 단계를 밟을지 정하는 쪽임

왜 simulation이 핵심이면서 어려운가?

renderer는 이미 돈이 되는 시장이 됐음. 이미지와 영상 생성은 소비자와 기업 시장에서 빠르게 퍼지고 있음
하지만 renderer의 기준은 visual plausibility, 즉 보기 좋은 결과임. 건물을 설계하거나 로봇을 훈련시키려면 보기 좋은 것만으로 부족함
planner는 더 야심찬 영역임. 로봇이 알아서 일하려면 결국 행동을 계획해야 함. 다만 지금의 데모들은 대부분 제한된 물체, 짧은 작업, 통제된 실험실 환경에 머무름
simulation은 이 둘 사이의 다리임. geometry, physics, dynamics를 제대로 잡으면 그 위에서 보기 좋은 픽셀도 만들 수 있고, 행동의 결과도 예측할 수 있음
NVIDIA Omniverse가 공장, 창고, 공급망, digital twin을 겨냥해 거대한 시장을 보는 이유도 여기 있음. 로봇 훈련, 자율주행 테스트, 건축, 엔지니어링, 신약 개발 모두 simulation-shaped 문제에 가까움
어려운 이유는 데이터임. 인터넷 영상은 많지만, 정확한 3D geometry, 재질, 물리 속성까지 붙은 데이터는 훨씬 적음
sim-to-real gap도 큼. 시뮬레이션에서 잘 되던 로봇이 실제 주방, 창고, 수술실에 가면 작은 차이 때문에 실패할 수 있음
생성형 simulator는 겉보기엔 맞는 3D 모델을 만들 수 있지만, 내부 mesh가 꼬였거나 크기가 틀리면 물리 엔진에 넣었을 때 말이 안 되는 결과가 나올 수 있음
multi-physics도 어렵고 비쌈. 딱딱한 물체, 천, 유체, 변형되는 물체가 함께 움직이는 세계를 큰 규모로 계산하는 건 아직 무거운 문제임
World Labs의 Marble은 이 방향의 첫 제품임. 텍스트, 이미지, 영상, spatial sketch를 받아 탐험 가능한 3D 환경을 만들고, 시각 탐색용 Gaussian splats와 물리 엔진용 collision mesh를 함께 출력함

결국 unified world model로 가나?

원문이 보는 방향은 세 기능의 통합임. 컵이 테이블 위에 놓인 방식을 진짜 이해한다면, 그 컵을 다른 각도에서 렌더링하고, 밀었을 때 변화를 시뮬레이션하고, 손으로 집는 행동도 계획할 수 있어야 함
즉 renderer, simulator, planner는 완전히 다른 지식이 아니라 같은 world understanding의 세 출력 형태에 가까움
최종 목표는 downstream consumer에 맞춰 photorealistic view, physically accurate structure, action sequence를 바꿔 출력하는 하나의 foundation model임
다만 한 아키텍처 안에서 visual beauty와 physical precision을 동시에 맞추는 문제는 아직 열려 있음. 보기 좋은 결과와 로봇이 믿고 쓸 수 있는 결과는 같은 기준이 아니기 때문

renderer와 simulator는 뭐가 다른가요?

renderer는 사람이 볼 픽셀을 만드는 모델이고, simulator는 세계의 구조와 물리 상태를 만드는 모델임. 예쁜 영상은 renderer의 성공일 수 있지만, 로봇이 그 안에서 움직이거나 건축가가 설계 판단을 하려면 simulator 수준의 정확도가 필요함.

왜 simulator가 로봇 훈련에 중요한가요?

로봇은 현실에서 무한히 실패하며 배울 수 없음. 위험하고 비싸고 느리기 때문임. simulator가 정확하면 로봇은 가상 환경에서 수많은 상황을 시험하고, 현실에 오기 전 행동 전략을 훨씬 많이 학습할 수 있음.

unified world model은 언제쯤 가능한가요?

방향은 분명하지만 시점은 불확실함. 인터넷 영상으로 학습한 renderer는 빠르게 발전했지만, simulator와 planner에는 3D 데이터, robot demonstration, 물리 검증 문제가 훨씬 크게 남아 있음. 단기 제품은 세 기능이 섞이는 형태로 먼저 나올 가능성이 커 보임.

1인기업 관점

이 글은 AI 제품에서도 “보기 좋은 데모”와 “실제로 고객 workflow 안에서 믿고 쓸 수 있는 시스템”이 다르다는 말처럼 들림. 1인기업도 renderer 수준의 예쁜 생성 결과만 만들면 금방 복제될 듯함. 진짜 가치는 고객의 state, action, 검증 기준을 얼마나 잘 잡고, 그걸 반복 가능한 simulator처럼 만들어 주느냐에 있을 것 같음.