rl research
RL environment 회사는 lab 밖으로 가야 한다: Sean Cai
- Sean Cai의 큰 주장은 RL environment 회사가 영원히 frontier lab에만 팔 수는 없다는 것임
- AI infra 회사들은 지금 OpenAI, Anthropic, DeepMind 같은 소수 고객에 매출이 집중되기 쉽지만, 진짜 TAM 확장은 enterprise deployment에서 나올 가능성이 큼
- 아직 대부분의 기업은 AI를 의미 있게 쓰지 못함. 이유는 모델이 없어서가 아니라, 실제 업무를 AI가 수행하게 만드는 forward-deployed engineering 비용이 너무 높기 때문
- 그래서 Sean Cai가 보는 다음 기회는 toy benchmark가 아니라 real workflow에서 나온 data, verifier, eval, RL environment임
- 한 줄로 말하면, 업무 자동화 시장은 결국 verifiable workflow 시장이라는 주장에 가까움
Automating work is a verifiability problem
- 화이트칼라 업무 자동화의 본질은 “모델이 할 수 있냐”보다 “맞게 했는지 검증할 수 있냐”에 가까움
- 모델은 이미 글쓰기, 브라우징, 코드 작성, 문서 요약 같은 행동을 어느 정도 할 수 있음
- 하지만 실제 업무에서는 정답이 애매함. 법무 문서 검토, 보험 심사, 재무 분석, 이메일 처리에는 정책, 순서, 툴 사용, 회사별 취향이 들어감
- RL이 잘 되려면 reward signal이 필요한데, reward signal은 결국 검증 가능성에서 나옴
- 그래서 중요한 파이프라인은 raw workflow를 verifiable task, resettable environment, verifier, reward/eval signal로 바꾸는 것임
데이터 시장은 annotation에서 RL environment로 이동함
- 예전 Scale AI 시대의 데이터 시장은 이미지 라벨링이 중심이었음. 자율주행 이미지에서 차선, 사람, 신호등 박스를 치는 식임
- foundation model 이후에는 단순 라벨보다 human feedback, expert reasoning, long-horizon task data가 중요해졌음
- 지금은 데이터가 정적인 예제가 아니라, 모델이 행동하고 피드백받는 환경으로 바뀌고 있음
- 흐름을 단순화하면 box labeling에서 human feedback, long-horizon workflow, RL environment로 이동하는 중임
- 이 관점에서 다음 데이터 벤더는 단순 라벨링 회사가 아니라 RL env builder에 가까움
왜 지금인가?
- pretraining만으로는 planning, tool use, long-horizon reasoning, 실제 업무 수행을 안정적으로 해결하기 어려움
- 그래서 다음 성능 개선은 mid-training, post-training, RL environment에서 나오는 비중이 커질 가능성이 큼
- pretraining은 모델이 세상 지식과 언어/코드 패턴을 배우는 단계에 가깝고, post-training은 모델을 더 유용하고 안전하고 특정 업무에 맞게 만드는 단계임
- RL environment는 모델이 실제 task를 반복 수행하면서 reward를 통해 좋아지는 공간임
- foundation model을 새로 만드는 회사보다, 기존 model을 특정 workflow에서 더 잘하게 만드는 infra/data 회사에도 기회가 생김
Data marketplace 2.0
- Mercor, Surge AI, Scale 같은 회사들은 단순 라벨링 회사에서 training infrastructure 회사로 올라가고 있음
- 예전 데이터 회사는 사람을 붙여 라벨을 만드는 회사였음
- 지금 데이터 회사는 사람, eval, feedback, RL loop까지 제공하는 회사에 가까워지고 있음
- 다만 이런 회사들과 정면으로 데이터 벤더 경쟁을 하면 어렵고, 더 좁은 wedge가 필요함
- 예를 들면 한국어/아시아 업무용 CUA workflow, legal/admin/finance desktop workflow, deterministic verifier가 있는 CUA env package 같은 식임
Enterprise ML becomes sophisticated
- 이제 고급 post-training data를 사는 곳은 AI lab만이 아님
- Ramp, Airbnb, Cursor, Coinbase, Goldman Sachs 같은 회사들이 내부 AI task force나 applied ML team을 만들고 있음
- 즉 buyer가 lab에서 enterprise applied ML team, AI application startup으로 확장되고 있음
- 처음부터 OpenAI만 바라보는 것보다, 기업 applied ML 팀이나 vertical AI startup에 eval pack, workflow env를 파는 길도 있음
- 이게 Sean Cai가 말한 lab 밖의 더 넓은 바다임
RL environment는 새로운 데이터셋임
- agent는 실제 업무에서 여러 step을 거쳐 행동해야 하므로 static dataset만으로는 부족함
- agent가 직접 환경 안에서 행동하고 reward를 받아야 함
- 예시는 spreadsheet task, email inbox secretary task, browser-based finance task, Salesforce/Epic 같은 enterprise system task, coding environment task임
- RLaaS는 이런 환경과 training loop를 회사들이 직접 만들지 않고도 쓸 수 있게 해주는 managed platform에 가까움
- 초기 product는 완전한 platform보다 eval pack 또는 RL task package가 더 현실적일 수 있음
RL environment의 5개 layer
| Layer | 의미 | 예시 |
|---|---|---|
| Layer 0 | Orchestration | runner, reset, parallel execution, logging, screenshot, state replay |
| Layer 1 | Environment | browser, SaaS, mock ERP, desktop workflow, fake legal portal |
| Layer 2 | Data | 고객 이메일, PDF, 송장, 계약서, CRM record |
| Layer 3 | Tasks & Rewards | instruction, success condition, reward signal |
| Layer 4 | Verification | DB state, file output, state diff, deterministic verifier |
- 여기서 가장 어려운 부분은 verification임
- agent input은 screen-only일 수 있지만, verifier는 DB, state, file, output을 봐도 됨
- 중요한 건 모델이 점수를 속이지 못하게 만들고, 실제 production KPI와 correlation이 있는 eval을 만드는 것임
어떻게 팔리나?
- 현재 RL env 회사들은 pure SaaS보다 forward-deployed engineering에 가까움
- 고객 업무를 분석해서 deterministic slice를 만들고, 이 eval이 production KPI와 상관관계가 있다는 걸 보여줘야 함
- 판매 흐름은 eval pack, reward hosting/regression, environment factory 순서로 갈 수 있음
- 처음에는 4~8주짜리 workflow slice를 만들고, 이후 nightly eval, dashboard, monitoring, reward hosting으로 확장하는 방식이 자연스러움
- 즉 처음 상품은 완전한 플랫폼보다 특정 workflow의 eval pack이 될 가능성이 큼
이기는 회사는 무엇이 다른가?
- 첫째, environment 하나를 만드는 COGS가 계속 내려가야 함. 매번 수작업이면 consultancy로 끝남
- 둘째, eval-to-production correlation을 증명해야 함. 여기서 좋아진 모델이 실제 업무에서도 좋아져야 함
- 셋째, moat는 environment 자체보다 verifier library, state replay, UI resilience, semantic anchor, lab trust에 생김
- 넷째, 단순 env는 commoditize될 수 있으므로 reward hosting, safety, orchestration, monitoring으로 올라가야 함
- 그래서 좋은 RL env 회사는 코드 회사라기보다 data, workflow understanding, verifier know-how 회사에 가까움
UseDesktop 관점
- 이 글을 UseDesktop 관점으로 번역하면, CUA 시장에서 돈 되는 건 agent demo가 아니라 실제 업무를 resettable하고 verifiable한 RL task로 바꾸는 인프라임
- 한 vertical의 반복 업무를 골라서 mock app, realistic data, deterministic verifier, trajectory, eval runner를 만드는 것이 출발점이 될 수 있음
- 그걸로 모델 성능이 실제로 올라간다는 걸 보여주면, 다음에는 reward hosting, regression, orchestration, RLaaS로 확장할 수 있음
- 결국 UseDesktop의 포지션은 CUA 데이터 회사보다 verified computer-use training environment 회사가 더 클 수 있음
왜 lab 고객만으로는 부족한가요?
frontier lab은 큰돈을 쓰지만 고객 수가 적음. 장기적으로 venture-scale 회사가 되려면 enterprise applied ML team, vertical AI startup, 일반 기업 workflow automation 시장으로 확장해야 함.
verifiable workflow가 왜 중요한가요?
RL은 reward가 있어야 학습됨. 업무가 성공했는지 자동으로 확인할 수 없으면 수천 번 rollout해도 모델을 안정적으로 개선하기 어려움.
RLaaS는 아직 이른가요?
end-to-end RLaaS는 아직 어려운 부분이 많음. eval, trajectory data pipeline, verified env, training, deployment를 모두 커버해야 하기 때문임. 그래서 초기에는 eval pack이나 workflow env package가 더 현실적인 wedge일 수 있음.