rl research

RL environment 회사는 lab 밖으로 가야 한다: Sean Cai

· · 5 min read 5분 읽기
Share
  • Sean Cai의 큰 주장은 RL environment 회사가 영원히 frontier lab에만 팔 수는 없다는 것임
  • AI infra 회사들은 지금 OpenAI, Anthropic, DeepMind 같은 소수 고객에 매출이 집중되기 쉽지만, 진짜 TAM 확장은 enterprise deployment에서 나올 가능성이 큼
  • 아직 대부분의 기업은 AI를 의미 있게 쓰지 못함. 이유는 모델이 없어서가 아니라, 실제 업무를 AI가 수행하게 만드는 forward-deployed engineering 비용이 너무 높기 때문
  • 그래서 Sean Cai가 보는 다음 기회는 toy benchmark가 아니라 real workflow에서 나온 data, verifier, eval, RL environment임
  • 한 줄로 말하면, 업무 자동화 시장은 결국 verifiable workflow 시장이라는 주장에 가까움

Automating work is a verifiability problem

  • 화이트칼라 업무 자동화의 본질은 “모델이 할 수 있냐”보다 “맞게 했는지 검증할 수 있냐”에 가까움
  • 모델은 이미 글쓰기, 브라우징, 코드 작성, 문서 요약 같은 행동을 어느 정도 할 수 있음
  • 하지만 실제 업무에서는 정답이 애매함. 법무 문서 검토, 보험 심사, 재무 분석, 이메일 처리에는 정책, 순서, 툴 사용, 회사별 취향이 들어감
  • RL이 잘 되려면 reward signal이 필요한데, reward signal은 결국 검증 가능성에서 나옴
  • 그래서 중요한 파이프라인은 raw workflow를 verifiable task, resettable environment, verifier, reward/eval signal로 바꾸는 것임

데이터 시장은 annotation에서 RL environment로 이동함

  • 예전 Scale AI 시대의 데이터 시장은 이미지 라벨링이 중심이었음. 자율주행 이미지에서 차선, 사람, 신호등 박스를 치는 식임
  • foundation model 이후에는 단순 라벨보다 human feedback, expert reasoning, long-horizon task data가 중요해졌음
  • 지금은 데이터가 정적인 예제가 아니라, 모델이 행동하고 피드백받는 환경으로 바뀌고 있음
  • 흐름을 단순화하면 box labeling에서 human feedback, long-horizon workflow, RL environment로 이동하는 중임
  • 이 관점에서 다음 데이터 벤더는 단순 라벨링 회사가 아니라 RL env builder에 가까움

왜 지금인가?

  • pretraining만으로는 planning, tool use, long-horizon reasoning, 실제 업무 수행을 안정적으로 해결하기 어려움
  • 그래서 다음 성능 개선은 mid-training, post-training, RL environment에서 나오는 비중이 커질 가능성이 큼
  • pretraining은 모델이 세상 지식과 언어/코드 패턴을 배우는 단계에 가깝고, post-training은 모델을 더 유용하고 안전하고 특정 업무에 맞게 만드는 단계임
  • RL environment는 모델이 실제 task를 반복 수행하면서 reward를 통해 좋아지는 공간임
  • foundation model을 새로 만드는 회사보다, 기존 model을 특정 workflow에서 더 잘하게 만드는 infra/data 회사에도 기회가 생김

Data marketplace 2.0

  • Mercor, Surge AI, Scale 같은 회사들은 단순 라벨링 회사에서 training infrastructure 회사로 올라가고 있음
  • 예전 데이터 회사는 사람을 붙여 라벨을 만드는 회사였음
  • 지금 데이터 회사는 사람, eval, feedback, RL loop까지 제공하는 회사에 가까워지고 있음
  • 다만 이런 회사들과 정면으로 데이터 벤더 경쟁을 하면 어렵고, 더 좁은 wedge가 필요함
  • 예를 들면 한국어/아시아 업무용 CUA workflow, legal/admin/finance desktop workflow, deterministic verifier가 있는 CUA env package 같은 식임

Enterprise ML becomes sophisticated

  • 이제 고급 post-training data를 사는 곳은 AI lab만이 아님
  • Ramp, Airbnb, Cursor, Coinbase, Goldman Sachs 같은 회사들이 내부 AI task force나 applied ML team을 만들고 있음
  • 즉 buyer가 lab에서 enterprise applied ML team, AI application startup으로 확장되고 있음
  • 처음부터 OpenAI만 바라보는 것보다, 기업 applied ML 팀이나 vertical AI startup에 eval pack, workflow env를 파는 길도 있음
  • 이게 Sean Cai가 말한 lab 밖의 더 넓은 바다임

RL environment는 새로운 데이터셋임

  • agent는 실제 업무에서 여러 step을 거쳐 행동해야 하므로 static dataset만으로는 부족함
  • agent가 직접 환경 안에서 행동하고 reward를 받아야 함
  • 예시는 spreadsheet task, email inbox secretary task, browser-based finance task, Salesforce/Epic 같은 enterprise system task, coding environment task임
  • RLaaS는 이런 환경과 training loop를 회사들이 직접 만들지 않고도 쓸 수 있게 해주는 managed platform에 가까움
  • 초기 product는 완전한 platform보다 eval pack 또는 RL task package가 더 현실적일 수 있음

RL environment의 5개 layer

Layer의미예시
Layer 0Orchestrationrunner, reset, parallel execution, logging, screenshot, state replay
Layer 1Environmentbrowser, SaaS, mock ERP, desktop workflow, fake legal portal
Layer 2Data고객 이메일, PDF, 송장, 계약서, CRM record
Layer 3Tasks & Rewardsinstruction, success condition, reward signal
Layer 4VerificationDB state, file output, state diff, deterministic verifier
  • 여기서 가장 어려운 부분은 verification임
  • agent input은 screen-only일 수 있지만, verifier는 DB, state, file, output을 봐도 됨
  • 중요한 건 모델이 점수를 속이지 못하게 만들고, 실제 production KPI와 correlation이 있는 eval을 만드는 것임

어떻게 팔리나?

  • 현재 RL env 회사들은 pure SaaS보다 forward-deployed engineering에 가까움
  • 고객 업무를 분석해서 deterministic slice를 만들고, 이 eval이 production KPI와 상관관계가 있다는 걸 보여줘야 함
  • 판매 흐름은 eval pack, reward hosting/regression, environment factory 순서로 갈 수 있음
  • 처음에는 4~8주짜리 workflow slice를 만들고, 이후 nightly eval, dashboard, monitoring, reward hosting으로 확장하는 방식이 자연스러움
  • 즉 처음 상품은 완전한 플랫폼보다 특정 workflow의 eval pack이 될 가능성이 큼

이기는 회사는 무엇이 다른가?

  • 첫째, environment 하나를 만드는 COGS가 계속 내려가야 함. 매번 수작업이면 consultancy로 끝남
  • 둘째, eval-to-production correlation을 증명해야 함. 여기서 좋아진 모델이 실제 업무에서도 좋아져야 함
  • 셋째, moat는 environment 자체보다 verifier library, state replay, UI resilience, semantic anchor, lab trust에 생김
  • 넷째, 단순 env는 commoditize될 수 있으므로 reward hosting, safety, orchestration, monitoring으로 올라가야 함
  • 그래서 좋은 RL env 회사는 코드 회사라기보다 data, workflow understanding, verifier know-how 회사에 가까움

UseDesktop 관점

  • 이 글을 UseDesktop 관점으로 번역하면, CUA 시장에서 돈 되는 건 agent demo가 아니라 실제 업무를 resettable하고 verifiable한 RL task로 바꾸는 인프라임
  • 한 vertical의 반복 업무를 골라서 mock app, realistic data, deterministic verifier, trajectory, eval runner를 만드는 것이 출발점이 될 수 있음
  • 그걸로 모델 성능이 실제로 올라간다는 걸 보여주면, 다음에는 reward hosting, regression, orchestration, RLaaS로 확장할 수 있음
  • 결국 UseDesktop의 포지션은 CUA 데이터 회사보다 verified computer-use training environment 회사가 더 클 수 있음

왜 lab 고객만으로는 부족한가요?

frontier lab은 큰돈을 쓰지만 고객 수가 적음. 장기적으로 venture-scale 회사가 되려면 enterprise applied ML team, vertical AI startup, 일반 기업 workflow automation 시장으로 확장해야 함.

verifiable workflow가 왜 중요한가요?

RL은 reward가 있어야 학습됨. 업무가 성공했는지 자동으로 확인할 수 없으면 수천 번 rollout해도 모델을 안정적으로 개선하기 어려움.

RLaaS는 아직 이른가요?

end-to-end RLaaS는 아직 어려운 부분이 많음. eval, trajectory data pipeline, verified env, training, deployment를 모두 커버해야 하기 때문임. 그래서 초기에는 eval pack이나 workflow env package가 더 현실적인 wedge일 수 있음.

References 참고 자료

  1. https://x.com/SeanZCai/status/2063655806181204029