ai research
AI 데이터 시장은 outcome을 산다: Sean Cai
- Sean Cai는 AI 데이터 시장의 TAM(전체 시장 크기)이 여전히 수백억 달러 이상이고, frontier lab의 데이터 지출은 계속 늘어날 것이라고 봄
- 핵심은 lab이 데이터 파일 자체를 사는 게 아니라, 모델 성능을 바로 올릴 수 있는 outcome을 산다는 점
- 좋은 데이터 회사는 “데이터 10만 개 있습니다”가 아니라, “이 task에서 frontier model이 실패하고, 이 env와 verifier로 hillclimb할 수 있습니다”를 보여줘야 함
- 그래서 RL environment 회사 평가는 dataset 자체보다, 좋은 task, env, verifier, QA, 연구 서비스를 반복 생산하는 내부 시스템을 봐야 한다는 주장
- Sean Cai의 State of Data 일부와 X 글. 첨부 이미지에서는 Anthropic, OpenAI, Google DeepMind, xAI, Meta, Microsoft, Amazon 등이 주요 data buyer로 언급됨
누가 AI 데이터를 사는가?
- 전통적인 buyer는 foundation model을 훈련하는 상업 연구소임. Sean Cai는 Anthropic, OpenAI, Google DeepMind, xAI, Meta, Microsoft, Amazon을 주요 buyer로 봄
- 첨부 이미지 기준으로 이들은 각각 현재 총 데이터 지출이 100억~200억 달러 수준일 수 있다고 언급됨
- 비전통적 buyer도 커지고 있음. 중국 lab(Baidu, ByteDance, Moonshot 등), neo lab(Reflection, Cohere 등), 작은 신규 진입자들이 필요할 때 데이터를 삼
- app layer 회사도 특정 분야에서는 큰 data buyer가 될 수 있음. robotics와 world model 회사, ElevenLabs 같은 audio 회사, NVIDIA와 Apple 같은 hardware 회사가 예시로 언급됨
- 즉 데이터 시장은 frontier lab만의 시장이 아니라, 자기 분야의 foundation model을 직접 훈련하거나 post-train하는 회사들로 넓어질 수 있음
왜 평범한 데이터 프로젝트는 닫히고 있나?
- Sean Cai는 Anthropic이 올해 RL data에 10억 달러를 쓰겠다고 했고, 실제 지출은 그보다 훨씬 커질 수 있다고 봄
- 다만 이 숫자는 공개 회계자료라기보다 업계 코멘트와 시장 관찰에 가까움. 중요한 건 좋은 RL data는 예산 때문에 잘 거절되지 않는다는 큰 방향임
- 반대로 banal data project, 즉 평범한 데이터 외주 프로젝트의 창문은 닫히고 있다고 봄
- 예를 들어 간단한 prompt-response, 쉬운 선호도 라벨링, 일반적인 expert QA, benchmark에 맞춘 대량 annotation은 점점 commodity가 될 수 있음
- frontier model이 이미 강해지면서, 단순 라벨링보다 long-horizon task, RL environment, evaluator, verifier, expert trajectory가 더 중요해지는 흐름
데이터 회사는 실제로 무엇을 파는가?
- lab이 사는 건 dataset.zip이 아니라 “이걸 쓰면 모델이 더 좋아진다”는 결과임
- 그래서 데이터 판매는 SaaS처럼 같은 제품을 여러 고객에게 재판매하는 것보다, 성능 개선 outcome을 파는 서비스에 가까움
- 좋은 팀은 frontier SOTA 모델이 자기 benchmark에서 얼마나 실패하는지 보여줘야 함
- 또 그 실패를 줄이기 위해 어떤 task, trajectory, verifier, QA pipeline을 제공하는지 설명할 수 있어야 함
- Sean Cai가 말한 Tundra는 공개적으로 확인된 제품명이라기보다 Anthropic 내부의 RL data/env acquisition 또는 training pipeline을 가리키는 업계 내부 표현처럼 보임
| 약한 판매 | 강한 판매 |
|---|---|
| 한국 웹 클릭 데이터 10만 개 | 특정 한국 업무에서 모델 실패율을 측정 |
| expert answer를 대량 납품 | 실패 원인별 task와 verifier 제공 |
| benchmark 점수 상승만 주장 | 실제 workflow success rate 개선을 증명 |
| 일회성 dataset 판매 | 월별 recurring task/data capacity 제공 |
| 라벨링 운영 중심 | research service와 QA system 중심 |
왜 internal system이 중요해지나?
- Sean Cai는 RL environment 회사를 볼 때 데이터 자체에 집착하지 말고, outcome을 반복 생산하는 확장 가능한 내부 시스템을 봐야 한다고 말함
- CUA 기준으로는 task generator, simulated browser/app environment, real-world workflow capture, verifier generator, reward/eval pipeline이 필요함
- 여기에 failure mode mining, expert review loop, QA system, customer model별 weak-point targeting까지 붙어야 함
- Mercor가 Scale을 넘어서 보였던 것도 이런 product plus services의 모양 때문이고, newer upstart들도 Mercor, Handshake, Surge의 시장을 가져오려면 비슷한 논리를 보여줘야 함
- TAM이 greenfield라는 말은 시장은 큰데, 연구 이해도와 QA scale, on-demand delivery를 동시에 가진 팀은 아직 적다는 뜻
N-1 lab은 무슨 뜻인가요?
frontier 1등 바로 뒤에 있는 연구소들을 가리키는 표현에 가까움. Sean Cai 문맥에서는 DeepMind, Meta, Microsoft, Amazon, xAI 같은 곳이 Anthropic이나 OpenAI가 먼저 산 데이터셋을 나중에 사거나, 외부 RL environment를 살 수 있다는 뜻으로 쓰임.
AI 데이터 회사가 outcome을 판다는 건 무슨 뜻인가요?
lab은 데이터 파일 자체보다 모델 성능이 실제로 오르는 결과를 원함. 그래서 좋은 데이터 회사는 어떤 모델이 어떤 task에서 실패하는지, 그 실패를 줄이는 env, trajectory, verifier, QA를 어떻게 제공하는지 보여줘야 함.
RL data factory는 뭔가요?
한 번 dataset을 만드는 회사가 아니라, 모델의 약점을 찾고 task와 verifier를 만들고 QA까지 거쳐 계속 학습 데이터를 생산하는 시스템에 가까움. CUA에서는 실제 업무 workflow를 RL 가능한 environment로 바꾸는 공장처럼 보면 됨.