AI 데이터 시장은 outcome을 산다: Sean Cai

Sean Cai는 AI 데이터 시장의 TAM(전체 시장 크기)이 여전히 수백억 달러 이상이고, frontier lab의 데이터 지출은 계속 늘어날 것이라고 봄
핵심은 lab이 데이터 파일 자체를 사는 게 아니라, 모델 성능을 바로 올릴 수 있는 outcome을 산다는 점
좋은 데이터 회사는 “데이터 10만 개 있습니다”가 아니라, “이 task에서 frontier model이 실패하고, 이 env와 verifier로 hillclimb할 수 있습니다”를 보여줘야 함
그래서 RL environment 회사 평가는 dataset 자체보다, 좋은 task, env, verifier, QA, 연구 서비스를 반복 생산하는 내부 시스템을 봐야 한다는 주장
Sean Cai의 State of Data 일부와 X 글. 첨부 이미지에서는 Anthropic, OpenAI, Google DeepMind, xAI, Meta, Microsoft, Amazon 등이 주요 data buyer로 언급됨

누가 AI 데이터를 사는가?

전통적인 buyer는 foundation model을 훈련하는 상업 연구소임. Sean Cai는 Anthropic, OpenAI, Google DeepMind, xAI, Meta, Microsoft, Amazon을 주요 buyer로 봄
첨부 이미지 기준으로 이들은 각각 현재 총 데이터 지출이 100억~200억 달러 수준일 수 있다고 언급됨
비전통적 buyer도 커지고 있음. 중국 lab(Baidu, ByteDance, Moonshot 등), neo lab(Reflection, Cohere 등), 작은 신규 진입자들이 필요할 때 데이터를 삼
app layer 회사도 특정 분야에서는 큰 data buyer가 될 수 있음. robotics와 world model 회사, ElevenLabs 같은 audio 회사, NVIDIA와 Apple 같은 hardware 회사가 예시로 언급됨
즉 데이터 시장은 frontier lab만의 시장이 아니라, 자기 분야의 foundation model을 직접 훈련하거나 post-train하는 회사들로 넓어질 수 있음

왜 평범한 데이터 프로젝트는 닫히고 있나?

Sean Cai는 Anthropic이 올해 RL data에 10억 달러를 쓰겠다고 했고, 실제 지출은 그보다 훨씬 커질 수 있다고 봄
다만 이 숫자는 공개 회계자료라기보다 업계 코멘트와 시장 관찰에 가까움. 중요한 건 좋은 RL data는 예산 때문에 잘 거절되지 않는다는 큰 방향임
반대로 banal data project, 즉 평범한 데이터 외주 프로젝트의 창문은 닫히고 있다고 봄
예를 들어 간단한 prompt-response, 쉬운 선호도 라벨링, 일반적인 expert QA, benchmark에 맞춘 대량 annotation은 점점 commodity가 될 수 있음
frontier model이 이미 강해지면서, 단순 라벨링보다 long-horizon task, RL environment, evaluator, verifier, expert trajectory가 더 중요해지는 흐름

데이터 회사는 실제로 무엇을 파는가?

lab이 사는 건 dataset.zip이 아니라 “이걸 쓰면 모델이 더 좋아진다”는 결과임
그래서 데이터 판매는 SaaS처럼 같은 제품을 여러 고객에게 재판매하는 것보다, 성능 개선 outcome을 파는 서비스에 가까움
좋은 팀은 frontier SOTA 모델이 자기 benchmark에서 얼마나 실패하는지 보여줘야 함
또 그 실패를 줄이기 위해 어떤 task, trajectory, verifier, QA pipeline을 제공하는지 설명할 수 있어야 함
Sean Cai가 말한 Tundra는 공개적으로 확인된 제품명이라기보다 Anthropic 내부의 RL data/env acquisition 또는 training pipeline을 가리키는 업계 내부 표현처럼 보임

약한 판매	강한 판매
한국 웹 클릭 데이터 10만 개	특정 한국 업무에서 모델 실패율을 측정
expert answer를 대량 납품	실패 원인별 task와 verifier 제공
benchmark 점수 상승만 주장	실제 workflow success rate 개선을 증명
일회성 dataset 판매	월별 recurring task/data capacity 제공
라벨링 운영 중심	research service와 QA system 중심

왜 internal system이 중요해지나?

Sean Cai는 RL environment 회사를 볼 때 데이터 자체에 집착하지 말고, outcome을 반복 생산하는 확장 가능한 내부 시스템을 봐야 한다고 말함
CUA 기준으로는 task generator, simulated browser/app environment, real-world workflow capture, verifier generator, reward/eval pipeline이 필요함
여기에 failure mode mining, expert review loop, QA system, customer model별 weak-point targeting까지 붙어야 함
Mercor가 Scale을 넘어서 보였던 것도 이런 product plus services의 모양 때문이고, newer upstart들도 Mercor, Handshake, Surge의 시장을 가져오려면 비슷한 논리를 보여줘야 함
TAM이 greenfield라는 말은 시장은 큰데, 연구 이해도와 QA scale, on-demand delivery를 동시에 가진 팀은 아직 적다는 뜻

N-1 lab은 무슨 뜻인가요?

frontier 1등 바로 뒤에 있는 연구소들을 가리키는 표현에 가까움. Sean Cai 문맥에서는 DeepMind, Meta, Microsoft, Amazon, xAI 같은 곳이 Anthropic이나 OpenAI가 먼저 산 데이터셋을 나중에 사거나, 외부 RL environment를 살 수 있다는 뜻으로 쓰임.

AI 데이터 회사가 outcome을 판다는 건 무슨 뜻인가요?

lab은 데이터 파일 자체보다 모델 성능이 실제로 오르는 결과를 원함. 그래서 좋은 데이터 회사는 어떤 모델이 어떤 task에서 실패하는지, 그 실패를 줄이는 env, trajectory, verifier, QA를 어떻게 제공하는지 보여줘야 함.

RL data factory는 뭔가요?

한 번 dataset을 만드는 회사가 아니라, 모델의 약점을 찾고 task와 verifier를 만들고 QA까지 거쳐 계속 학습 데이터를 생산하는 시스템에 가까움. CUA에서는 실제 업무 workflow를 RL 가능한 environment로 바꾸는 공장처럼 보면 됨.