좋은 AI 데이터란 무엇인가: Sean Cai

Sean Cai는 “좋은 데이터란 무엇인가?”라는 질문을 던짐. benchmark 점수를 올리는 데이터인지, 전문가들이 좋아 보인다고 고른 데이터인지, 아니면 모델이 나중에 일반화할 어려운 문제군인지 묻는 글
그의 답은 세 번째에 더 가까움. 좋은 데이터는 실제로 가치 있는 long-horizon task를 잘하게 만드는 학습 신호가 있어야 한다는 주장
문제는 연구자와 기존 데이터 buyer가 benchmark 점수나 전문가 평가처럼 좋아 보이는 데이터에 돈을 쓰고 만족할 수 있다는 점
Sean Cai는 이런 비효율이 AI CapEx(설비성 투자, GPU와 데이터 인프라에 들어가는 큰돈) 낭비와 AI bubble로 이어질 수 있다고 봄
X에서 Sean Cai가 AI 데이터 시장의 “good data” 정의를 비판적으로 정리한 글

좋은 데이터는 benchmark 점수를 올리는 데이터인가?

benchmark는 시험지에 가까움. 모델이 특정 문제 묶음에서 몇 점을 받는지 보여줌
데이터 회사는 “우리 데이터를 넣었더니 benchmark가 올랐다”고 팔기 쉬움
하지만 시험 점수가 오른다고 실제 업무 능력이 오른다고 보장되지는 않음
CUA(computer-use agent)로 보면 WebArena, OSWorld, 특정 browser task 점수가 올랐다고 실제 회사 업무 자동화가 잘 된다는 뜻은 아닐 수 있음
모델이 public benchmark의 문제 스타일에 적응했거나, 특정 평가 방식에만 맞춰졌을 가능성도 있음

handpicked expert data는 박사급 연구자, senior engineer, domain expert가 직접 골라서 좋다고 판단한 데이터에 가까움
겉으로는 믿음직함. 사람이 보기에는 깔끔하고, 전문적이고, 잘 정리된 데이터처럼 보일 수 있음
하지만 사람이 보기에 좋은 데이터와 모델이 실제 능력을 배우는 데이터는 다를 수 있음
예를 들어 코드 데이터가 깔끔한 주석과 예쁜 repo 구조를 갖고 있어도, 모델이 배울 새로운 문제 해결 과정이 별로 없을 수 있음
반대로 조금 지저분해 보여도 issue, code edit, test failure, PR review, merge decision이 이어져 있으면 더 강한 학습 신호일 수 있음

기준	좋아 보이는 데이터	진짜 좋은 데이터
benchmark	점수가 잘 오름	실제 업무 능력도 같이 오름
전문가 평가	사람이 보기 깔끔함	모델이 배울 행동 흐름이 있음
현실성	실제처럼 보임	실제 가치 있는 문제군을 대표함
CUA 예시	짧은 클릭 task	목표, trajectory, outcome, verifier가 있음
위험	평가에만 과최적화	새로운 업무로 일반화 가능

snake oil은 만병통치약처럼 팔리지만 실제 효과는 약한 가짜 상품을 뜻함
AI 데이터 시장에서는 “benchmark가 올랐다”, “전문가가 만들었다”, “enterprise data다” 같은 문구가 snake oil처럼 쓰일 수 있음
진짜 질문은 그 데이터가 모델을 경제적으로 가치 있는 long-horizon task에서 더 잘하게 만드는지임
Sean Cai는 데이터 시장의 비효율적 독점이 AI CapEx 낭비로 이어질 수 있다고 봄
GPU와 데이터에 큰돈을 쓰는데 성능 개선은 제한적이면, AI bubble의 원인이 valuation뿐 아니라 학습 효율 자체의 문제일 수도 있다는 뜻

단순히 benchmark 점수나 전문가 평가만 보면 부족함. 좋은 데이터는 모델이 실제 경제적 업무를 여러 단계로 수행하도록 만드는 hard problem class, trajectory, outcome, verifier를 포함해야 함.

겉으로는 효과가 큰 것처럼 팔리지만 실제 효과가 불분명한 상품을 뜻함. 여기서는 모델 능력을 실제로 키우는지 검증되지 않았는데도 “고품질 AI 데이터”처럼 팔리는 데이터를 가리키는 표현에 가까움.

Ayn Rand의 소설 Atlas Shrugged에 나오는 유명한 문구임. 기술과 자본주의 문화권에서는 비효율적인 시스템에 대한 반항이나 생산자의 상징처럼 쓰일 때가 있음. 여기서는 데이터 시장의 비효율을 비판하는 자기 포지션에 가까워 보임.