ai research

좋은 AI 데이터란 무엇인가: Sean Cai

· · 4 min read 4분 읽기
Share
  • Sean Cai는 “좋은 데이터란 무엇인가?”라는 질문을 던짐. benchmark 점수를 올리는 데이터인지, 전문가들이 좋아 보인다고 고른 데이터인지, 아니면 모델이 나중에 일반화할 어려운 문제군인지 묻는 글
  • 그의 답은 세 번째에 더 가까움. 좋은 데이터는 실제로 가치 있는 long-horizon task를 잘하게 만드는 학습 신호가 있어야 한다는 주장
  • 문제는 연구자와 기존 데이터 buyer가 benchmark 점수나 전문가 평가처럼 좋아 보이는 데이터에 돈을 쓰고 만족할 수 있다는 점
  • Sean Cai는 이런 비효율이 AI CapEx(설비성 투자, GPU와 데이터 인프라에 들어가는 큰돈) 낭비와 AI bubble로 이어질 수 있다고 봄
  • X에서 Sean Cai가 AI 데이터 시장의 “good data” 정의를 비판적으로 정리한 글

좋은 데이터는 benchmark 점수를 올리는 데이터인가?

  • benchmark는 시험지에 가까움. 모델이 특정 문제 묶음에서 몇 점을 받는지 보여줌
  • 데이터 회사는 “우리 데이터를 넣었더니 benchmark가 올랐다”고 팔기 쉬움
  • 하지만 시험 점수가 오른다고 실제 업무 능력이 오른다고 보장되지는 않음
  • CUA(computer-use agent)로 보면 WebArena, OSWorld, 특정 browser task 점수가 올랐다고 실제 회사 업무 자동화가 잘 된다는 뜻은 아닐 수 있음
  • 모델이 public benchmark의 문제 스타일에 적응했거나, 특정 평가 방식에만 맞춰졌을 가능성도 있음

전문가가 좋다고 고른 데이터면 충분한가?

  • handpicked expert data는 박사급 연구자, senior engineer, domain expert가 직접 골라서 좋다고 판단한 데이터에 가까움
  • 겉으로는 믿음직함. 사람이 보기에는 깔끔하고, 전문적이고, 잘 정리된 데이터처럼 보일 수 있음
  • 하지만 사람이 보기에 좋은 데이터와 모델이 실제 능력을 배우는 데이터는 다를 수 있음
  • 예를 들어 코드 데이터가 깔끔한 주석과 예쁜 repo 구조를 갖고 있어도, 모델이 배울 새로운 문제 해결 과정이 별로 없을 수 있음
  • 반대로 조금 지저분해 보여도 issue, code edit, test failure, PR review, merge decision이 이어져 있으면 더 강한 학습 신호일 수 있음

hard problem class가 왜 더 중요한가?

  • hard problem class는 “비슷한 어려운 문제들의 묶음”이라고 보면 됨
  • 좋은 데이터는 단일 문제의 정답이 아니라, 모델이 새로운 업무에서도 써먹을 수 있는 사고 방식과 행동 흐름을 담아야 함
  • 예를 들어 “네이버에서 강남 맛집 검색”은 클릭 데이터는 있지만 경제적 가치는 낮고 일반화 신호도 약함
  • 반대로 마케팅 담당자가 네이버 검색광고, 스마트스토어, 엑셀, 카카오채널을 오가며 광고 성과를 확인하고 예산을 조정하는 과정은 훨씬 강함
  • 여기에는 여러 도구, 중간 판단, 실패와 수정, 최종 산출물, 경제적 가치, 다른 업무로 일반화될 가능성이 같이 들어 있음
기준좋아 보이는 데이터진짜 좋은 데이터
benchmark점수가 잘 오름실제 업무 능력도 같이 오름
전문가 평가사람이 보기 깔끔함모델이 배울 행동 흐름이 있음
현실성실제처럼 보임실제 가치 있는 문제군을 대표함
CUA 예시짧은 클릭 task목표, trajectory, outcome, verifier가 있음
위험평가에만 과최적화새로운 업무로 일반화 가능

snake oil이 왜 AI bubble로 이어지나?

  • snake oil은 만병통치약처럼 팔리지만 실제 효과는 약한 가짜 상품을 뜻함
  • AI 데이터 시장에서는 “benchmark가 올랐다”, “전문가가 만들었다”, “enterprise data다” 같은 문구가 snake oil처럼 쓰일 수 있음
  • 진짜 질문은 그 데이터가 모델을 경제적으로 가치 있는 long-horizon task에서 더 잘하게 만드는지임
  • Sean Cai는 데이터 시장의 비효율적 독점이 AI CapEx 낭비로 이어질 수 있다고 봄
  • GPU와 데이터에 큰돈을 쓰는데 성능 개선은 제한적이면, AI bubble의 원인이 valuation뿐 아니라 학습 효율 자체의 문제일 수도 있다는 뜻

좋은 AI 데이터는 어떻게 판단하나요?

단순히 benchmark 점수나 전문가 평가만 보면 부족함. 좋은 데이터는 모델이 실제 경제적 업무를 여러 단계로 수행하도록 만드는 hard problem class, trajectory, outcome, verifier를 포함해야 함.

snake oil은 무슨 뜻인가요?

겉으로는 효과가 큰 것처럼 팔리지만 실제 효과가 불분명한 상품을 뜻함. 여기서는 모델 능력을 실제로 키우는지 검증되지 않았는데도 “고품질 AI 데이터”처럼 팔리는 데이터를 가리키는 표현에 가까움.

Who is John Galt는 무슨 뜻인가요?

Ayn Rand의 소설 Atlas Shrugged에 나오는 유명한 문구임. 기술과 자본주의 문화권에서는 비효율적인 시스템에 대한 반항이나 생산자의 상징처럼 쓰일 때가 있음. 여기서는 데이터 시장의 비효율을 비판하는 자기 포지션에 가까워 보임.

References 참고 자료

  1. https://x.com/SeanZCai/status/2039209359280931277?s=20