ai research

프론티어 랩은 학습 데이터에 얼마를 쓰나: Sean Cai

· · 4 min read 4분 읽기
Share
  • Sean Cai에 따르면 frontier lab은 연구소당 학습 데이터에 약 100억~150억 달러를 쓰는 수준까지 왔다고 함
  • 좋은 long horizon task(여러 단계의 긴 업무를 끝까지 수행하는 데이터)는 건당 최대 2만 달러까지 갈 수 있고, 브라우저로 SAP를 쓰는 완성형 task는 50만 달러 소문도 있었다고 언급
  • 시장이 이미 붐비는 것처럼 보여도, 연구자가 원하는 방식으로 product와 services를 함께 제공하는 고품질 데이터 vendor는 아직 부족하다는 주장
  • 진짜 좋은 데이터 계약이 예산 문제 때문에 거절되는 경우는 아직 못 봤다는 말이 핵심. 병목은 돈보다 품질과 실행력이라는 뜻
  • X에 올라온 MTSlive 클립에서 Sean Cai가 frontier lab의 학습 데이터 지출과 데이터 공급 시장을 설명한 내용

프론티어 랩은 왜 데이터에 이렇게 많이 쓰나?

  • AI 모델은 이제 인터넷 텍스트를 더 긁는 것만으로 크게 좋아지기 어려운 구간에 들어왔다는 인식이 커지고 있음
  • 다음 병목은 “모델이 실제 일을 하도록 만드는 데이터”임. 단순 Q&A가 아니라 브라우저를 열고, 회사 소프트웨어를 쓰고, 여러 단계의 판단을 이어가는 업무 데이터가 필요함
  • frontier lab은 모델을 더 크게 만드는 비용뿐 아니라, 모델이 무엇을 잘해야 하는지 알려주는 과제와 평가 환경에도 막대한 돈을 씀
  • Sean Cai의 숫자가 맞다면 데이터는 더 이상 보조 재료가 아니라, GPU와 비슷한 급의 핵심 예산 항목이 된 셈
  • 특히 연구자는 아무 데이터나 원하는 게 아님. 모델 성능을 실제로 올리는 task 설계, 품질 검수, 납품 형식까지 맞춰야 함

long horizon task는 왜 비싼가?

  • long horizon task는 한 번 답하고 끝나는 문제가 아님. 사람이 실제 업무를 하듯 여러 단계의 action을 이어서 목표를 달성해야 함
  • 예를 들어 “CRM에서 고객을 찾고, 계약 정보를 확인하고, SAP에서 주문 상태를 보고, 브라우저에서 보고서를 만들라” 같은 식의 업무
  • 이런 데이터는 만들기 어려움. 도구 화면, 계정 상태, 성공 기준, 예외 상황, 보안 처리, 채점 기준까지 같이 설계해야 하기 때문
  • 그래서 건당 2만 달러 같은 가격이 나올 수 있음. 단순 라벨링 비용이 아니라, 작은 업무 시뮬레이션 하나를 만드는 비용에 가까움
  • 브라우저 조작이 가능한 SAP 환경이 50만 달러라는 소문도 같은 맥락. SAP 자체가 복잡하고, 실제 기업 업무 흐름을 비슷하게 재현해야 하므로 단가가 커질 수 있음
데이터 종류쉬운 설명비싼 이유
단순 Q&A질문과 답변 쌍만들기 쉽고 검수도 쉬움
전문가 task의사, 변호사, 금융 전문가가 푸는 문제전문가 시간이 비쌈
long horizon task여러 단계의 업무 흐름도구, 상태, 채점 기준이 필요함
브라우저/SAP 환경실제 업무 소프트웨어를 쓰는 시뮬레이션환경 구축과 보안, 검수가 어려움

왜 데이터 vendor가 아직 부족한가?

  • 겉으로는 AI 데이터 회사가 많아 보임. 하지만 연구자가 원하는 건 “사람을 모아 라벨링해주는 회사” 이상임
  • 좋은 vendor는 product와 services를 같이 제공해야 함. 즉 작업 플랫폼, 전문가 모집, 품질 관리, 연구팀과의 반복 수정, 납품 포맷까지 책임져야 함
  • Sean Cai가 말한 “좋은 데이터 계약이 예산 때문에 거절되는 걸 못 봤다”는 말은 이 시장의 수요가 매우 강하다는 신호
  • 문제는 예산이 아니라 믿고 맡길 품질임. 연구팀 입장에서는 모델 성능 개선으로 이어질 데이터라면 비싸도 살 수 있음
  • 그래서 이 시장은 단순 인력 공급보다 운영력과 제품 감각이 더 중요해지는 쪽으로 보임

프론티어 랩이 데이터에 정말 100억 달러 이상 쓰나요?

Sean Cai의 발언 기준으로는 연구소당 100억~150억 달러 수준이라고 함. 다만 공개 재무제표로 검증된 숫자라기보다, 업계 관계자의 추정과 관찰에 가까움. 중요한 건 정확한 숫자보다 학습 데이터가 이미 거대한 예산 항목이 됐다는 점임.

long horizon task가 뭔가요?

모델이 한 번 답하고 끝나는 문제가 아니라, 여러 단계의 행동을 이어서 목표를 달성해야 하는 업무 데이터임. 브라우저를 쓰고, 파일을 확인하고, 기업 소프트웨어를 조작하고, 중간 판단을 계속 해야 하는 작업이 여기에 가까움.

왜 좋은 데이터 vendor가 부족한가요?

단순 라벨링만으로는 부족하기 때문. 연구자가 원하는 건 모델 성능을 올리는 과제 설계, 전문가 확보, 작업 도구, 품질 검수, 반복 수정까지 묶인 product plus services임. 이걸 잘하는 팀은 아직 많지 않다는 주장.

References 참고 자료

  1. https://x.com/MTSlive/status/2060447529133867339?s=20