ai research

프론티어 랩은 학습 데이터에 얼마를 쓰나: Sean Cai

Seungju Chae · June 2, 2026 2026년 6월 2일 · 4 min read 4분 읽기

Share

Sean Cai에 따르면 frontier lab은 연구소당 학습 데이터에 약 100억~150억 달러를 쓰는 수준까지 왔다고 함
좋은 long horizon task(여러 단계의 긴 업무를 끝까지 수행하는 데이터)는 건당 최대 2만 달러까지 갈 수 있고, 브라우저로 SAP를 쓰는 완성형 task는 50만 달러 소문도 있었다고 언급
시장이 이미 붐비는 것처럼 보여도, 연구자가 원하는 방식으로 product와 services를 함께 제공하는 고품질 데이터 vendor는 아직 부족하다는 주장
진짜 좋은 데이터 계약이 예산 문제 때문에 거절되는 경우는 아직 못 봤다는 말이 핵심. 병목은 돈보다 품질과 실행력이라는 뜻
X에 올라온 MTSlive 클립에서 Sean Cai가 frontier lab의 학습 데이터 지출과 데이터 공급 시장을 설명한 내용

프론티어 랩은 왜 데이터에 이렇게 많이 쓰나?

AI 모델은 이제 인터넷 텍스트를 더 긁는 것만으로 크게 좋아지기 어려운 구간에 들어왔다는 인식이 커지고 있음
다음 병목은 “모델이 실제 일을 하도록 만드는 데이터”임. 단순 Q&A가 아니라 브라우저를 열고, 회사 소프트웨어를 쓰고, 여러 단계의 판단을 이어가는 업무 데이터가 필요함
frontier lab은 모델을 더 크게 만드는 비용뿐 아니라, 모델이 무엇을 잘해야 하는지 알려주는 과제와 평가 환경에도 막대한 돈을 씀
Sean Cai의 숫자가 맞다면 데이터는 더 이상 보조 재료가 아니라, GPU와 비슷한 급의 핵심 예산 항목이 된 셈
특히 연구자는 아무 데이터나 원하는 게 아님. 모델 성능을 실제로 올리는 task 설계, 품질 검수, 납품 형식까지 맞춰야 함

long horizon task는 왜 비싼가?

long horizon task는 한 번 답하고 끝나는 문제가 아님. 사람이 실제 업무를 하듯 여러 단계의 action을 이어서 목표를 달성해야 함
예를 들어 “CRM에서 고객을 찾고, 계약 정보를 확인하고, SAP에서 주문 상태를 보고, 브라우저에서 보고서를 만들라” 같은 식의 업무
이런 데이터는 만들기 어려움. 도구 화면, 계정 상태, 성공 기준, 예외 상황, 보안 처리, 채점 기준까지 같이 설계해야 하기 때문
그래서 건당 2만 달러 같은 가격이 나올 수 있음. 단순 라벨링 비용이 아니라, 작은 업무 시뮬레이션 하나를 만드는 비용에 가까움
브라우저 조작이 가능한 SAP 환경이 50만 달러라는 소문도 같은 맥락. SAP 자체가 복잡하고, 실제 기업 업무 흐름을 비슷하게 재현해야 하므로 단가가 커질 수 있음

데이터 종류	쉬운 설명	비싼 이유
단순 Q&A	질문과 답변 쌍	만들기 쉽고 검수도 쉬움
전문가 task	의사, 변호사, 금융 전문가가 푸는 문제	전문가 시간이 비쌈
long horizon task	여러 단계의 업무 흐름	도구, 상태, 채점 기준이 필요함
브라우저/SAP 환경	실제 업무 소프트웨어를 쓰는 시뮬레이션	환경 구축과 보안, 검수가 어려움

왜 데이터 vendor가 아직 부족한가?

겉으로는 AI 데이터 회사가 많아 보임. 하지만 연구자가 원하는 건 “사람을 모아 라벨링해주는 회사” 이상임
좋은 vendor는 product와 services를 같이 제공해야 함. 즉 작업 플랫폼, 전문가 모집, 품질 관리, 연구팀과의 반복 수정, 납품 포맷까지 책임져야 함
Sean Cai가 말한 “좋은 데이터 계약이 예산 때문에 거절되는 걸 못 봤다”는 말은 이 시장의 수요가 매우 강하다는 신호
문제는 예산이 아니라 믿고 맡길 품질임. 연구팀 입장에서는 모델 성능 개선으로 이어질 데이터라면 비싸도 살 수 있음
그래서 이 시장은 단순 인력 공급보다 운영력과 제품 감각이 더 중요해지는 쪽으로 보임

프론티어 랩이 데이터에 정말 100억 달러 이상 쓰나요?

Sean Cai의 발언 기준으로는 연구소당 100억~150억 달러 수준이라고 함. 다만 공개 재무제표로 검증된 숫자라기보다, 업계 관계자의 추정과 관찰에 가까움. 중요한 건 정확한 숫자보다 학습 데이터가 이미 거대한 예산 항목이 됐다는 점임.

long horizon task가 뭔가요?

모델이 한 번 답하고 끝나는 문제가 아니라, 여러 단계의 행동을 이어서 목표를 달성해야 하는 업무 데이터임. 브라우저를 쓰고, 파일을 확인하고, 기업 소프트웨어를 조작하고, 중간 판단을 계속 해야 하는 작업이 여기에 가까움.

왜 좋은 데이터 vendor가 부족한가요?

단순 라벨링만으로는 부족하기 때문. 연구자가 원하는 건 모델 성능을 올리는 과제 설계, 전문가 확보, 작업 도구, 품질 검수, 반복 수정까지 묶인 product plus services임. 이걸 잘하는 팀은 아직 많지 않다는 주장.

References 참고 자료

https://x.com/MTSlive/status/2060447529133867339?s=20

← All notes ← 노트 목록으로