Notes 노트

2 notes 12개의 노트

Type 분류

앱 회사가 AI 벤치마크를 만드는 시대: Sean Cai 앱 회사가 AI 벤치마크를 만드는 시대: Sean Cai

Sean Cai가 말한 app layer benchmark와 RL data 공급망 변화를 정리. Sean Cai가 말한 app layer benchmark와 RL data 공급망 변화를 정리.

RL environment 회사는 lab 밖으로 가야 한다: Sean Cai RL environment 회사는 lab 밖으로 가야 한다: Sean Cai

Sean Cai가 말한 RL environment 회사의 다음 시장, enterprise deployment, verifiable workflow, RLaaS 기회를 정리. Sean Cai가 말한 RL environment 회사의 다음 시장, enterprise deployment, verifiable workflow, RLaaS 기회를 정리.

5 days ago 5일 전 Post 포스트 rl

Harvey와 앱 레이어 AI의 post-training 전환: Sean Cai Harvey와 앱 레이어 AI의 post-training 전환: Sean Cai

Harvey, Ramp, Sierra, Decagon 같은 앱 레이어 AI 회사들이 frontier API 의존을 줄이고 자체 small model post-training으로 가는 흐름. Harvey, Ramp, Sierra, Decagon 같은 앱 레이어 AI 회사들이 frontier API 의존을 줄이고 자체 small model post-training으로 가는 흐름.

9 days ago 9일 전 Post 포스트 ai

Targeted On-Policy Self-Distillation: 실패 지점만 학습시키는 RL 신호 Targeted On-Policy Self-Distillation: 실패 지점만 학습시키는 RL 신호

Dwarkesh와 Sasha Rush가 설명한 targeted on-policy self-distillation, HINT-SD, RLVR와 CUA trajectory 데이터의 연결. Dwarkesh와 Sasha Rush가 설명한 targeted on-policy self-distillation, HINT-SD, RLVR와 CUA trajectory 데이터의 연결.

9 days ago 9일 전 Post 포스트 rl

Asynchronous RL: CUA 스케일링과 Policy Lag Asynchronous RL: CUA 스케일링과 Policy Lag

비동기 rollout이 RL throughput을 높이는 방식과 long-horizon CUA에서 policy lag가 왜 핵심 병목인지 정리. 비동기 rollout이 RL throughput을 높이는 방식과 long-horizon CUA에서 policy lag가 왜 핵심 병목인지 정리.

10 days ago 10일 전 Post 포스트 rl

Scaling Agents for Computer Use: Behavior Judge 컴퓨터 사용 에이전트 스케일링: Behavior Judge

How BJudge improves computer-use agents by running multiple rollouts and selecting the best behavior narrative. 여러 computer-use agent rollout을 실행한 뒤 behavior narrative로 가장 좋은 시도를 고르는 BJudge 방법 정리.

11 days ago 11일 전 Paper 논문 ai

AI 데이터 시장은 outcome을 산다: Sean Cai AI 데이터 시장은 outcome을 산다: Sean Cai

AI 데이터 시장에서 labs가 실제로 사는 outcome과 RL data factory를 정리. AI 데이터 시장에서 labs가 실제로 사는 outcome과 RL data factory를 정리.

12 days ago 12일 전 Post 포스트 ai

좋은 AI 데이터란 무엇인가: Sean Cai 좋은 AI 데이터란 무엇인가: Sean Cai

좋은 AI 데이터의 기준과 benchmark 착시를 정리. 좋은 AI 데이터의 기준과 benchmark 착시를 정리.

12 days ago 12일 전 Post 포스트 ai

좋은 AI 데이터는 진짜 업무 source에서 나온다: Sean Cai 좋은 AI 데이터는 진짜 업무 source에서 나온다: Sean Cai

long-horizon 학습 데이터와 real-world data의 품질 문제를 정리. long-horizon 학습 데이터와 real-world data의 품질 문제를 정리.

12 days ago 12일 전 Post 포스트 ai

좋은 RL 환경 회사는 어떻게 구분하나: Sean Cai 좋은 RL 환경 회사는 어떻게 구분하나: Sean Cai

Sean Cai가 말한 RL environment 회사 판단 기준과 AI 데이터 시장을 볼 때 참고할 포인트. Sean Cai가 말한 RL environment 회사 판단 기준과 AI 데이터 시장을 볼 때 참고할 포인트.

12 days ago 12일 전 Post 포스트 rl

프론티어 랩은 학습 데이터에 얼마를 쓰나: Sean Cai 프론티어 랩은 학습 데이터에 얼마를 쓰나: Sean Cai

프론티어 랩의 학습 데이터 지출과 고품질 데이터 vendor 부족을 정리. 프론티어 랩의 학습 데이터 지출과 고품질 데이터 vendor 부족을 정리.

12 days ago 12일 전 Post 포스트 ai

Unified Intelligence Systems: Notes from Amit Jain (Luma AI) at Stanford CS153 Unified Intelligence Systems: Luma AI Amit Jain Stanford CS153 강의 정리

One transformer for text, images, video, and audio. Why Luma pivoted from 3D to video to unified, and what the agent shape around it looks like. 텍스트, 이미지, 영상, 오디오를 하나의 transformer로 처리하는 unified 모델. Luma가 3D에서 영상으로, 다시 unified로 피벗한 이유와 그 위에 쌓는 agent 구조.

1 month ago 1개월 전 Post 포스트 ai