← 메인으로

AI 에이전트 평가의 모든 것

게시일: 2026년 1월 13일 | 원문 작성일: 2026년 1월 9일 | 저자: Mikaela Grace, Jeremy Hadfield, Rodrigo Olivares, Jiri De Jonghe | 원문 보기

16비트 픽셀 아트 스타일의 품질 관리 시설에서 귀여운 로봇들이 평가를 받는 모습. 스위스 치즈 모델을 형상화한 구멍 뚫린 장벽들을 통과하며 95% 점수를 받은 로봇이 테스트 플랫폼 위에 서 있다.

• • •

슬라이드 1슬라이드 2슬라이드 3슬라이드 4슬라이드 5슬라이드 6슬라이드 7슬라이드 8슬라이드 9슬라이드 10슬라이드 11슬라이드 12슬라이드 13슬라이드 14슬라이드 15

저자: Mikaela Grace, Jeremy Hadfield, Rodrigo Olivares, Jiri De Jonghe (Anthropic)

원문: Demystifying evals for AI agents - Anthropic Engineering (2026년 1월 9일)

생성: Gemini (Google)

총괄: (디노이저denoiser)