AWS Strands Evals, AI 에이전트 실패 탐지와 원인 분석 기능 공개
Strands Evals에 실패 탐지와 root cause analysis용 Detectors가 추가되어, 평가 점수 확인에서 한 단계 더 나아가 실패 원인과 수정 위치까지 자동 제안한다. 한국의 개발자와 스타트업은 에이전트 품질 회귀를 CI/CD에 더 쉽게 넣을 수 있다. 마케터나 PM도 단순 성공률보다 어떤 프롬프트·
핵심 답변
Strands Evals에 실패 탐지와 root cause analysis용 Detectors가 추가되어, 평가 점수 확인에서 한 단계 더 나아가 실패 원인과 수정 위치까지 자동 제안한다. 에이전트 운영에서 가장 시간이 드는 부분은 실패 자체보다 실패 원인 분석이다. 이 기능은 trace를 사람이 span별로 훑던 작업을 자동화해, 테스트 실패 이후의 디버깅과 수정 우선순위 결정을 훨씬 빠르게 만든다.
확인된 핵심 사실
- Strands Evals의 Detectors는 에이전트 실행 trace에서 실패를 자동 식별하고 root cause analysis까지 수행해, 진단 시간을 hours에서 minutes로 줄이도록 설계됐다(출처 1).
- 기존 평가가 goal completion 같은 점수만 제공해도, Detectors는 span 단위로 왜 실패했는지와 어떻게 고칠지까지 구조화된 진단을 제공한다(출처 1).
- Failure detection은 9개 상위 범주의 실패 taxonomy를 사용한다: hallucination, incorrect actions, orchestration errors, task instruction non-compliance, execution errors, context handling errors, repetitive behavior, LLM output issues, configuration mismatch(출처 1).
- Root cause analysis는 실패를 PRIMARY/SECONDARY/TERTIARY로 분류하고, fix type을 system prompt, tool description, other로 추천한다(출처 1).
- 대규모 session은 context window에 맞는 direct analysis, failure path pruning, chunked analysis with merge의 3단계 전략으로 처리한다(출처 1).
- DiagnosisConfig로 평가 pipeline에 자동 진단을 붙일 수 있고, trigger는 ON_FAILURE 기본값과 ALWAYS 두 가지가 있다(출처 1).
출처에서 확인한 수치
- Python 버전: 3.10 or later (출처1)
- 설치 명령: pip install strands-agents-evals (출처1)
- Bedrock 요구사항: Amazon Bedrock model access enabled (출처1)
- CloudWatch 권한: logs:StartQuery, logs:GetQueryResults (출처1)
- 평가 지표 예시: goal success rates, tool selection accuracy, helpfulness scores (출처1)
- 회귀 예시 수치: goal success rate가 85 percent에서 70 percent로 하락 (출처1)
- taxonomy 범주 수: nine parent categories (출처1)
- diagnosis trigger: ON_FAILURE, ALWAYS (출처1)
출처로 확인한 범위
이 초안은 리서치팩에 들어온 공식/기준 출처와 수집 메모 범위에서만 작성했습니다. 가격, 성능, 제공 지역처럼 바뀔 수 있는 조건은 배포 전 최신 공식 문서로 다시 확인해야 합니다.
한국 독자 영향
한국의 개발자와 스타트업은 에이전트 품질 회귀를 CI/CD에 더 쉽게 넣을 수 있다. 마케터나 PM도 단순 성공률보다 어떤 프롬프트·툴 변경이 실패를 만들었는지 확인할 수 있어, 운영 이슈를 기능 개선과 분리해 설명하기 쉬워진다. 기업 실무자 입장에서는 CloudWatch 기반 기존 AWS 관측 체계와 연동해 생산 세션 분석을 붙이기 쉬운 점이 실용적이다.
도입 판단표
- 지금 검토할 경우: 공식 출처로 기능 범위가 확인되고, 작은 테스트 환경에서 품질과 비용을 비교할 수 있을 때.
- 보류할 경우: 가격, 지역, 데이터 처리 조건이 불명확하거나 고객 데이터가 바로 노출되는 업무일 때.
- 추가 확인할 경우: SDK 예제, changelog, 보안 정책이 서로 다른 내용을 가리킬 때.
바로 확인할 액션
- 개발자: 기존 Strands Evals 평가 코드에 DiagnosisConfig를 붙여 ON_FAILURE 진단부터 켜라.
- 개발자: 실패 케이스에서 detect_failures와 analyze_root_cause의 출력 형식을 확인해, fix recommendation을 system prompt와 tool description으로 나눠 정리하라.
- 개발자: CloudWatch에 OTEL trace를 보내고 있다면 CloudWatchProvider로 생산 세션을 가져와 같은 진단 흐름으로 재현하라.
- 개발자: CI/CD에서 ALWAYS를 바로 쓰기보다, 먼저 ON_FAILURE로 비용과 노이즈를 점검하라.
- 마케터: 에이전트 품질 지표를 소개할 때 성공률만 말하지 말고, 실패 원인 자동 진단 가능성을 함께 강조하라.
- 마케터: 고객 대상 메시지에서는 '테스트 실패 후 원인 분석 시간 단축'을 핵심 가치로 정리하라.
- 마케터: AWS 기반 AI 에이전트 운영 사례로 포지셔닝할 때 CloudWatch 연동과 trace 기반 진단을 함께 언급하라.
- 창업자/운영자: 에이전트 제품의 릴리즈 체크에 실패 탐지와 root cause analysis를 포함하는 내부 루프를 설계하라.
리스크와 주의점
- LLM-based analysis이므로 Amazon Bedrock inference 비용이 발생한다(출처 1).
- Amazon CloudWatch Logs storage 비용도 추가될 수 있다(출처 1).
- LOW confidence는 노이즈가 많고, HIGH는 production monitoring용이라 운영 목적에 맞는 threshold 선택이 필요하다(출처 1).
- tool description이 부정확하면 잘못된 root cause와 반복 실패가 이어질 수 있다(출처 1).
불확실성
- 가격: 공식 출처에 미공개
- 컨텍스트/출력 한도: 모델 선택에 따라 달라지며 본문에 고정 수치 없음
- 벤치마크 점수: 공식 벤치마크 수치 미공개
- 제공 채널·지역: Strands Evals SDK와 CloudWatchProvider 예시는 있으나 정식 제공 지역/정식 GA 범위는 본문에 미공개
- 출시 일정: 본문에 별도 날짜/일정 표기 없음
FAQ
이 내용을 바로 운영에 적용해도 되나요?
바로 전면 적용하기보다 공식 출처에서 확인된 범위만 작은 PoC로 검증하는 편이 안전합니다. 비용, 보안, 실패 시 수동 전환 기준을 먼저 정해야 합니다.
한국 팀은 무엇을 먼저 확인해야 하나요?
한국어 품질, 개인정보 로그, 내부 권한, 비용 상한을 먼저 봐야 합니다. 고객에게 바로 노출되는 기능이라면 사람 검수 단계를 유지하는 것이 좋습니다.
공식 출처가 부족하면 어떻게 해야 하나요?
새 사실을 단정하지 말고 확인 질문과 검토 체크리스트로 남겨야 합니다. 공식 문서나 changelog가 갱신된 뒤 다시 초안을 보강하는 편이 안전합니다.