01
채점 일관성 부재
채점자마다 점수가 다르고, 공통된 기준 자체가 존재하지 않는다.
| 기존 문제 | ExamManager의 해결 | |
|---|---|---|
| ① 채점 일관성 부재 | → | AI 자동 채점 — 동일 LLM + 동일 채점 기준으로 모든 답안을 같은 잣대로 |
| ② 개발자 리소스 낭비 | → | AI가 1차 채점, 사람은 검토만 — 개발자는 확인·첨삭에만 시간 투입 |
| ③ 오채점 발생 | → | 의미 기반 채점 — 모범답안과 다르더라도 핵심 개념이 맞으면 정답 인정 |
| ④ 점수만으론 알 수 없다 | → | 답안 색상 마커 — 정답/오답/부분정답을 답안 위에 직접 시각화 |
원래부터 개발자의 일은 — 사용자가 원하는 기능을 파악하고, 구현하고, 전달하는 것이었다.
그런데 현실은 문법·프레임워크·테크니컬 이슈 해결에 구현 시간의 대부분이 들어갔다. 정작 "사용자가 실제로 편하게 쓸 수 있는가"에는 시간을 충분히 쓰기 어려웠다.
AI가 코딩의 상당 부분을 대신하면서 그 부담이 줄어들고, 개발자는 드디어 본질에 제대로 시간을 쓸 수 있게 됐다.
같은 에이전트가 작성과 검토를 함께 하면 확증 편향이 발생한다. 자기가 쓴 것을 자기가 검토하는 것은, 구조적으로 한계가 있다.
작성 에이전트와 검토 에이전트의 컨텍스트를 분리하면 독립적인 시각으로 검증할 수 있다.
단일 세션에 정보를 계속 쌓으면 — 관련 없는 맥락이 누적되면서 — 모델의 판단력·집중력이 저하되는 현상.
그래서 agent-dev 파이프라인을 이렇게 쪼갠 것이다 — BE/FE는 기획서만 보고 병렬 작업하고, 리뷰어는 구현 과정을 모른 채 결과 코드만 본다.
각자 깨끗한 컨텍스트에서 자기 몫만 — 그래서 더 잘한다.
Slide 12 · 자기 편향 방지
Researcher ↔ Verifier 별도, Composer ↔ Reviewer 별도
Slide 13 · 컨텍스트 보호
각 단계 서브에이전트는 자기 단계 정보만 보유, 메인은 Notion 하위 페이지를 인터페이스로 사용
모델 선택
조사·검증은 sonnet, 작성·검토는 opus
두 원칙이 실제 플러그인 설계를 그대로 끌고 왔다.
| 구분 | 일반 Claude (claude.ai) | Claude Code (CLI) | Claude Cowork (데스크톱) |
|---|---|---|---|
| 실행 위치 | 브라우저 / 모바일 | 터미널 | 데스크톱 앱 |
| 주 사용자 | 누구나 | 개발자 | 개발자 · 비개발자 모두 |
| 로컬 파일 | 업로드만 | 직접 Read/Write/Edit | 직접 Read/Write/Edit |
| 셸 / bash | 제한적 | 개발자 터미널 직접 | 샌드박스 bash |
| 콘셉트 | 채팅 | CLI 기반 개발 작업 | 내 PC 위의 에이전트 |