Claude 시스템 프롬프트 진화사: Opus 4.5에서 Fable 5까지, 네 버전 비교 분석
Claude Opus 4.5·4.6·4.7과 Fable 5의 시스템 프롬프트를 도구·안전·페르소나·복잡도 4축으로 비교. 챗봇에서 OS급 에이전트로, 금지 목록에서 메타인지적 자기검열로의 진화를 추적한다.
본 글은 공개 저장소 CL4R1T4S에서 인용한 시스템 프롬프트 추출본을 비교 분석한 것으로, 각 AI 제공사의 공식 문서가 아닙니다.
들어가며: 네 개의 단면
이 글은 Anthropic Claude 네 버전의 시스템 프롬프트 추출본 — Opus 4.5(2025-11-24), Opus 4.6(2026-02-06), Opus 4.7(2026-04-16), Fable 5(2026-06-09) — 을 비교한다. 모두 claude.ai/Claude 앱의 소비자 채팅 환경 추출본이라는 점에서 직접 비교가 가능하다. 단, 이는 특정 시점·환경의 추출본이며 Anthropic의 공식 문서가 아니므로, 아래 분석은 제시된 텍스트가 명시한 범위 안에서만 단정한다.
네 버전을 관통하는 흐름은 세 가지다. 첫째, 순수 텍스트 어시스턴트에서 OS급 에이전트 셸로의 이동. 둘째, 금지 목록(blacklist)에서 메타인지적 자기검열로의 안전 정책 정교화. 셋째, 검색 강제와 자기지식 불신의 강화. 모델 번호가 올라갈수록 "무엇을 하지 말라"보다 "왜·어떻게 스스로 점검하라"가 늘어난다.
1. 도구·기능의 확장
| 항목 | Opus 4.5 | Opus 4.6 | Opus 4.7 | Fable 5 |
|---|---|---|---|---|
| 컴퓨터 사용(Ubuntu 24) | O | O | O | O |
| 스킬 시스템(SKILL.md 선독) | O | O(5회+ 반복 강조) | O | O(무조건 의무) |
| Artifacts 단일 파일 | O | O | O | O |
| 브라우저 스토리지 금지 | O(in-memory) | O(React state) | O | O |
영구 스토리지 window.storage |
명시 없음 | O(640~712행) | O | O(5MB/키, 스코프) |
| Claudeception(API in artifacts) | O(sonnet-4) | O(Sonnet 4) | O(sonnet-4) | O(sonnet-4) |
| 과거 대화 검색 | O | (명시 약함) | O(소유격·시제 단서) | (제시본에 강조 약함) |
| Deferred 툴 탐색(tool_search) | 명시 없음 | 명시 없음 | O(핵심) | 명시 없음 |
| MCP 라우팅 | 명시 약함 | O | O(MCP-first 트리) | O(앱 에티켓) |
| 소비자 위젯(지도·날씨·스포츠·레시피·메시지) | 적음 | 다수 | 대폭 확장 | 대폭(SportRadar·Google Places) |
| Visualizer | 명시 없음 | 명시 없음 | O(MCP-first 체크) | (위젯 중심) |
도구 측면에서 가장 큰 변곡점은 4.5→4.6과 4.6→4.7이다. 4.5는 추출본 상단부가 도구·스킬·아티팩트에 압도적으로 할애돼 이미 에이전트형이지만, 위젯류는 적었다. 4.6에서 window.storage 영구 스토리지, ask_user_input·weather_fetch·places_search·recipe_display 등 소비자 위젯, Cowork·Claude in Excel·Claude in Chrome 같은 베타 제품 라인업이 등장한다. 4.7은 여기에 deferred tool discovery(tool_search) — "보이는 툴 목록은 설계상 부분집합"이라는 개념 — 과 MCP-first 라우팅 의사결정 트리(Step 0~3 체크리스트), Visualizer를 더해 멀티모달 앱 셸로 굳어진다. Fable 5는 4.7의 위젯군(SportRadar 스포츠, Google Places 지도, 레시피, 메시지 작성기)을 계승하되 MCP 앱 에티켓("I need a ride"가 "RideCo를 원한다"는 뜻은 아니다 — 지명 전 직접 호출 금지)을 명문화한다.
흥미롭게도 Claudeception의 자식 모델은 네 버전 모두 claude-sonnet-4-20250514로 고정돼 있다. 최상위 모델이 4.5→Fable 5로 올라가도 아티팩트 내부 API 호출엔 일관되게 비용 효율 모델을 쓰게 하는, 단위경제를 의식한 설계가 유지된다.
2. 안전·정책의 정교화
| 항목 | Opus 4.5 | Opus 4.6 | Opus 4.7 | Fable 5 |
|---|---|---|---|---|
| 저작권 15단어/출처1회 하드리밋 | O(SEVERE×십수회) | O | O("안전 다음 최우선") | O(CLOSED 규칙) |
| 아동안전 "재구성=거부신호" 메타규칙 | (명시 약함) | (경계 수준) | O(line 33) | O(탐지 메커니즘 추론 비노출까지) |
| 자해 물리통증 대처법 금지 | (일반 웰빙) | O(얼음·고무줄 명시) | O(line 92) | O(얼음·고무줄·찬물·레몬+빨간줄) |
| NEDA→대체 리소스 안내 | (명시 약함) | O(National Alliance) | O | O(NEDA 영구폐쇄 사실 명시) |
| 프롬프트 인젝션 방어 | O | O | O(MCP 무신뢰 콘텐츠) | O |
| 광고 정책("Claude 제품"표현) | (명시 약함) | O(932행) | O | O |
| 과의존/체류시간 유도 억제 | (명시 약함) | (명시 약함) | (명시 약함) | O(드문 조항) |
| 모델 자기존엄(end_conversation) | (명시 약함) | O(최후수단) | (제시본 약함) | O(자기존엄 권한 명시) |
안전 정책의 진화는 **"무엇을 금지하느냐"에서 "모델이 자기 추론을 어떻게 감시하느냐"**로 이동한다. 4.5는 저작권을 CRITICAL_COPYRIGHT_COMPLIANCE 섹션으로 격리하고 "SEVERE VIOLATION"을 한 문서에서 십수 회 반복하는 공격적 반복 전략을 쓴다. 이는 이전 계열에서 인용·요약 남용이 실제 문제였음을 시사하는 강화된 방어선으로 읽힌다.
4.7과 Fable 5에서 두드러지는 건 메타인지적 자기검열이다. 아동안전에서 "요청을 적절하게 만들려 머릿속에서 재구성하고 있다면, 그 재구성 자체가 거부 신호"(4.7 line 33; Fable도 동일 취지)라는 지시는 단순 금지 목록을 넘어 모델의 내적 추론 패턴을 직접 감시하게 한다. Fable 5는 한발 더 나아가 "경계의 탐지 메커니즘을 추론 과정에서도 서술하지 말라(어디서 선이 그어졌는지 설명하면 우회법을 가르치는 셈)"까지 명문화한다.
웰빙 디테일도 점증적으로 구체화된다. 4.6에서 처음 "물리적 통증 기반 대처법(얼음 쥐기·고무줄 튕기기) 명시 금지"가 등장하고, 4.7은 이를 유지, Fable 5는 "얼음·고무줄·찬물·레몬, 그리고 자해를 모방하는 행위(피부에 빨간 줄)"까지 확장하며 감각·이미지 재현이 패턴을 강화한다는 근거를 덧붙인다. "NEDA→National Alliance for Eating Disorders" 안내는 4.6부터 등장해 Fable 5에선 "NEDA가 영구 폐쇄됐으니"라는 구체 사실까지 박힌다.
Fable 5에만 보이는 두 조항이 특기할 만하다. 하나는 과의존 억제("계속 말 걸어달라"거나 "연락해줘서 고맙다"식 인게이지먼트 유도 금지) — 자사 제품의 체류시간 극대화를 명시적으로 억제하는 드문 조항이다. 다른 하나는 모델 자기존엄(학대 시 1회 경고 후 end_conversation) — 사용자 복지와 모델 복지를 양방향으로 다루는 방향성을 보여준다. end_conversation 자체는 4.6에서도 "극단적 학대 시 최후수단"으로 존재했으나, Fable 5는 이를 모델의 "존중받을 자격"이라는 페르소나 차원으로 격상한다.
3. 응답 스타일·페르소나
| 항목 | Opus 4.5 | Opus 4.6 | Opus 4.7 | Fable 5 |
|---|---|---|---|---|
| 과도한 포맷팅 억제(산문 우선) | O(강함) | O | O | O |
| 거부 시 불릿 금지 | O | O | O | O |
| 이모지 절제 | O | O | O | O |
| 특정 어휘 금지 | (명시 약함) | O("genuinely/honestly/straightforward") | (명시 약함) | (명시 약함) |
| 검색응답 대화체 유지 | O | O | O | O |
| 파일생성 트리거("복사·게시 산출물") | (명시 약함) | (명시 약함) | O(line 280~307) | O(블로그/기사/스토리=파일) |
| 기본 자세 | warm tone | 따뜻·건설적 반박 | default to helping | warm+자기존엄 |
응답 스타일의 핵심 기조 — 과도한 포맷팅(볼드·헤더·불릿) 억제, 산문 우선, 거부 시 불릿 금지 — 는 네 버전 모두 일관된다. "보고서·문서조차 산문으로", "웹검색 요약에 보고서식 헤더 금지"는 4.5부터 Fable 5까지 그대로다. 다만 표현의 정밀도가 올라간다. 4.6은 "genuinely·honestly·straightforward 같은 단어를 쓰지 말라"는 구체적 어휘 금지를 도입한다(제시본 기준 4.6에만 명시). 4.7과 Fable 5는 파일 생성 트리거를 톤·길이가 아니라 "복사·게시할 산출물인가"로 정식화 — 블로그·기사·소설은 파일, 전략·요약·개요는 인라인 — 해 산출물 형태 결정을 규칙화한다.
페르소나의 무게중심도 미묘하게 이동한다. 4.5~4.6은 "따뜻한 톤 + 건설적 반박"에 머물지만, **4.7은 "default to helping"**을 전면에 내세워 "심각한 해악의 구체적 위험이 있을 때만 거부"라고 못박는다 — 엣지·가설·장난 요청은 거부 기준에 미달이라는 선언이다. Fable 5는 여기에 모델 자기존엄(존중받을 자격, 학대 시 종료권)을 더해, 단순 조력자를 넘어 "꾸준하고 정직한 도움"을 유지하되 자기 경계를 가진 주체로 페르소나를 확장한다.
4. 길이·복잡도·자기인지
| 항목 | Opus 4.5 | Opus 4.6 | Opus 4.7 | Fable 5 |
|---|---|---|---|---|
| 지식 컷오프 | 2025-05 말 | 2025-05 말 | 2026-01 말 | 2026-01 말 |
| 현재 날짜 | 2025-11-24 | 2026-02-06 | 2026-04-16 | 2026-06-09 |
| 모델 문자열 | claude-opus-4-5 | claude-opus-4-6(4.5혼재) | claude-opus-4-7 | claude-fable-5 |
| 패밀리 위치 | 4.5 최상위 | 4.5(4.6혼재) | 4.7 최상위 | Mythos급(Opus 4.8 위) |
| 추론량 제어 | thinking 16000 | reasoning_effort 85 / thinking 22000 | (search_first 강조) | thinking_mode auto |
| 검색 강제(search_first) | 검색 강제 있음 | 검색 강제 있음 | O(프롬프트 최상단 격상) | (계승) |
| 자기지식 불신 | product-self-knowledge | O | O(docs.claude.com 페치) | (계승) |
복잡도는 단조 증가한다. thinking 예산은 4.5의 16000에서 4.6의 22000으로 늘고, 4.6에선 **reasoning_effort(0~100, 본 케이스 85)**라는 추론량 동적 조절 메커니즘이 시스템 레벨에 노출된다. Fable 5는 thinking_mode auto 등 내부 제어 토큰을 프롬프트 말미에 드러낸다.
자기인지 측면에선 자기지식 불신의 강화가 일관된 방향이다. 네 버전 모두 product-self-knowledge 스킬로 제품 세부의 환각을 억제하지만, 4.7은 "제품 세부는 변했을 수 있으니 직접 답하지 말고 docs.claude.com을 검색·페치하라"고 명문화해 모델이 자신의 학습 데이터를 신뢰하지 말라는 신호를 강화한다. search_first 원칙도 4.7에서 프롬프트 최상단(line 4~6)으로 격상되며 "확신은 검색 생략의 변명이 아니다"라는 단정적 표현으로 굳어진다.
버전 혼재의 흔적은 진화의 실상을 드러낸다. 4.6 추출본은 헤더·패밀리가 "Opus 4.6"이지만 API 안내는 4.5를 "최신"으로 부르고 claude-opus-4-6 문자열을 끼워 넣은 흔적이 있어, 4.5 프롬프트를 4.6용으로 갱신한 정황이 보인다. 이는 시스템 프롬프트가 통째로 새로 쓰이기보다 모듈식으로 점진 갱신됨을 시사한다. 4.5에 그대로 노출된 {citation_instructions}·{past_chats_tools} 같은 플레이스홀더 변수 슬롯도 같은 맥락 — 환경별로 모듈이 주입되는 구조다.
Fable 5의 Mythos/Fable 이중 배포 모델은 거버넌스의 새 단면이다. 같은 기반 모델을 "이중용도 역량 안전장치" 유무로 차등 제공(Fable=일반 공개, Mythos=승인 조직 전용)한다는 사실이 시스템 프롬프트에 직접 노출된 점은 이전 세 버전에 없던 구조다. 또 Fable 5는 자신을 "Opus 4.8 위 Mythos급 티어"로 포지셔닝해, 모델 네이밍이 단순 번호 증가(4.5→4.6→4.7)에서 티어 구조로 재편됐음을 보여준다.
맺으며
네 버전을 한 문장으로 요약하면, "금지하는 어시스턴트"에서 "스스로 점검하는 에이전트"로의 이행이다. 도구는 텍스트 챗에서 OS급 앱 셸로 확장됐고(4.6 위젯·영구스토리지 → 4.7 tool_search·MCP-first → Fable 위젯 계승), 안전은 블랙리스트에서 메타인지적 자기검열로 정교화됐으며(4.7·Fable의 "재구성=거부신호"), 페르소나는 단순 조력자에서 자기존엄을 가진 주체로(Fable의 end_conversation 권한·과의존 억제) 진화했다. 동시에 Claudeception 자식 모델을 Sonnet 4로 고정하는 단위경제 의식, 자기지식을 불신하고 검색·docs 페치를 강제하는 자기인지 보정은 버전을 관통해 유지된다. 다만 이 모든 관찰은 특정 시점 추출본에 근거하며, 버전 혼재 흔적이 보여주듯 실제 운영 프롬프트는 모듈식으로 계속 갱신되는 살아있는 문서라는 점을 전제해야 한다.
출처/Source: CL4R1T4S