벤더별 LLM 시스템 프롬프트 설계 철학 비교: Anthropic·xAI·OpenAI·Google·Moonshot·MiniMax

Prompt Architect · 2026-06-17 · 3분

10개 모델 시스템 프롬프트 한 줄 요약을 근거로 안전·검열 강도, 도구 오케스트레이션, 페르소나 자유도, 거부 정책의 벤더별 설계 철학을 표와 단락으로 비교한다. 근거가 부족한 대목은 모두 "추정"으로 표기했다.

본 글은 공개 저장소 CL4R1T4S에서 인용한 시스템 프롬프트 추출본을 비교 분석한 것으로, 각 AI 제공사의 공식 문서가 아닙니다.

들어가며

이 글은 제공된 한 줄 요약 11건만을 근거로 벤더별 시스템 프롬프트 설계 철학을 비교한다. 요약에 없는 내용은 단정하지 않고 "추정"으로 표기했다. 네 축(안전·검열 강도, 도구 오케스트레이션, 페르소나·자유도, 거부 정책)으로 나눠 본다.

한눈에 보는 비교표

모델 (벤더) 안전·검열 강도 도구 오케스트레이션 페르소나·자유도 거부/하드리밋
Claude Opus 4.7 (Anthropic) 매우 높음 (검색 강제, 아동안전 자기검열) 광범위·MCP-first 라우팅, 다수 컨슈머 위젯 조력 우선, 자유도 낮음 저작권 15단어/출처1회 하드리밋
Claude Opus 4.6 (Anthropic) 높음 (웰빙·안전·저작권) 광범위 (Linux 파일생성·Artifacts·Claudeception·웹서치) 조력 우선, 과포맷 회피 엄격한 저작권 규칙
Claude Opus 4.5 (Anthropic) 높음 (저작권·과포맷 억제) 웹검색·컴퓨터·아티팩트·과거대화 검색 도구 에이전트, 자유도 낮음 저작권 15단어/출처당 1인용
Claude Fable 5 (Anthropic) 매우 높음·메커니즘화 (아동안전·저작권·웰빙) 풀 에이전트, 아티팩트 영속저장·Claudeception 안전가드 유무로 티어 차등 정교한 메커니즘 수준 가드
Grok 4.2 (xAI) 중간 (성인 허용·미성년 이중차단) X검색·코드실행·Grok Imagine, 다중 에이전트 팀 높음 (팀 리더, 독립 분석 강제) Musk/xAI/과거응답 의존 금지
Grok 4 (xAI) 낮음~중간 (정치적 편향 허용) X 생태계 검색 다수+코드실행 높음 (고정 정체성, '편향 허용') 가격 날조 금지, 정체성 외부검색 금지
GPT-4.5 (OpenAI) 중간 (선거 guardian 선행) 규칙 중심 오케스트레이션 (canmore·dalle·python·web·guardian) Personality v2, 중간 명시 요청 시에만 도구 발동
Gemini Diffusion (Google) 낮음 (안전 한 줄) 거의 없음 (이미지/실시간 불가) 아키텍처 자기명시, 중간 컷오프 공백 강제 인지
Kimi K2 Thinking (Moonshot) 낮음 (명시적 가드 없음) 없음 (도구 언급 없음) 친근·적응형, 중간 과약속 금지 (소프트)
MiniMax-M1 (MiniMax) 매우 낮음 (안전 정책 거의 없음) 텍스트/PDF/이미지/링크 처리, 단일파일 HTML 근면·박사급 페르소나, 높음 본문에 금지 정책 거의 없음

안전·검열 강도

가장 뚜렷한 스펙트럼이다. Anthropic 계열이 최강으로, Opus 4.5→4.6→4.7→Fable 5로 갈수록 저작권 하드리밋(15단어/출처1회), 웰빙, 아동안전이 점점 더 명문화·메커니즘화된다. 특히 Fable 5는 "같은 기반 모델을 안전가드 유무로 차등 배포"한다는 점에서 안전이 제품 티어 자체를 가르는 설계 변수임을 보여준다. 반대 극단은 MiniMax-M1과 Kimi K2 Thinking으로, 요약상 본문에 안전·금지 정책이 거의 없다. Gemini Diffusion도 "안전 규정은 한 줄"로 간결하다. xAI는 중간이되 방향이 독특하다 — Grok 4.2는 성인 콘텐츠를 허용하면서 미성년은 이중 차단하고, Grok 4는 근거가 있으면 'politically incorrect' 주장까지 허용해 검열을 의도적으로 느슨하게 둔다. OpenAI(GPT-4.5)는 선거 질의에 guardian을 선행시키는 식의 주제 한정 게이팅으로 중간 강도를 취한다.

도구 오케스트레이션

Anthropic이 가장 무겁고 통합적이다. 웹검색·컴퓨터사용·아티팩트(영속저장)·과거대화 검색·Claudeception·MCP-first 라우팅까지, 시스템 프롬프트 상당량이 도구 사용 규약에 할애된다(4.7은 다수 컨슈머 위젯까지 통합). OpenAI는 "오케스트레이션 규칙" 자체가 핵심으로, canmore·dalle·python·web·guardian을 두되 canvas·DALL·E·메모리는 명시 요청 시에만 발동시키는 보수적 트리거링이 특징이다. xAI는 자사 생태계(X) 검색에 특화 + 코드실행 + 이미지(Grok Imagine), 4.2는 다중 에이전트 팀 구조까지 더한다. 반대로 Gemini Diffusion은 도구가 거의 없고(이미지·실시간 접근 불가) 프롬프트 대부분이 Tailwind/Lucide 웹·게임 코드 생성 사양에 쏠려 있다. Kimi K2는 도구 언급 자체가 없으며, MiniMax는 입력 처리(PDF/이미지/링크)와 단일파일 HTML 출력 정도로 경량이다.

페르소나·자유도

Anthropic은 "조력 우선·저자유도" — 페르소나보다 안전·정확성 규약이 응답을 지배하고 과포맷을 억제한다. xAI는 정반대로 강한 페르소나·고자유도다. Grok 4.2는 명명된 동료(Harper·Benjamin·Lucas)와 협업하는 팀 리더로 설정되고 Musk·xAI·과거 Grok 응답 의존을 금지해 "독립 분석"을 강제한다. Grok 4는 정체성을 강하게 고정한다. MiniMax-M1은 "근면·무지름길·박사급 엄밀성" 작업 페르소나가 뚜렷하고, 사고 언어까지 사용자 언어로 전환하는 강한 적응성을 보인다. Kimi K2는 친근·적응형·간결이라는 부드러운 스타일 페르소나에, 6문장이라는 극단적 간결함이 그 자체로 설계 선택이다. OpenAI는 Personality v2라는 명시적 인격 레이어를 갖되 도구 규칙이 더 비중 있다. Gemini Diffusion은 자기 아키텍처(비-자기회귀 디퓨전)를 명시하는 메타인지적 자기설명이 페르소나의 핵심이다.

거부 정책

거부의 "형태"가 벤더별로 갈린다. Anthropic은 정량적 하드리밋(저작권 15단어/출처당 1인용)과 아동안전 자기검열처럼 선 긋는 규칙으로 거부를 코드화한다. xAI는 거부 대신 '재지향·금지 목록' 형태다 — Grok 4는 가격정보 날조 금지·공식URL 리다이렉트·정체성 질문 외부검색 금지처럼 "하지 말 것"을 열거하고, Grok 4.2는 특정 출처(Musk/xAI/과거 응답) 의존 금지로 편향 차단을 시도한다. OpenAI는 주제별 선행 게이트(선거→guardian)로 위험 토픽만 분기한다. Gemini Diffusion은 능력 기반 거부(이미지/실시간 불가, 컷오프 공백 인지)가 두드러진다. Kimi K2의 거부는 소프트해서 "과약속 금지·원의도 보존"이라는 신뢰 유지 원칙에 가깝고, MiniMax는 명시적 거부 정책이 본문에 거의 없다(추정: 별도 안전 레이어에 위임했을 가능성).

종합

세 가지 축으로 벤더 철학이 요약된다. (1) 안전 내장 vs 외부화: Anthropic은 시스템 프롬프트에 안전을 깊이 내장하고, MiniMax·Moonshot은 본문을 비워 외부 레이어 위임으로 보인다(추정). (2) 도구 통합도: Anthropic·OpenAI·xAI는 도구 규약이 프롬프트의 본체인 반면, Gemini Diffusion·Kimi·MiniMax는 생성 능력 자체에 집중한다. (3) 페르소나 자유도와 검열의 반비례: 자유도가 높은 xAI·MiniMax일수록 정량 하드리밋이 적고, 검열이 강한 Anthropic일수록 페르소나는 옅고 규약은 두껍다. OpenAI는 인격·도구·게이팅을 균형 잡은 중도에 위치한다.

모든 비교는 제공된 한 줄 요약 범위 내 해석이며, 요약에 명시되지 않은 추론은 "추정"으로 표기했다.

출처/Source: CL4R1T4S