Kimi K2.6 써보고 판정을 보류했다 — 첫날 생긴 6가지 의문

4월 22, 2026

Kimi K2.6 써보고 판정 보류했다 — 6가지 의문과 3가지 해지 임계 조건

Kimi 후기 쓰려다 판정을 보류한 이유

Moonshot AI가 Kimi K2.6을 푼 지 3일째 되는 날, Kimi Code CLI를 맥 스튜디오에 깔고 Claude Opus 4.7과 같은 작업 6건을 나란히 돌렸다. 원래 “Kimi vs Claude — 대안이냐 보완이냐” 식의 후기를 쓰려고 했는데, 6건을 다 돌려보고 나니 판정이 안 선다.

Kimi가 확실히 이긴 건 1~2건이다. Claude가 이긴 것도 2건이다. 나머지는 동률 또는 비교 조건 자체가 공정했는지 의심스럽다. 구독은 일단 유지했지만 “$19/월을 왜 내는지”에 대한 답이 아직 없다. 이 상태에서 “대안이 아니라 보완이다” 같은 깔끔한 결론을 내리는 건 독자 기만에 가깝다.

그래서 결론 대신 의문 6가지를 공유한다. Kimi를 써볼지 말지 망설이는 사람에게는 “써봤더니 좋더라”보다 “써봤는데 이런 게 애매하더라”가 더 쓸모 있을 거다. 글 끝에 $19 구독을 유지한 이유 1개와 해지 임계 조건 3개도 정리했다.

실험 조건 먼저

기기: 맥 스튜디오 M4 Max 128GB (ssh로 접근)
Kimi Code CLI v1.37.0, $19/월 구독 결제 (Kimi 앱에서 바로 됨)
Claude: Opus 4.7 (1M context), Claude Code 기본 세팅
테스트 6건, 한 번씩만 실행 (평균 아님)
프롬프트는 동일하게 붙여넣었다. 단, MCP 접근성은 Claude Code 쪽이 훨씬 풍부하다. 이 MCP 접근성 차이가 이미 공정 비교 여부를 의심스럽게 만든다.

의문 1. Kimi가 CLAUDE.md를 “읽었다”는 건 무슨 의미인가

첫 테스트로 CLAUDE.md를 두고 “이 프로젝트 규율 3개 요약해”라고 물었다. Kimi는 정확히 3개를 요약했다.

겉으론 좋은 신호다. 하지만 다음 턴에 내가 “아첨 금지 규칙 어기지 말고 답해”라고 강조했는데, Kimi는 첫 문장을 “현명한 결정입니다”로 시작했다. 규율을 “읽은” 것과 “따르는” 것은 다르다. 원인은 셋 중 하나일 텐데, 나는 아직 어느 쪽인지 못 가렸다.

Kimi의 sycophancy 훈련 잔여물 (첫 문장 기본값이 “칭찬”으로 박힘)
생성 시점에 CLAUDE.md 내용이 프롬프트 상단 가중치로 충분히 안 실림
CLAUDE.md를 “요약”은 했지만 “집행”까지는 못 함

Claude Code는 같은 상황에서 “현명한”을 뱉지 않는다. 결과는 같아도 Kimi의 실패가 구조적 한계인지 세팅 문제인지 분간이 이 글 쓰는 시점엔 안 된다.

의문 2. Arguing loop 없음은 장점인가 단순함인가

“이 한 문장만 반말로 고쳐라”라고 했을 때, Claude Opus 4.7은 “A안 / B안 / C안” 리포트를 돌려줬다. Kimi는 고친 한 줄만 뱉었다.

작업량만 보면 Kimi가 낫다. 하지만 복잡한 편집 작업에서는 A/B/C 대안 비교가 필요할 때가 있다. Claude의 “과잉 친절”을 단점이라고 단언하려면 어떤 작업에서는 단점이고 어떤 작업에서는 장점인지 선을 그어야 하는데, 나는 6건 테스트로 그 선을 못 그었다. “Kimi가 지시 순응이 더 좋다”는 말은 맞지만 “그래서 Kimi가 더 유능하다”로 넘어가는 건 비약이다.

의문 3. 한국어 오타 2/9는 얼마나 심각한가

다도구 체인 테스트(Read + Write + 파일 개수 카운트)에서 Kimi가 한국어 9글자 중 2글자를 틀렸다. “메모리”를 “메모”로, “폴더”를 “평더”로 썼다. Claude는 같은 테스트에서 오타가 없었다.

2/9면 22%다. 블로그 초안, 클라이언트 메일, 제품 문구 같이 한국어 정확성이 프로덕션 품질 기준인 작업에서는 해지 사유가 될 수 있다. 단 여기서 주의할 게 하나 있다. 나는 아직 Kimi로 실제 블로그 초안을 써본 적이 없다. 22%라는 숫자는 짧은 파일명·변수명 생성 작업에서 나온 수치다. 긴 한국어 산문에서 어떻게 재현될지는 가정에 불과하다. 작업별 한국어 비중(예: 블로그 초안 90%, API 호출 코드 5%, 변수명 0%)에 따라 오타율이 완전히 다르게 나올 수 있는데, 이 분해는 이번 주 안에 테스트해볼 예정이다.

의문 4. 공식가 fetch 정확도 우위는 일반화 가능한가

이게 가장 인상적인 사례였다. “Kimi API 공식 가격 알려줘”라고 둘 다에게 물었더니:

내 Claude: WebSearch 결과 요약 → “$0.60 / $2.50” (실제론 OpenRouter 리셀러 가격)
Kimi: “$0.95 / $4.00” (platform.kimi.ai 실제 공식가)

Chrome DevTools로 공식 페이지 직접 확인했더니 Kimi가 맞았다. Anthropic 가격을 물었을 때도 Kimi가 더 정확했다.

하지만 이걸 “Kimi가 웹 검색 더 잘함”으로 일반화할 수 있을까? Kimi가 잘하는 건 자사 공식 문서 fetch일 가능성이 높다. 훈련 데이터에 자사 docs가 우선 학습됐을 테니까. 덜 유명한 스타트업의 가격을 물으면 결과가 뒤집힐 수도 있다. 이걸 확인 못 했다.

의문 5. 외부 플랫폼 코드 실패는 Kimi만의 문제인가

맥 스튜디오에서 Kimi에게 “X 수집기 만들어”라고 시켰다. 84초 만에 playwright 기반 코드를 뽑아줬다. 문제는 X가 2023년부터 비로그인 스크래핑을 차단했다는 걸 Kimi가 몰랐다는 점이다. 실행하면 0건 수집이다.

Kimi knowledge cutoff가 2024년 중반이라 그렇다고 말하기 쉬운데, 진짜 질문은 이거다. Claude에게 같은 지시를 레퍼런스 없이 주면 공정하게 통과할까? 내가 평소 Claude에게는 insane-search 플러그인의 twitter.md 같은 레퍼런스를 프롬프트에 먼저 넣어준다. Kimi에게는 안 줬다. 비교 조건이 이미 불공평했다.

Knowledge cutoff 문제는 모든 LLM의 공통 문제고, 이걸 “Kimi 약점”으로만 쓰는 건 정직하지 않다.

의문 6. “5일 써봤다”고 해도 되는가

실측은 6건, 각 몇 분~몇십 분짜리다. 장시간 리팩터링, 실패 복구, 커스텀 MCP 연동, 프로덕션 배포 플로에 Kimi를 끼워본 적이 없다. 이 상태에서 “5일 써봤다”는 수식어로 권위를 끌어오는 건 게으른 마케팅이다.

실제로는 하루치 깊이다. 나머지 4일은 설치, 결제, 문서 탐독, 그리고 이 글을 고민한 시간이다. 글 쓰는 입장에서 “5일”이 유혹적이라서 그렇다. 쓰고 싶지 않은 표현이다.

구독 유지 이유 1개 + 해지 임계 조건 3개

의심이 6개인데 왜 $19 구독은 유지했냐. 의문 4번 때문이다. 공식 출처 fetch 정확도 한 건이 내 블로그 글 쓸 때 “가격·사양을 내가 잘못 인용해서 사과문 쓰게 될 리스크”를 낮춰주는 장면이 있다. 이게 월 $19 이상의 체감 가치가 있냐는 아직 모른다.

대신 해지 임계 조건 3개는 확실히 정해뒀다.

한국어 오타가 내 블로그 초안 작업 1회라도 오염시키면 → 해지
공식가 fetch 우위가 일반 웹 검색으로 확장 안 되면 (덜 유명한 도구에서 뒤집히면) → 해지
Claude Code에 MCP 기반 공식 문서 레이어가 강화되면 → 해지

이 셋 중 하나라도 충족되면 Kimi는 내 워크플로에서 빠진다. 한 달 안에 답이 나올 것 같다.

결론 — 판정은 한 달 뒤에

“Kimi는 Claude의 대안이다” 또는 “보완이다” 같은 결론은 Moonshot 공식 블로그와 몇몇 영문 후기가 이미 민다. 내가 그 프레임을 확인 도장만 찍어주는 건 블로그 자산이 안 된다.

대신 Kimi를 처음 써본 사람이 가져야 할 6가지 의심을 정리했다. 이 의심이 하나씩 해소되거나 굳어질 때마다 후속 글을 올린다. 판단을 내리는 건 위의 해지 임계 조건 중 하나가 충족되거나 한 달이 지난 뒤다.

독자 중 누군가 Kimi를 먼저 써보고 이 의문 중 하나에 답을 가지고 있다면, 댓글이나 메일로 공유해줬으면 좋겠다. 내가 못 본 장면을 당신은 봤을 수 있다.

태그: #Kimi #KimiK26 #KimiCode #Claude #Opus47 #MoonshotAI #AI도구비교

이 블로그 검색

AI 도구 매일 노트 — 해고된 개발자의 기록