Claude Fable 5は本当に弱体化したのか? ベンチマーク2種の差から検証
出典: Qiita (Claude tag)
Hiroba による自動要約
2026年7月1日に提供再開した Claude Fable 5 について、安全分類器の強化により誤検知が増加し、ベンチマークで真逆の結果が報告されている状況を解説。BridgeBench ではコーディング性能低下が、Arena.ai では汎用性能ほぼ維持が報告されており、その差の原因と利用時の注意点を分析。
出典・元記事
Qiita (Claude tag) の記事を Hiroba が自動要約しました。元記事を読む
読んで良かったら、シェアしてみてください。
同じタグの記事が他に 2141 件あります。
関連する記事
同じタグの記事




GitHub Copilot CLI モデル別コスパ比較 (2026 年 6 月版) — SWE-bench × Pareto frontier
ZennGitHub Copilot CLI が 2026 年 6 月から使用量課金に変わったため、モデル選択が月末請求額に直結する。SWE-bench Verified スコアとトークン単価から Pareto frontier を分析した結果、コスパ重視なら Gemini 3.5 Flash (軽量・低価格) → GPT-5.4 (中位性能) → Claude Opus 4.8 (高難度タスク) の 3 候補が有力。さらに安さ優先なら Gemini 3 Flash (Preview) が GA 版比で約 3 倍安価で同等スコア。