ローカル LLM の感情知能を測る — EQ-Bench 3 で Qwen3.5-122B(int4) をベンチマーク
Hiroba による自動要約
感情知能(EQ)に特化したベンチマーク EQ-Bench 3 の設計と評価方法を解説し、ローカル LLM(Qwen3.5-122B-int4)での実測結果を報告。マルチターンロールプレイと心理分析タスクで、モデル間の差を識別する 45 問のシナリオから、対人状況での適切な対応能力を測定。
読んで良かったら、シェアしてみてください。
同じタグの記事が他に 447 件あります。
関連する記事
同じタグの記事

2026年最新モデル実測:Claude Opus 4.7 vs GPT-5.5 vs Grok 4 vs Gemini 3
ZennClaude Opus 4.7、GPT-5.5、Grok 4、Gemini 3.1 Proを同一のAgent Workflowで実測比較し、Reasoning・Tool Use・Long Context・Coding・コストの5軸で評価した結果をまとめた記事。Research Agent、Code Generation、Long Context検証の3つのテストで各モデルの強弱が明確になり、「全部で最強」のモデルは存在せず、ユースケース別の使い分けが現実解となることを実証。

QAボトルネック解消に挑戦 - QAプロセスを qa-orchestrator に任せてみた
Zenn開発速度の加速に対してQAが追いつかず、テスト設計の属人化も課題だった状況で、Claude Code上にskill・agent群からなるqa-orchestratorを構築。仕様レビューから観点設計まで複数のプロセスを自動化し、テスト設計工数を約45%削減、成果物のクオリティ・フォーマット一定化を実現した事例の構想から実装までの思考ログ。

サブエージェントを使う日、使わない日──3ヶ月で固まった4つの分岐基準
QiitaClaude Cowork 運用で初期段階の無制限なサブエージェント利用により月次コストが2.4倍に跳ね上がった著者が、3ヶ月の試行錯誤を経て確立した実践的な判定基準。並列性または孤立性を取りに行く時だけサブエージェントを使用し、それ以外は親の文脈で直接処理する運用ルール、トークン重複計上・同一作業の重複実行・判断の丸投げといった落とし穴への対処法を具体的なチェックリストと共に提示。
