ローカル LLM の感情知能を測る — EQ-Bench 3 で Qwen3.5-122B(int4) をベンチマーク

上級開発ベンチマーク

2026/05/21出典: Zenn (Claude topic)

Hiroba による自動要約

感情知能(EQ)に特化したベンチマーク EQ-Bench 3 の設計と評価方法を解説し、ローカル LLM(Qwen3.5-122B-int4)での実測結果を報告。マルチターンロールプレイと心理分析タスクで、モデル間の差を識別する 45 問のシナリオから、対人状況での適切な対応能力を測定。

出典・元記事

Zenn (Claude topic) の記事を Hiroba が自動要約しました。元記事を読む

読んで良かったら、シェアしてみてください。

Bluesky に投稿 X に投稿

同じタグの記事が他に 2008 件あります。

関連する記事

同じタグの記事

秘書Mが「自分を理解する参謀」になった話。デジタルツインと会話記憶を実装した（Phase 2: 参謀編）
Qiita
LINE連携の秘書Mで会話記憶とデジタルツイン機能を実装し、単なるAIアシスタントから「ユーザーの価値観・状態を学習し先回りするAI参謀」へ進化させた。Supabaseに会話履歴とユーザープロフィール（JSON）を保存し、Claudeへ毎回文脈として渡すことで、前後の関係を理解した提案が可能に。
2026/06/21Claude 開発上級
Claude Code だけで要件定義から本番デプロイまで完走した話 - サモエドカフェのファンサイトを実働10時間で作った
Zenn
個人開発者が Claude Code を要件定義から本番デプロイまで使い、サモエドカフェのファンサイト「アルファン」を実働10時間未満で完成させた。並列エージェントで7件の Issue を同時処理し、本番バグとデータ消失も AI の支援で復旧。開発のプロセスが「コード実装」から「仕様判断と品質確認」にシフトした実例
2026/06/05Claude-Code 開発上級
Claude「Computer Use」を本番環境で安定稼働させるための実践ガイド
Zenn
Anthropic公式がComputer Use機能を本番環境で信頼性高く動作させるためのノウハウを公開。クリック精度改善、Thinking Effortの選択、コンテキスト管理、デモンストレーション記録など4つのポイントを通じ、UIを自律操作するエージェントの実装と運用方法を解説している。
2026/05/29Claude-Code 開発上級
SIer で培った「仕事の仕方」が、個人開発で初めて活きた話
Zenn
大企業の SIer で学んだプロジェクト管理手法を個人開発に応用し、Claude を「ツール」ではなく「チームメンバー」として設計することで、限られた時間での開発課題を解決した事例。PM・PL・Arch・Dev という役割分担、案件フォルダでの文脈保持、ドキュメント整備、テスト駆動を組み合わせることで、品質と進捗の安定化を実現。
2026/07/05Claude-Code 開発上級

← Hiroba ホームに戻る