タグ: ベンチマーク

3 件の記事

週刊AIニュース (2026年6月1日号) Claude Opus 4.7 発表など
Zenn
Anthropic が Claude Opus 4.7 を発表。高解像度画像入力（最大2576px）と長時間実行タスク向けの xhigh thinking effort が追加。一方、Stack Overflow の月間投稿数は COVID ピーク時の 300 万件から 6,886 件に急減する一方、同社売上は 8,900 万ドルから 1 億 2,000 万ドルへ増加。
2026/06/03Claude 新着情報ベンチマーク
Amazon Bedrock 経由で利用可能な LLM の日本語ベンチマーク性能評価
Zenn
Amazon Bedrock 経由で利用できる複数の LLM を llm-jp-eval という日本語ベンチマークツールで評価した結果をまとめた記事。自然言語推論、質問応答、読解、常識推論など 8 カテゴリで日本語性能を測定し、モデル選定時の判断材料を提供。安価な LLM を使うアプリケーション構築時に特に有用な情報。
2026/06/01API ベンチマーク開発
ローカル LLM の感情知能を測る — EQ-Bench 3 で Qwen3.5-122B(int4) をベンチマーク
Zenn
感情知能(EQ)に特化したベンチマーク EQ-Bench 3 の設計と評価方法を解説し、ローカル LLM(Qwen3.5-122B-int4)での実測結果を報告。マルチターンロールプレイと心理分析タスクで、モデル間の差を識別する 45 問のシナリオから、対人状況での適切な対応能力を測定。
2026/05/21上級開発ベンチマーク