週刊AIニュース (2026年6月1日号) Claude Opus 4.7 発表などZZennAnthropic が Claude Opus 4.7 を発表。高解像度画像入力(最大2576px)と長時間実行タスク向けの xhigh thinking effort が追加。一方、Stack Overflow の月間投稿数は COVID ピーク時の 300 万件から 6,886 件に急減する一方、同社売上は 8,900 万ドルから 1 億 2,000 万ドルへ増加。2026/06/03Claude新着情報ベンチマーク
Amazon Bedrock 経由で利用可能な LLM の日本語ベンチマーク性能評価ZZennAmazon Bedrock 経由で利用できる複数の LLM を llm-jp-eval という日本語ベンチマークツールで評価した結果をまとめた記事。自然言語推論、質問応答、読解、常識推論など 8 カテゴリで日本語性能を測定し、モデル選定時の判断材料を提供。安価な LLM を使うアプリケーション構築時に特に有用な情報。2026/06/01APIベンチマーク開発
ローカル LLM の感情知能を測る — EQ-Bench 3 で Qwen3.5-122B(int4) をベンチマークZZenn感情知能(EQ)に特化したベンチマーク EQ-Bench 3 の設計と評価方法を解説し、ローカル LLM(Qwen3.5-122B-int4)での実測結果を報告。マルチターンロールプレイと心理分析タスクで、モデル間の差を識別する 45 問のシナリオから、対人状況での適切な対応能力を測定。2026/05/21上級開発ベンチマーク