Amazon Bedrock 経由で利用可能な LLM の日本語ベンチマーク性能評価
出典: Zenn (Claude topic)
Hiroba による自動要約
Amazon Bedrock 経由で利用できる複数の LLM を llm-jp-eval という日本語ベンチマークツールで評価した結果をまとめた記事。自然言語推論、質問応答、読解、常識推論など 8 カテゴリで日本語性能を測定し、モデル選定時の判断材料を提供。安価な LLM を使うアプリケーション構築時に特に有用な情報。
出典・元記事
Zenn (Claude topic) の記事を Hiroba が自動要約しました。元記事を読む
読んで良かったら、シェアしてみてください。
同じタグの記事が他に 1289 件あります。
関連する記事
同じタグの記事

Claude Fable 5の実コストは出力より入力側で決まる:1コール実測分析
QiitaClaude Fable 5(6/23以降 $10/M入力・$50/M出力)の実際のコスト構造を1コール実測で検証。システムプロンプトやツール定義により、ユーザープロンプト1行でも入力側に約23,000トークンが発生し、総コストの8割が入力とキャッシュで占められることを実証。APIキーなしで Claude Code 経由で原価測定が可能。
Claude Fable 5 が Amazon Bedrock で利用可能に——Agreement 作成から Converse API での推論実行まで
DevIOAnthropic が 2026年6月に発表した Claude Fable 5 が Amazon Bedrock で利用可能になった。セーフガード付きの Fable 5(セーフガードなし版は Mythos 5)は 1M トークンのコンテキストで Mythos Preview の 40% 価格を実現。本記事は Agreement 作成・Data Retention 設定・Converse API での推論実行の手順と注意点を検証結果で整理する。

