技術文書RAGの検索品質・ハルシネーション対策・コストを実測する
Hiroba による自動要約
Claudeの公式ドキュメント66ページを対象にしたRAGシステムについて、検索品質(recall@1/recall@3/MRR)、ハルシネーション抑制、1クエリあたりのコストを評価ハーネスで実測した結果を報告。リランカーはハイブリッド検索で難易度の高い質問のみに効果があり、素のRRFは順位を悪化させることが判明。
読んで良かったら、シェアしてみてください。
同じタグの記事が他に 1684 件あります。
関連する記事
同じタグの記事


AppleがGoogleに転換?WWDC 2026 Siri AIがGemini 1.2Tベースになった理由
QiitaWWDC 2026でAppleが発表した次世代Siri AIは、Google Geminiをベースにした約1.2兆パラメータのカスタムモデルを採用。デバイス内処理(Tier 1)→Private Cloud Compute(Tier 2)→Google Cloud(Tier 3)の3層アーキテクチャで、プライバシーを保ちながら重い推論処理をクラウドに委譲する設計に。Apple公式リリースでは「Gemini」の名称を明記せず、年間10億ドルの契約とも報じられている。

Claude Fable 5が消えた日 ─ 2026年6月のLLMベンチマーク調査と代替モデル選択ガイド
QiitaFable 5が輸出管理指令対応で提供停止され、代替LLMの選択が急務となった。SWE-bench Verifiedなどベンチマーク数値の「公認記録」と「参考記録」の区別や、標準化ハーネスとベンダー独自ハーネスの差(10~30ポイント)を踏まえ、用途別に最適なモデルを選ぶ判断軸を解説。最強とコスパは別種目だ。
Claude Code プラグインでトークンを節約する
HNtoken-warden は Claude Code 用のプラグインで、エージェントのメモリに含まれるルールを実測ベンチマークで検証し、コスト以上の節約効果があるルールのみを保持することでトークン消費を削減する。4段階のループ(収集・蒸留・ベンチマーク・選別)で継続的にメモリを最適化し、効果のないルールは自動的に削除される。