自己成長するサブエージェントを「評価」してみた——本当の戦いは作った後だった
Hiroba による自動要約
Claude Code のサブエージェント機能を使い、レビューを支援する自己成長エージェントを構築・評価した実践記。ゴールデンタスクとルーブリックで測定した結果、プロンプトの具体性、呼び出し時の明確な指示、KB の原則化が挙動に与える影響が全く異なることが判明。未知の漏れを検出する真の「賢さ」を測るには、KB に記録されていない題材での評価が必須。
読んで良かったら、シェアしてみてください。
同じタグの記事が他に 1788 件あります。
関連する記事
同じタグの記事

Claude Code を相棒にして休日で 16 本の記事と AI エージェントを作った方法
Qiita働きながら学びを両立させるエンジニア向けに、Claude と Claude Code を「丸投げ」ではなく「自己拡張」の相棒として使い分ける実践法を紹介。CLAUDE.md・実装指示書・PROGRESS.md の 3 つの仕組みにより、限られた休日の時間で agent01 開発と執筆を並行したプロセスを解説。

ローカル LLM で AI エージェントを自作する全 8 回の軌跡|Code Maintenance Agent を 13 ステップで完成させるまで
QiitaClaude Code の仕組みを理解するため、Ollama によるローカル LLM と Claude API を切り替えられる「Code Maintenance Agent」をゼロから 13 ステップで実装した全 8 回シリーズの総集編。土台・ツール化・書き込み・統合の 4 フェーズで段階的に進め、自然言語指示でコード探索・改善計画・差分確認・パッチ適用を自動実行するエージェントを完成させた軌跡を一気に俯瞰できる構成。

AIエージェントを「指揮」するOSS「TAKT」とは — 仕組みと使い方
ZennTypeScript製のOSS「TAKT」はAIエージェントのオーケストレーションツール。YAMLでワークフローを定義し、人間の都度確認をワークフロー定義に置き換え、ステップ遷移・レビューループ・実行記録を自動管理。Claude Code等と組み合わせて、エージェント制御を宣言的に行える。

Gemini CLI vs. Claude Code: エージェント機能がプロンプト以上に実行動作を形作る理由
HNバッチジョブで Google Drive ファイル一覧取得に 30 秒の見込みが 10 分かかり、エージェントが不要な Python スクリプト作成や SDK 検査を実施した事例から、エージェントの実行動作はプロンプトより「利用可能な機能」に支配されることを実証。OAuth トークン期限切れを即座に報告すべき場面で、複雑な根本原因分析を自動生成する「行動誘発」現象を報告。