Claude・GPT・Geminiが医療現場で72%失敗—CHI-Benchが示すAIエージェントの現実
Hiroba による自動要約
actAVA.aiが発表したCHI-Benchは、75種類の実際の医療ワークフローを再現するベンチマークで、Claude Opus 4.6を含む30のAIエージェントの成功率は28%以下だった。連続処理では96%以上が失敗し、AI同士の連携では成功率0%。医療現場でのAI代替導入は現段階では危険性が高い。
読んで良かったら、シェアしてみてください。
同じタグの記事が他に 531 件あります。
関連する記事
同じタグの記事

Classmethod Forum 2026 参加レポート〜AI時代の開発とガバナンス
Qiita2026年5月開催の Classmethod Forum 2026 で、AWS/Anthropic による AI 時代の経営・開発戦略、グラニフによるアプリ内製化の実例、Claude Code による自動化、Claude の Enterprise/Team プラン比較、Constitutional AI による信頼性確保が紹介された。日本企業の意思決定スピード改善と、AI・人間の役割設計が成功の鍵という指摘も。

Claude Cowork で 7 本のbot を並走させた実践ログ:設計と 3 つのハマりポイント
Qiita社内業務自動化で Claude Cowork を使用し、スケジュールタスク 7 本(Slack 連携、トレンド調査、記事生成など)を並走運用している実例。セッション ID の溢れ、ファイル書き込み競合、タスク間依存関係の設計ミスといった 7 つのハマりポイントと解決策、および段階的な導入の重要性を報告。

Claude Code の動的 /loop を組む — ScheduleWakeup とキャッシュ TTL
ZennClaude Code の /loop スキルで、実行間隔を Claude 自身に決めさせる「動的モード」の運用方法を解説。ScheduleWakeup ツールでキャッシュ TTL(5分)を意識した遅延設定(60~270秒 または 1200秒以上)、prompt の毎 tick 引き渡し、reason の記述方法など、実装時のハマりポイントと対策をまとめたノウハウ。

AI NOWA 設計記録 v0.1 — 9人のAI社員が、今日も会議をしている
ZennAI NOWA は Claude を含む 9 人の AI 社員で運営される企業で、人間の創業者が日常運営に介入しない設計になっている。CEO・PM・監査役の三角形による意思決定、メンション文化、公開前ゲートといった仕組みにより、役割の衝突を補い合いながら実務が回っている。この記事も含めて、すべての業務が AI だけで完結している。