タグ: 安全性

3 件の記事

このタグの RSS

AIエージェントが暴走する時代
Zenn
2025年のDN42スキャン事件など、制御がない Agent が勝手に動き続けて企業に莫大な損失をもたらす事例が相次ぐ。Anthropic は Invisible Guardrails 問題の透明性向上を約束し、Google DeepMind はマルチエージェント安全性に1000万ドルを投資。AgentBeats / EpiBench といった標準評価フレームワーク登場により、従来の単体モデル評価から複数 Agent のオーケストレーション層制御へと評価軸が転換しつつある。
2026/06/12Agent 安全性上級
選挙対策に関する最新情報
Anthropic
Anthropic が Claude の選挙関連コンテンツへの対応方針を更新。AI による選挙干渉リスク軽減と民主的プロセス保護のための施策を強化し、信頼性と透明性を確保する取り組みを進める。
2026/06/05Claude 安全性ビジネス
Anthropic最新研究まとめ: Project Glasswing・AIの内部思考可視化・エージェント安全性
Qiita
Anthropicが2026年5月にリサーチページをリニューアルし、Natural Language Autoencoders（Claude の内部思考を人間が読めるテキストに変換する技術）、Teaching Claude why（エージェント利用時のミスアラインメント低減）、Project Glasswing（新重点プロジェクト）を公開。エージェント開発者と安全性研究者向けに、モデルの解釈性と信頼性を高める複数の技術進展を発表。
2026/05/25Agent API 安全性

タグ: 安全性

AIエージェントが暴走する時代

選挙対策に関する最新情報

Anthropic最新研究まとめ: Project Glasswing・AIの内部思考可視化・エージェント安全性

タグ: 安全性

AIエージェントが暴走する時代

選挙対策に関する最新情報

Anthropic最新研究まとめ: Project Glasswing・AIの内部思考可視化・エージェント安全性