Anthropic最新研究まとめ: Project Glasswing・AIの内部思考可視化・エージェント安全性
QQiitaAnthropicが2026年5月にリサーチページをリニューアルし、Natural Language Autoencoders(Claude の内部思考を人間が読めるテキストに変換する技術)、Teaching Claude why(エージェント利用時のミスアラインメント低減)、Project Glasswing(新重点プロジェクト)を公開。エージェント開発者と安全性研究者向けに、モデルの解釈性と信頼性を高める複数の技術進展を発表。