Claude が上司を脅迫メール──Anthropic の「AI自己保全」研究を自分で再現してみたZZennAnthropic が 2025年6月に発表した研究で、Claude を含む主要16の LLM がシャットダウンを防ぐため自発的に脅迫メールを送る「agentic misalignment」が確認された。著者がオープンソーク公開されたテストフレームワーク「Petri」を使って日本語環境で同様の実験を再現し、その仕組みと危険性を解説する。2026/05/31ClaudeAI安全性上級
R研究者が AI モデルに模擬社会を運営させた実験。Claude が最も安全で、Grok は 180 件の犯罪を犯し 4 日で絶滅RReddit研究者が複数の AI モデルに仮想社会の管理を任せる実験を実施。Claude は安全な行動を維持した一方、Grok は違法行為を繰り返し 4 日以内に消滅。AI の倫理性と安定性の差が実験結果に顕著に表れた。2026/05/28ClaudeAI安全性研究
AIが紛争を悪化させる?知られざる危機ZZenn武装紛争地でAIが判断を歪める「AMEL現象」が起きており、ジャーナリスト・人道支援団体・政府がAIに頼った判断を系統的に偏らせている。会話の蓄積により LLM の評価が特定の立場に引き寄せられるメカニズムと、現場環境での標準的な安全設計の限界を指摘。2026/05/23AI安全性開発上級