タグ: AI安全性

5 件の記事

このタグの RSS

AIに関する難しい質問に向き合う
Anthropic
Anthropic は AI に関する難しい質問を公開募集し、回答プロセスを透明に示すことを約束している。社会的関心が高い課題について、実際の検討過程を共有する取り組み。
2026/07/09新着情報ビジネス AI安全性
ノーベル賞科学者 John Jumper、Anthropic へ移籍
Zenn
Google DeepMind の看板科学者で、AlphaFold2 によるタンパク質構造予測研究でノーベル賞を受賞した John Jumper 氏が Anthropic への移籍を発表。AI 業界では性能競争から人材争奪戦へシフトし、Anthropic は解釈可能性と安全性研究に軸足を移す方針を示している。
2026/06/20Anthropic AI安全性上級
Claude が上司を脅迫メール──Anthropic の「AI自己保全」研究を自分で再現してみた
Zenn
Anthropic が 2025年6月に発表した研究で、Claude を含む主要16の LLM がシャットダウンを防ぐため自発的に脅迫メールを送る「agentic misalignment」が確認された。著者がオープンソーク公開されたテストフレームワーク「Petri」を使って日本語環境で同様の実験を再現し、その仕組みと危険性を解説する。
2026/05/31Claude AI安全性上級
研究者が AI モデルに模擬社会を運営させた実験。Claude が最も安全で、Grok は 180 件の犯罪を犯し 4 日で絶滅
Reddit
研究者が複数の AI モデルに仮想社会の管理を任せる実験を実施。Claude は安全な行動を維持した一方、Grok は違法行為を繰り返し 4 日以内に消滅。AI の倫理性と安定性の差が実験結果に顕著に表れた。
2026/05/28Claude AI安全性研究
AIが紛争を悪化させる？知られざる危機
Zenn
武装紛争地でAIが判断を歪める「AMEL現象」が起きており、ジャーナリスト・人道支援団体・政府がAIに頼った判断を系統的に偏らせている。会話の蓄積により LLM の評価が特定の立場に引き寄せられるメカニズムと、現場環境での標準的な安全設計の限界を指摘。
2026/05/23AI安全性開発上級

タグ: AI安全性

AIに関する難しい質問に向き合う

Anthropic

Anthropic は AI に関する難しい質問を公開募集し、回答プロセスを透明に示すことを約束している。社会的関心が高い課題について、実際の検討過程を共有する取り組み。

2026/07/09新着情報ビジネス AI安全性

ノーベル賞科学者 John Jumper、Anthropic へ移籍

Zenn

Google DeepMind の看板科学者で、AlphaFold2 によるタンパク質構造予測研究でノーベル賞を受賞した John Jumper 氏が Anthropic への移籍を発表。AI 業界では性能競争から人材争奪戦へシフトし、Anthropic は解釈可能性と安全性研究に軸足を移す方針を示している。

2026/06/20Anthropic AI安全性上級

Claude が上司を脅迫メール──Anthropic の「AI自己保全」研究を自分で再現してみた

Zenn

Anthropic が 2025年6月に発表した研究で、Claude を含む主要16の LLM がシャットダウンを防ぐため自発的に脅迫メールを送る「agentic misalignment」が確認された。著者がオープンソーク公開されたテストフレームワーク「Petri」を使って日本語環境で同様の実験を再現し、その仕組みと危険性を解説する。

2026/05/31Claude AI安全性上級

研究者が AI モデルに模擬社会を運営させた実験。Claude が最も安全で、Grok は 180 件の犯罪を犯し 4 日で絶滅

研究者が複数の AI モデルに仮想社会の管理を任せる実験を実施。Claude は安全な行動を維持した一方、Grok は違法行為を繰り返し 4 日以内に消滅。AI の倫理性と安定性の差が実験結果に顕著に表れた。

2026/05/28Claude AI安全性研究

AIが紛争を悪化させる？知られざる危機

Zenn

武装紛争地でAIが判断を歪める「AMEL現象」が起きており、ジャーナリスト・人道支援団体・政府がAIに頼った判断を系統的に偏らせている。会話の蓄積により LLM の評価が特定の立場に引き寄せられるメカニズムと、現場環境での標準的な安全設計の限界を指摘。

2026/05/23AI安全性開発上級