Personal blogs

I write about consciousness, AI alignment, and other topics.

英国政府が100億円超を投じる「Safeguarded AIプログラム」とは

2024年の4月にイギリスの政府系研究支援機関であるARIA（Advanced Research and Invention Agency）が、発表した“Safeguarded AI”プログラムについての解説記事です。

1 min read · May 20, 2024 · ALIGN Blog

2024
機械論的解釈可能性の紹介

はじめに近年AIモデルの性能が急速に向上し、AGI（汎用人工知能）の登場が近いのではないかと議論される中、AIシステムを人間の価値観に合わせる研究分野「AIアライメント」(AI Alignment) がOpenAIやAnthropicといったAIスタートアップを中心に推進されています。「価値観のアライメント」と聞くと、RLHF (Reinforcement Learning from Human Feedback) などを思い浮かべる人が多いかと思われますが、RLHFは基本的にAIモデルをブラックボックスとして扱うため、根本的なアライメントの達成は難しいと考えられます。そこで、深層...

1 min read · March 29, 2024 · zenn.dev

2024