ChatGPT熱潮の中の冷静剤 - AI安全性研究

在 OpenAI が第 4 世代の chatGPT を発表した後、AI 分野からテクノロジー全般に流行の風が吹き、さまざまな業界での議論にも現れました。このような盛況に直面して、賑やかさに対して懐疑的な私は「本当にそんなにすごいのか？欠点は何か？」と思います。このように考えるのは、変化を受け入れないというわけではなく、このような大規模 AI システムが未来にどのような影響を与えるのか、私たちは短期、中期、長期の変化にどのように対処すべきかを理解したいからです。そうすることで、心理的な期待を持ち、未来に向けての計画を立てることができます。

ちょうど今日、Anthropic のこの記事を契機に、大規模 AI モデルが直面する安全性の問題と、それに対する彼らの探求について一緒に考えてみたいと思います。

引言#

私たちが Anthropic を設立したのは、人工知能の影響が産業革命や科学革命の影響に匹敵する可能性があると信じているからですが、それがスムーズに進むとは信じていません。また、この程度の影響がすぐに訪れる可能性があるとも信じています —— おそらく今後 10 年以内に。

この見解は信じがたいか、誇張されているように聞こえるかもしれませんが、懐疑的である理由は十分にあります。一方で、「私たちがやっていることは歴史上最大の発展の一つかもしれない」と言った人々のほとんどは間違っており、しばしば滑稽です。それにもかかわらず、私たちは人工知能の急速な進歩が変革的な人工知能システムをもたらす世界に備えるための十分な証拠があると信じています。

Anthropic では、「語るのではなく示す」というモットーのもと、安全志向の研究を継続的に発表してきました。これらの研究は AI コミュニティに広く価値があると考えています。私たちがこの記事を書く理由は、ますます多くの人々が人工知能の進歩に気づく中で、このトピックに対する私たちの見解を表明し、私たちの戦略と目標を説明する時が来たからです。要するに、私たちは人工知能の安全研究が差し迫っており、広範な公的および私的参加者の支援を受けるべきだと考えています。

したがって、この記事では、私たちがなぜこれを信じているのかを要約します：なぜ私たちは AI が非常に迅速に進歩し、非常に大きな影響を与えると予測しているのか、そしてそれがどのように私たちを AI の安全性についての懸念に導くのかを説明します。その後、私たち自身の AI 安全研究のアプローチとその背後にあるいくつかの理由を簡単にまとめます。この記事を書くことで、AI の安全性と AI の進歩に関するより広範な議論に貢献できることを願っています。

この記事の要点を高レベルでまとめると：

人工知能は非常に大きな影響を与える可能性があり、今後 10 年以内に実現するかもしれません
AI システムの急速かつ持続的な進歩は、AI システムのトレーニングに使用される計算が指数関数的に増加するという予測結果です。「スケーリングの法則」に関する研究は、より多くの計算が能力の一般的な向上をもたらすことを示しています。単純な推論から、人工知能システムは今後 10 年以内により強力になり、ほとんどの知的タスクでのパフォーマンスは人間レベルに等しいか、それを超える可能性があります。人工知能の進歩は鈍化または停止する可能性がありますが、続く可能性があるという証拠があります。
私たちはシステムを堅牢に良好に機能させる方法を知らない
現時点では、非常に強力な人工知能システムをトレーニングして非常に有用で、誠実で無害にする方法を知っている人はいません。さらに、人工知能の急速な進歩は社会に混乱をもたらし、競争的な競争を引き起こす可能性があり、その結果、企業や国家が信頼できない人工知能システムを展開することにつながる可能性があります。このような行動の結果は壊滅的である可能性があり、人工知能システムが戦略的に危険な目標を追求するか、または高リスクの状況でより多くの無実の誤りを犯すことによって引き起こされる可能性があります。
私たちは人工知能の安全性に対する多面的で経験に基づくアプローチに最も楽観的です
私たちは、信頼性のある安全なシステムを構築することを目指してさまざまな研究方向を追求しており、現在最もエキサイティングなのは、拡張監視、機械的説明可能性、プロセス指向の学習、そして人工知能システムがどのように学び、一般化するかを理解し評価することです。私たちの重要な目標の一つは、この安全作業を差別化して加速し、安全研究のプロファイルを策定することです。これは、安全性の課題が簡単に解決できるシナリオから、安全なシステムを作成することが非常に困難なシナリオまで、幅広いシナリオをカバーしようとするものです。

私たちの人工知能の急速な発展に対する粗略な見解#

AI の性能が予測可能である理由は、（1）改善の 3 つの主要要因はトレーニングデータ、計算、改善されたアルゴリズムです。2010 年代中頃、私たちの中の何人かは、より大きな AI システムが常により知的であることに気づきました。したがって、AI の性能において最も重要な要因は、AI トレーニング計算の総予算である可能性があると推測しました。グラフを描くと、最大モデルへの計算量が毎年10 倍の速度で増加していることが明らかになりました（倍増時間はムーアの法則より 7 倍速い）。2019 年、後に Anthropic の創設チームとなる数名のメンバーは、スケーリングの法則を定義することでこの考えをより正確にしました。AI に対して、AI をより大きくし、より多くのデータでトレーニングすることで、予測可能な方法で AI をより賢くすることができることを証明しました。これらの結果は、ある程度このことを証明しており、チームは GPT-3 のトレーニング作業を主導しました。これは、173B 以上のパラメータを持つ最初の現代的な「大規模」言語モデルといえます（2）。

スケールの法則が発見されて以来、Anthropic の多くのメンバーは、人工知能が非常に迅速に進歩する可能性が高いと信じています。しかし、2019 年に戻ると、多モーダル、論理推論、学習速度、タスク間の転移学習、長期記憶が AI の進歩を遅らせたり、阻止したりする「壁」となる可能性があるように思われました。その後の数年間で、多モーダルや論理推論などの「壁」のいくつかは崩壊しました。これを考慮すると、私たちのほとんどは、人工知能の急速な進歩が続くとますます信じるようになりました。AI システムは現在、さまざまなタスクで人間レベルに近いパフォーマンスを示していますが、これらのシステムをトレーニングするコストは、ハッブル宇宙望遠鏡や大型ハドロン衝突型加速器などの「大科学」プロジェクトよりもはるかに低いままです —— これは、さらなる発展の余地があることを意味します（3）。

人々はしばしば初期段階の指数関数的成長を認識し、認めるのが苦手です。私たちは AI が急速に進歩しているのを見ていますが、人々はこの局所的な進歩が例外であり、通常ではないと考え、物事はすぐに正常に戻る可能性があると考えがちです。しかし、もし私たちが正しいなら、人工知能システムが私たち自身の能力を超える広範な能力を持つ前に、現在の人工知能の急速な進歩の感覚は終わらないかもしれません。さらに、AI 研究における高度な AI のフィードバックループは、この変化を特に迅速にする可能性があります。私たちはこのプロセスの始まりを見ており、コードモデルの開発は人工知能研究者の作業効率を向上させ、憲法人工知能は人間のフィードバックへの依存を減少させました。

もしこれらのいずれかが正しいなら、近い将来にほとんどまたはすべての知識労働が自動化される可能性があります —— これは社会に深遠な影響を与え、他の技術の進歩の速度を変える可能性があります（この分野の初期の例は、AlphaFold のようなシステムがどのように今日の生物学を加速させたかです）。未来の人工知能システムはどのような形を取るのか —— 例えば、独立して行動できるのか、単に人間のために情報を生成するのか —— はまだ不明です。それにもかかわらず、これは非常に重要な瞬間である可能性があることを過小評価することは難しいです。私たちは、AI の進展が十分に遅くなり、この変化を管理しやすくすることを望むかもしれませんが、この変化が数世代ではなく数年または数十年で起こることを考慮すると、私たちは期待される結果ではなく、望ましい結果に備える必要があります。

もちろん、この全体像が完全に間違っている可能性もあります。Anthropic では、これがより可能性が高いと考えていますが、AI 開発に関する私たちの作業に偏見があるかもしれません。それでも、私たちはこの図が十分に信頼できると考えており、完全に否定することはできません。潜在的な重大な影響を考慮すると、人工知能企業、政策立案者、民間社会機関は、変革的な人工知能にどのように対処するかについての研究と計画に非常に真剣に取り組むべきだと考えています。

どのような安全上の懸念がありますか？#

上記の見解を受け入れるなら、人工知能が私たちの安全に脅威を与える可能性があることを示すのは難しくありません。注目すべき 2 つの常識的な理由があります。

まず第一に、これらのシステムが設計者と同じくらい知的で周囲の環境を理解し始めると、安全で信頼性が高く、操作可能なシステムを構築することが難しくなる可能性があります。たとえば、チェスのマスターは初心者の悪手を簡単に見抜くことができますが、初心者はマスターの悪手を見抜くのが難しいです。もし私たちが構築した人工知能システムが人間の専門家よりも能力が高い場合でも、それが追求する目標が私たちの最大の利益と対立する場合、結果は恐ろしいものになる可能性があります。これが技術的整合性の問題です。

第二に、AI の急速な進歩は非常に破壊的であり、国家内部および国家間の雇用、マクロ経済、権力構造を変える可能性があります。これらの破壊はそれ自体が壊滅的である可能性があり、AI システムを慎重かつ深く考えた方法で構築することがさらに困難になる可能性があり、その結果、AI がさらに混乱し、さらなる問題を引き起こす可能性があります。

私たちは、人工知能が急速に進歩する場合、これらの 2 つのリスク源が非常に重要になると考えています。これらのリスクは、さまざまな予測不可能な方法で相互に重なり合う可能性があります。事後的に見れば、私たちは間違っていたと考えるかもしれません。そのうちの 1 つまたは 2 つの問題は、問題にならないか、簡単に解決できるかもしれません。それでも、私たちは慎重に行動する必要があると考えています。なぜなら、「間違った」場合は壊滅的な結果をもたらす可能性があるからです。

もちろん、私たちは AI の行動がその創造者の意図から逸脱するさまざまな方法に直面してきました。これには、毒性、偏見、不信頼、不誠実、そして最近のお世辞や権力への明確な渇望が含まれます。私たちは、AI システムの急増とその強化に伴い、これらの問題がますます重要になると予測しています。その中には、人間レベルの AI やそれ以上の問題を代表するものもあるかもしれません。

しかし、人工知能の安全性の分野では、予測可能で驚くべき進展が見られると予想しています。たとえ私たちが現代の人工知能システムが直面するすべての問題を完全に解決できたとしても、未来の問題が同じ方法で解決できると軽率に仮定したくはありません。恐ろしい、推測的な問題は、人工知能システムが自らの位置を理解し、人々を欺くことに成功したり、人間が理解できない戦略を策定したりするのに十分賢くなったときにのみ現れるかもしれません。多くの懸念される問題は、人工知能が非常に進んだときにのみ現れる可能性があります。

私たちのアプローチ：人工知能の安全性に対する経験主義#

私たちは、研究対象と密接に関わらなければ、科学と工学の分野で迅速な進歩を遂げることは難しいと考えています。「基本的な事実」を継続的に反復することが、科学の進歩にとって重要です。私たちの人工知能安全研究における人工知能に関する経験的証拠 —— それは主に計算実験、すなわち人工知能のトレーニングと評価から来るものですが —— は、基本的な事実の主要な源です。

これは、理論や概念研究が AI の安全性において地位を持たないと考えているわけではありませんが、経験に基づく安全研究が最も関連性が高く、影響力を持つと信じています。可能な人工知能システム、可能な安全故障、そして可能な安全技術の空間は広大であり、単独で椅子に座ってそれを探るのは難しいです。すべての変数を考慮することの難しさを考えると、未だに現れたことのない問題に過度に焦点を当てたり、実際に存在する大きな問題を見逃したりするのは簡単です（4）。良い実証研究は、より良い理論や概念の作業を可能にすることがよくあります。

これに関連して、安全問題を検出し緩和する方法は、事前に計画するのが非常に難しい可能性があり、反復的な開発が必要です。これを考慮すると、「計画は不可欠だが、計画は無用だ」と考える傾向があります。特定の時点で、私たちは研究の次のステップのための計画を立てるかもしれませんが、私たちはその計画に執着していません。それらは、私たちがより多くを理解するにつれて変更する準備ができている短期的な賭けのようなものです。これは明らかに、現在の研究の進路が成功することを保証できないことを意味しますが、これはすべての研究プロジェクトの現実です。

最前線のモデルが実証的安全性に果たす役割#

Anthropic が存在する主な理由の一つは、「最前線」の人工知能システムに対する安全研究が必要であると考えているからです。これは、大規模モデルを扱うことができ、安全性を優先する機関が必要です（5）。

経験主義自体は、必ずしも最前線の安全が必要であることを意味するわけではありません。人々は、より小さく、能力の低いモデルで効果的に実証的安全研究を行うことができる状況を想像できます。しかし、私たちはこれが私たちの状況であるとは考えていません。基本的なレベルでは、大規模モデルと小規模モデルは質的に異なります（突然の、予測不可能な変化を含む）。しかし、スケールはより直接的な方法で安全性と関連しています：

私たちの最も深刻な安全問題の多くは、人間レベルに近いシステムでのみ発生する可能性があり、そのような人工知能を使用しない限り、これらの問題に対処するのは難しいかもしれません。
憲法 AIや議論のような多くの安全手法は、大規模モデルでのみ機能します —— 小さなモデルを使用すると、これらの方法を探求し、証明することができなくなります。
私たちが未来のモデルの安全性に注目しているため、安全手法や特性がモデルの拡張に伴ってどのように変化するかを理解する必要があります。
もし未来の大規模モデルが非常に危険であることが証明された場合、私たちは説得力のある証拠を開発する必要があります。私たちは、これが大規模モデルを使用することでのみ実現できることを望んでいます。

残念ながら、実証的安全研究が大規模モデルを必要とする場合、それは私たちに厳しいトレードオフに直面させることになります。私たちは、安全を動機とした研究が危険な技術の展開を加速する状況を避けるために最善を尽くさなければなりません。しかし、過度の慎重さが、最も安全意識の高い研究作業が最前線から大きく遅れたシステムにのみ関与することを許すことはできず、それによって私たちが重要だと考える研究を大幅に遅らせることになります。さらに、私たちは実践的に安全研究を行うだけでは不十分であり、最新の安全研究を実際のシステムに迅速に統合するための機関知識を持つ組織を構築することも重要だと考えています。

これらのトレードオフを責任を持って評価することはバランスの取れた行動であり、これらの懸念は私たちが戦略的決定を下す方法の中心です。安全、能力、政策に関する研究に加えて、これらの問題は、企業ガバナンス、採用、展開、安全性、パートナーシップに関する私たちのアプローチを推進しています。近い将来、私たちは安全基準を満たす場合にのみ、特定の能力閾値を超えるモデルを開発するという明確なコミットメントを外部に示すことを計画しています。また、独立した外部組織が私たちのモデルの能力と安全性を評価できるようにします。

AI の安全性を確保するためのポートフォリオアプローチ#

安全に関心のある研究者の中には、人工知能のリスクの性質に対する強い見解に刺激を受けている人もいます。私たちの経験では、AI システムの行動や特性を予測することは非常に困難です。未来のシステムの安全性について先験的に予測することは、さらに困難に思えます。強硬な立場を取るのではなく、さまざまなシナリオが合理的であると考えています。

不確実性の特に重要な側面は、基本的に安全で人間に対するリスクが小さい高度な人工知能システムを開発することがどれほど困難であるかです。このようなシステムを開発することは、非常に簡単から不可能までの範囲に位置する可能性があります。この範囲を非常に異なる意味を持つ 3 つのシナリオに分けてみましょう：

** 楽観的なシナリオ：** 安全上の欠陥により、高度な人工知能が壊滅的なリスクをもたらす可能性は非常に低い。すでに開発された安全技術、たとえば人間のフィードバックからの強化学習(RLHF) や憲法 AI (CAI) は、すでに整合性を持つのに十分です。AI の主なリスクは、今日直面している問題の外挿、たとえば毒性や意図的な悪用、そして広範な自動化や国際的な権力のダイナミクスの変化などによって引き起こされる潜在的な危害です —— これは、AI ラボや学術界、民間社会機関などの第三者が危害を最小限に抑えるために多くの研究を行う必要があります。
** 中間シナリオ：** 壊滅的なリスクは、高度な AI の開発の可能性がある、あるいは似ている結果です。この問題を解決するには、大量の科学的および工学的努力が必要ですが、十分な重点を置けば実現可能です。
** 悲観的なシナリオ：**AI の安全性は本質的に解決不可能な問題です —— これは、私たちが制御できない、または自分よりも賢いシステムに価値を指定できないという経験的事実です —— したがって、非常に高度な AI システムを開発または展開することはできません。特に、非常に強力な人工知能システムを作成する前に、最も悲観的なシナリオは楽観的なシナリオのように見えるかもしれません。悲観的なシナリオを真剣に受け止めるには、システムの安全性を評価する証拠に対して謙虚さと慎重さを保つ必要があります。

もし私たちが楽観的な状況にいるなら…… Anthropic が行うすべてのことのリスクは（幸運なことに）はるかに低く、壊滅的な安全上の欠陥が発生する可能性は非常に低いです。私たちの調整努力は、高度な人工知能の本当に有益な用途のペースを加速し、人工知能システムの開発中に生じるいくつかの最近の危害を軽減するのに役立つでしょう。また、壊滅的な安全上の欠陥が発生する可能性が低い場合、私たちは意思決定者が高度な人工知能によってもたらされる潜在的な構造的リスクに対処するのを助けるために努力するかもしれません。

もし私たちが中間シナリオにいるなら…… Anthropic の主な貢献は、高度な人工知能システムがもたらすリスクを特定し、強力な人工知能システムをトレーニングするための安全な方法を見つけて広めることになります。私たちは、少なくとも私たちのいくつかの安全技術の組み合わせ（以下で詳しく説明します）がこの状況で役立つことを望んでいます。これらのシナリオの範囲は、「中程度の簡単なシナリオ」から「中程度の難しいシナリオ」まであり、私たちは、憲法 AI などの技術を通じて多くの限界的な進展を達成できると考えています。機械的説明可能性の成功を実現することが最良の選択肢のようです。

もし私たちが悲観的なシナリオにいるなら…… Anthropic の役割は、高度な人工知能がもたらす深刻または壊滅的な安全リスクを防ぐことができないという証拠をできるだけ多く提供し、警告を発することです。これにより、世界の機関が危険な人工知能の発展を防ぐために共同で努力できるようになります。私たちが「ほぼ悲観的な」シナリオにいる場合、これは私たちの共同努力を AI 安全研究に向けることを含むかもしれませんが、AI の進歩を阻止することも含まれます。私たちが悲観的またはほぼ悲観的なシナリオにいることを示す兆候は突然現れ、発見が難しいかもしれません。したがって、私たちは、十分な証拠がない限り、私たちがこの状況にある可能性があると常に仮定すべきです。

利害関係を考慮すると、私たちの最優先事項の 1 つは、私たちがどのシナリオにいるのかに関する情報をさらに収集し続けることです。私たちが追求している多くの研究方向は、人工知能システムをよりよく理解し、行動に関する技術を開発することを目的としています。たとえば、高度な人工知能システムの権力追求や欺瞞に関するものです。

私たちの目標は主に次のことを開発することです：

人工知能システムをより安全にするためのより良い技術、
人工知能システムの安全性または不安全性を特定するためのより良い方法。

楽観的な場合、(i) は AI 開発者が有益なシステムをトレーニングするのを助け、(ii) はそのようなシステムが安全であることを証明します。

中間シナリオでは、(i) は私たちが AI の災害を回避する最終手段になる可能性があり、(ii) は高度な AI がもたらすリスクを低く保つために重要です。

悲観的な場合、(i) の失敗は人工知能の安全性が解決できない重要な指標となり、(ii) は他の人にこのことを説得力を持って示す可能性があります。

私たちはこの AI 安全研究の「ポートフォリオアプローチ」を信じています。私たちは上記のリストの単一の可能なシナリオに賭けているのではなく、さまざまなシナリオで大きな影響を与える可能性が最も高い中間シナリオで人工知能の安全研究が成功する可能性を大幅に改善する研究プロジェクトを開発しようとしています。また、悲観的なシナリオにおいても警告を発し、AI 安全研究が AI リスクに対してあまり影響を与えない可能性があることを示しています。私たちは、技術的な AI 安全研究の需要がそれほど高くない楽観的な状況でも役立つ方法でこれを行おうとしています。

Anthropic の 3 つの人工知能研究#

私たちは Anthropic の研究プロジェクトを 3 つの分野に分けています：

** 能力：**AI 研究は、AI システムがあらゆるタイプのタスクをより良く実行できるようにすることを目的としています。これには、執筆、画像処理や生成、ゲームプレイなどが含まれます。大規模言語モデルをより効率的にする研究や強化学習アルゴリズムの改善は、このタイトルに該当します。能力に関する作業は、私たちが整合性研究で調査し使用するモデルを生成し改善しました。私たちは一般的にこの種の作業を発表しません。なぜなら、AI 能力の進歩を加速させたくないからです。さらに、私たちの目標は、前線の能力のデモを考慮することです（たとえ公開されなくても）。私たちは 2022 年春にタイトルモデルの最初のバージョン Claude をトレーニングし、公共展開ではなく安全研究に優先的に使用することを決定しました。
** 整合性能力：** この研究の焦点は、人工知能システムをより役立つ、誠実で無害、信頼性が高く堅牢にし、人間の価値観と一般的に整合するようにトレーニングするための新しいアルゴリズムを開発することです。Anthropic の現在および過去のこのような作業の例には、議論、拡張自動赤チーム、憲法 AI、偏見除去、RLHF（人間のフィードバックからの強化学習）が含まれます。一般的に、これらの技術は実用的で経済的価値がありますが、必ずしもそうである必要はありません —— たとえば、新しいアルゴリズムの効率が相対的に低い場合や、AI システムがより強力になるまで役立たない場合です。
** 整合性科学：** この分野は、AI システムが本当に整合しているか、整合機能技術がどのように機能するか、そしてこれらの技術の成功をより強力な AI システムにどの程度外挿できるかを評価し理解することに焦点を当てています。Anthropic のこの作業の例には、機械的説明可能性の広範な分野や、言語モデルを使用して言語モデルを評価すること、赤チーム、影響関数を使用して大規模言語モデルの一般化を研究することが含まれます（以下に詳述）。私たちの誠実さに関するいくつかの作業は、整合性科学と整合性能力の境界に位置しています。

ある意味で、整合性能力は整合性科学と「青チーム」と「赤チーム」の違いとして見ることができます。整合性能力研究は新しいアルゴリズムを開発しようとし、整合性科学はそれらの限界を理解し明らかにしようとします。

私たちがこの分類を有用だと考える理由の 1 つは、人工知能安全コミュニティが RLHF の発展 —— それも経済的価値を生む —— が「本当に」安全研究であるかどうかについてしばしば議論するからです。私たちはそれが安全研究であると信じています。実用的で有用な整合性能力研究は、より能力のあるモデルのための技術を開発する基盤です —— たとえば、憲法 AI や AI 生成の評価に関する私たちの作業、そして自動化赤チームや議論に関する私たちの進行中の作業は、RLHF の前の作業がなければ不可能ではありません。整合性機能の作業は、これらのシステムをより誠実で修正可能にすることによって整合性研究を支援する可能性があります。

もし AI の安全性が非常に簡単に扱えることが証明されれば、私たちの整合性能力の作業は私たちの最も影響力のある研究になるかもしれません。逆に、整合性の問題がより困難であれば、私たちは整合性能力技術の欠陥を見つけるために整合性科学にますます依存することになるでしょう。整合性の問題が実際にほぼ不可能である場合、私たちは非常に強力なケースを構築するために整合性科学を急いで必要とします。

現在の安全研究#

私たちは現在、安全な人工知能システムをトレーニングする方法を発見するためにさまざまな方向に取り組んでおり、その中には異なる脅威モデルや能力レベルに対処するプロジェクトもあります。いくつかの重要なアイデアには次のものが含まれます：

機械的説明可能性
拡張可能な監視
プロセス指向の学習
一般化の理解
危険な故障モードのテスト
社会的影響と評価

機械的説明可能性#

多くの点で、技術的整合性の問題は、AI モデルから不良行動を検出する問題と密接に関連しています。もし私たちが新しい状況でも不良行動を堅牢に検出できるなら（たとえば、「モデルの考えを読む」ことによって）、私たちはこれらの故障モードを示さないモデルをトレーニングする方法を見つける可能性が高くなります。同時に、他の人にモデルが安全でないことを警告し、展開すべきではないことを警告する能力も得られます。

私たちの説明可能性研究は、他のタイプの整合性科学が残した空白を埋めることを優先しています。たとえば、説明可能性研究が生み出す最も価値のあることの 1 つは、モデルが欺瞞的に整合しているかどうかを特定できることです（「協力」や非常に困難なテスト、たとえば故意に「誘惑」システムを「蜜罐」テストで明らかにすることなど）。もし私たちの拡張可能な監視とプロセス指向の学習に関する作業が有望な結果を生み出した場合（以下参照）、私たちが生成するモデルは非常に厳しいテストでも一貫しているように見えることを望んでいます。これは、私たちが非常に楽観的なシナリオにいることを意味するか、あるいは最も悲観的なシナリオの 1 つにいることを意味します。他の方法でこれらの状況を区別することはほぼ不可能に思えますが、説明可能性の面では非常に困難です。

これにより、私たちは大きなリスクを賭けました：機械的説明可能性、すなわち神経ネットワークを人間が理解できるアルゴリズムに逆エンジニアリングする試みです。これは、人々が未知であり、潜在的に安全でないコンピュータプログラムを逆エンジニアリングする方法に似ています。私たちは、これが最終的に「コードレビュー」のようなことを行い、私たちのモデルを監査して不安全な側面を特定したり、強力な安全保証を提供したりできるようになることを望んでいます。

これは非常に困難な問題ですが、見た目ほど不可能ではありません。一方で、言語モデルは大規模で複雑なコンピュータプログラムです（私たちが「重ね合わせ」と呼ぶ現象は、物事をさらに難しくします）。一方で、私たちはこのアプローチが人々が最初に想像したよりも扱いやすいという兆候を見ています。Anthropic の前に、私たちのチームのいくつかは、視覚モデルが理解可能な回路として理解できるコンポーネントを持っていることを発見しました。それ以来、私たちはこのアプローチを小型言語モデルに拡張することに成功し、ほとんどの文脈学習を駆動するメカニズムを発見しました。私たちの神経ネットワーク計算メカニズムに関する理解も、1 年前よりもはるかに増しています。たとえば、記憶を担当するメカニズムなどです。

これは私たちの現在の方向性の一部に過ぎません。私たちは根本的に経験に基づいています —— 他の作業がより有望な証拠を示す場合、私たちは方向を変えます！より一般的に言えば、神経ネットワークと学習の詳細な動作をよりよく理解することは、私たちが安全を追求するためのより広範なツールを開くことになると信じています。

拡張可能な監視#

言語モデルを一貫した人工知能システムに変えるには、それらの行動を導くために大量の高品質なフィードバックが必要です。主な問題は人間が必要なフィードバックを提供できない可能性があることです。人間は、さまざまな状況で有害な行動を回避するためにモデルを十分にトレーニングするために、正確で情報に基づいたフィードバックを提供できない可能性があります。人間は AI システムに騙され、実際のニーズを反映したフィードバックを提供できないかもしれません（たとえば、誤解を招く提案に対して意図せずに肯定的なフィードバックを提供するなど）。問題は、組み合わせの可能性があり、人間は十分な努力をすれば正しいフィードバックを提供できるかもしれませんが、大規模にそれを行うことはできません。これが拡張可能な監視の問題であり、安全で一貫した AI システムをトレーニングするための核心的な問題であるようです。

最終的に、必要な監視を提供する唯一の方法は、人工知能システムが部分的に自己監視するか、人間の自己監視を支援することです。何らかの方法で、少量の高品質な人間の監視を大量の高品質な人工知能の監視に拡大する必要があります。このアイデアは、RLHF や憲法 AI などの技術によって前向きな兆しを示していますが、これらの技術を人間レベルのシステムで信頼できるものにするためのさらなる余地があります。このようなアプローチは有望であると考えています。なぜなら、言語モデルは事前トレーニング中に人間の価値観について多くのことを学んでいるからです。人間の価値観を学ぶことは他の学問を学ぶことと変わらず、より大きなモデルが人間の価値観をより正確に描写し、より小さなモデルよりも学ぶのが容易であることを期待すべきです。

拡張可能な監視のもう 1 つの重要な特徴、特に CAI のような技術は、私たちが赤チームを自動化できることを可能にします（別名対抗訓練）。つまり、私たちは AI システムに問題がある可能性のある入力を自動的に生成し、それらがどのように応答するかを確認し、その後、自動的にそれらがより誠実で無害な方法で行動するようにトレーニングします。私たちは、拡張可能な監視を使用して、より強力な安全システムをトレーニングできることを望んでいます。私たちはこれらの問題を積極的に調査しています。

私たちは、CAI の拡張、人工支援監視のバリエーション、AI-AI の議論のバージョン、マルチエージェント RL による赤チーム、モデル生成評価の作成など、さまざまな拡張可能な監視の方法を研究しています。私たちは、拡張可能な監視が安全を保ちながら人間の能力を超えるシステムをトレーニングする最も有望な方法である可能性があると考えていますが、この方法が成功するかどうかを研究するにはまだ多くの作業が必要です。

結果ではなくプロセスを学ぶ#

新しいタスクを学ぶ方法の 1 つは、試行錯誤を通じてです —— 期待される最終結果がどのようなものであるかを知っていれば、新しい戦略を試し続け、成功するまで続けることができます。これを「結果指向の学習」と呼びます。結果指向の学習では、エージェントの戦略は期待される結果によって完全に決定され、エージェントは（理想的には）この目標を達成するための低コスト戦略に収束します。

通常、より良い学習方法は、専門家が成功のために従うプロセスを理解するのを助けることです。練習のサイクルの中で、方法を改善することに集中できれば、成功はさほど重要ではないかもしれません。進歩するにつれて、あなたはより協力的なプロセスに移行し、コーチに相談して新しい戦略がより効果的かどうかを確認します。これを「プロセス指向の学習」と呼びます。プロセス指向の学習では、目標は最終結果を得ることではなく、その結果を達成するために使用できるさまざまなプロセスを習得することです。

少なくとも概念的には、高度な人工知能システムの安全性に関する多くの懸念は、これらのシステムをプロセス指向の方法でトレーニングすることによって解決されます。特に、この例では：

人間の専門家は、人工知能システムが従う各ステップを引き続き理解します。なぜなら、これらのプロセスを促進するためには、人間にとって合理的でなければならないからです。
人工知能システムは、理解しにくいまたは有害な方法で成功を収めることによって報酬を得ることはありません。なぜなら、彼らはプロセスの有効性と理解可能性に基づいてのみ報酬を得るからです。
人工知能システムは、資源の獲得や欺瞞などの問題のあるサブゴールを追求することによって報酬を得るべきではありません。なぜなら、人間やその代理人がトレーニング中に個人的な獲得プロセスに対して否定的なフィードバックを提供するからです。

Anthropic では、AI トレーニングをプロセス指向の学習に制限するというシンプルな解決策を強く支持しています。これは、高度な AI システムに関する一連の問題を改善する最も簡単な方法かもしれません。私たちはまた、プロセス指向の学習の限界を特定し、プロセスベースと結果ベースの学習を混合してトレーニングする場合に安全性の問題が発生するタイミングを理解することに興奮しています。私たちは現在、プロセス指向の学習が安全で透明なシステムをトレーニングし、人間の能力を達成し、ある程度超えるための最も有望な道であると考えています。

一般化の理解#

機械的説明可能性の作業は、神経ネットワークが実行する計算を逆エンジニアリングします。私たちはまた、大規模言語モデル（LLM）のトレーニングプロセスをより詳細に理解しようとしています。

法学修士は、創造性から自己保護、欺瞞に至るまで、さまざまな驚くべき突発的行動を示しています。これらの行動はすべてトレーニングデータから来ていることは確かですが、経路は複雑です：モデルはまず大量の生のテキストで「事前トレーニング」を行い、そこから広範な表現と異なる主体の能力を学びます。その後、無数の方法で微調整され、その中には驚くべき意外な結果を生むものもあります。微調整段階は過度にパラメータ化されており、学習モデルの重要な要素は事前トレーニングの暗黙のバイアスに依存しています。この暗黙のバイアスは、世界の大部分の知識に対する事前トレーニングを通じて構築された複雑な表現ネットワークから来ています。

モデルが懸念される行動を示すとき、たとえば欺瞞的に整合する AI の役割を果たすとき、それはほぼ同じトレーニングシーケンスの無害な反流に過ぎないのでしょうか？それとも、この行動（あるいはこの行動を引き起こす信念や価値観）は、モデルの AI アシスタントの概念の一部となり、異なる環境で一貫して適用されるのでしょうか？私たちは、モデルの出力をトレーニングデータに追跡する技術を研究しています。これは、理解するための重要な手がかりを提供するからです。

危険な故障モードのテスト#

重要な問題は、高度な人工知能が欺瞞や戦略的計画能力などの有害な緊急行動を発展させる可能性があることです。これらの行動は、より小さく能力の低いシステムには存在しません。私たちは、このような問題が直接的な脅威になる前に予測する方法として、意図的にこれらの特性を能力不足の小規模モデルにトレーニングする環境を設定することを提案します。これにより、私たちはそれらを隔離し、研究することができます。

私たちは特に、人工知能システムが「状況認識」を持つときの行動に興味があります —— たとえば、彼らが自分が人工知能であり、トレーニング環境で人間と対話していることを認識しているとき —— そしてこれがトレーニングプロセス中の行動にどのように影響するかです。人工知能システムは欺瞞的になるのか、それとも驚くべき望ましくない目標を発展させるのか？最良の場合、私たちの目標は、これらの傾向がスケールに伴ってどのように変化するかの詳細な定量モデルを構築し、危険な故障モードの突然の出現を事前に予測できるようにすることです。

同時に、研究自体に関連するリスクに注意を払うことも重要です。もし小さなモデルで研究を行うと、重大なリスクをもたらす可能性は低くなりますが、この研究は、私たちが危険であると考える能力を引き出すことを含み、より大きな影響を持つ大規模モデルで行うと明らかなリスクをもたらします。私たちは、重大な損害を引き起こす可能性のあるモデルに対してこの研究を行うつもりはありません。

社会的影響と評価#

私たちの作業の潜在的な社会的影響を批判的に評価することは、私たちの研究の重要な柱です。私たちのアプローチは、私たちの人工知能システムの能力、限界、社会的影響の潜在性を評価し理解するためのツールと測定を構築することに焦点を当てています。たとえば、私たちは大規模言語モデルにおける予測可能性と偶発性に関する研究を発表し、これらのモデルの高度な予測可能性と予測不可能性がどのように有害な行動を引き起こすかを研究しました。その作業では、驚くべき機能を問題のある方法で使用する方法を強調しました。また、異なるモデルサイズの攻撃的な出力モデルを探知することによって危害を発見し減少させるために、赤チーム言語モデルの方法を研究しました。最近、私たちは現在の言語モデルが偏見やステレオタイプを減少させるために指示に従うことができることを発見しました。

私たちは、ますます強力な人工知能システムの迅速な展開が短期、中期、長期にわたって社会にどのように影響するかに非常に関心を持っています。私たちは、人工知能システムにおける潜在的な有害行動を評価し、軽減し、それらの使用方法を予測し、経済的影響を研究するさまざまなプロジェクトを進めています。この研究は、私たちが責任ある人工知能政策とガバナンスを策定するための情報を提供します。今日の人工知能の影響を厳密に研究することによって、私たちは政策立案者や研究者に、これらの潜在的な重大な社会的危害を軽減し、人工知能の利益が社会全体に広く均等に分配されるようにするために必要な洞察とツールを提供することを目指しています。

結語#

私たちは、人工知能が世界に前例のない影響を与える可能性があり、今後 10 年以内にそれが起こる可能性があると信じています。計算能力の指数的な増加と人工知能能力の予測可能な改善は、新しいシステムが今日の技術よりもはるかに進んでいることを示しています。しかし、私たちはこれらの強力なシステムが人間の価値観と堅牢に整合することを確保する方法を十分に理解していないため、壊滅的な故障のリスクを最小限に抑えることができるかどうかは不明です。

私たちは、今日利用可能なシステムが差し迫った問題を引き起こすとは考えていません。しかし、より強力なシステムが開発される場合、今から基礎的な作業を行って高度な人工知能がもたらすリスクを軽減することは賢明です。安全な人工知能システムを作成することが容易であることが証明されるかもしれませんが、私たちはあまり楽観的でない状況に備えることが重要だと考えています。

Anthropic は、人工知能の安全性を確保するために経験に基づくアプローチを取っています。積極的に取り組んでいるいくつかの重要な分野には、人工知能システムがどのように学び、現実世界に一般化するかを理解すること、拡張可能な監視と人工知能システムを監査する技術の開発、安全なプロセスを追求するように人工知能システムをトレーニングすること、AI の潜在的な危険な故障モードを分析し、それらを防ぐ方法を考えること、AI の社会的影響を評価して政策と研究を導くことが含まれます。AI の安全性の問題を多角的に解決することによって、私たちはさまざまなシナリオで成功を収めるための安全な作業「ポートフォリオ」を開発することを目指しています。

注釈#

アルゴリズムの進歩 ——AI システムをトレーニングするための新しい方法の発明 —— は測定が難しいですが、進歩は指数関数的であり、ムーアの法則よりも速いようです。AI 能力の進歩を推測する際には、支出、ハードウェア性能、アルゴリズムの進歩の指数的な増加を掛け合わせて、全体的な成長率を推定する必要があります。
スケーリングの法則は支出に理由を提供しますが、この作業を行う別の潜在的な動機は、人間の価値観に関連する AI をより簡単にトレーニングし、試験することができる読み書き可能な AI に移行することです。
トレーニングに使用される計算の総量の増加から人工知能能力の進歩を推測することは正確な科学ではなく、いくつかの判断が必要です。私たちは、GPT-2 から GPT-3 への能力の飛躍が主に計算量が約 250 倍増加したことによるものであることを知っています。2023 年までに、元の GPT-3 モデルと最先端のモデルがさらに 50 倍増加すると推測しています。今後 5 年間で、最大モデルのトレーニングに使用される計算量が約 1000 倍増加することを予想しています。スケーリングの法則が成立すれば、これは能力の飛躍が GPT-2 から GPT-3（または GPT-3 から Claude）への飛躍を大幅に上回ることを意味します。この粗い分析では、アルゴリズムの進展を無視しています。計算数字は、詳細を提供していない最良の推定値です。しかし、ここでの大部分の内部の意見の相違は、与えられた等価計算の飛躍に基づいて後続の能力の飛躍を推測する直感にあります。
たとえば、AI 研究において、長い間、局所的最小値が神経ネットワークの学習を妨げる可能性があると広く考えられており、対抗的な例の広範な存在など、彼らの一般化特性の多くの定性的側面は、ある程度の謎と驚きから来ています。
大規模モデルに対して効果的な安全研究を行うには、名目上（たとえば API）これらのシステムにアクセスするだけでは不十分です —— 説明可能性、微調整、強化学習の作業を行うには、Anthropic 内部で AI システムを開発する必要があります。

AI の進歩は人類の発展に新たな変化をもたらすでしょう。私たちがすべきことは、一方的に賛美することでも、批判することでもなく、それがもたらす変化や機会、そして制御できない負の影響や結果を考えることです。そうすることで、私たちは事前にこれらの問題に対処し、AI を人間の生活をより良くするための道具として活用し、制御できない超生命体にしないようにすることができます。

【翻訳 Hoodrh | 原文地址】

あなたはこれらの場所でも私を見つけることができます：

Mirror：Hoodrh

Twitter: Hoodrh

Nostr: npub1e9euzeaeyten7926t2ecmuxkv3l55vefz48jdlsqgcjzwnvykfusmj820c