ChatGPT熱潮中的冷靜劑-AI安全性研究

在 OpenAI 推出第四代 chatGPT 之後，流行之風從 AI 領域刮到泛科技界，同時也出現在各行各業的討論聲中，面對如此盛況，對熱鬧保持懷疑心態的我會想 “真的這麼厲害嗎？缺點是什麼？”，這樣想並不是不接受它帶來的改變，而是想了解這種大型 AI 系統會對未來產生怎樣的影響，我們應該如何面對這種短期、中期、長期的變化，從而有個心理預期，同時也為未來提前做規劃。

正好，今天借 Anthropic 的這篇文章來作為契機，和大家共同思考一下大型 AI 模型面臨的安全性問題，以及他們對於這個問題的探索。

引言#

我們創立 Anthropic 是因為我們相信人工智能的影響可能與工業和科學革命的影響相當，但我們不相信它會順利進行。而且我們還相信，這種程度的影響可能很快就會到來 —— 也許在未來十年內。

這種觀點聽起來難以置信或誇大其詞，並且有充分的理由對此表示懷疑。一方面，幾乎所有說過 “我們正在做的事情可能是歷史上最大的发展之一” 的人都錯了，而且常常是可笑的。儘管如此，我們相信有足夠的證據可以認真地為一個人工智能快速進步導致變革性人工智能系統的世界做好準備。

在 Anthropic，我們的座右銘是 “展示而不是講述”，我們一直專注於發布源源不斷的安全導向研究，我們認為這些研究對 AI 社區具有廣泛的價值。我們現在寫這篇文章是因為隨著越來越多的人意識到人工智能的進步，現在是時候表達我們對這個話題的看法並解釋我們的戰略和目標了。簡而言之，我們認為人工智能安全研究迫在眉睫，應該得到廣泛的公共和私人參與者的支持。

因此，在這篇文章中，我們將總結為什麼我們相信這一切：為什麼我們預計 AI 會非常迅速地進步並產生非常大的影響，以及這如何導致我們擔心 AI 安全。然後，我們將簡要總結我們自己的 AI 安全研究方法及其背後的一些原因。我們希望通過寫這篇文章，我們可以為更廣泛的關於 AI 安全和 AI 進步的討論做出貢獻。

作為這篇文章中要點的高級總結：

人工智能將產生非常大的影響，可能在未來十年內
AI 系統的快速和持續進步是用於訓練 AI 系統的計算呈指數增長的可預測結果，因為對 “縮放定律” 的研究表明，更多的計算會導致能力的普遍提高。簡單的推斷表明，人工智能系統將在未來十年內變得更強大，在大多數智力任務上的表現可能等於或超過人類水平。人工智能的進步可能會放緩或停止，但有證據表明它可能會繼續下去。
我們不知道如何訓練系統以穩健地表現良好
到目前為止，還沒有人知道如何訓練非常強大的人工智能系統，使其變得非常有用、誠實和無害。此外，人工智能的快速進步將對社會造成破壞，並可能引發競爭性競賽，從而導致企業或國家部署不可信的人工智能系統。這樣做的結果可能是災難性的，要麼是因為人工智能系統在戰略上追求危險的目標，要麼是因為這些系統在高風險情況下會犯更多無辜的錯誤。
我們對人工智能安全的多方面、經驗驅動的方法最為樂觀
我們正在追求各種研究方向，以構建可靠安全的系統為目標，目前最令人興奮的是擴展監督、機械可解釋性、面向過程的學習，以及理解和評估人工智能系統如何學習和泛化。我們的一個關鍵目標是差異化地加速這項安全工作，並制定一個安全研究概況，試圖涵蓋廣泛的場景，從那些安全挑戰被證明很容易解決的場景到那些創造安全的場景系統是非常困難的。

我們對人工智能快速發展的粗略看法#

導致 AI 性能可預測（1）改進的三個主要因素是訓練數據、計算和改進的算法。在 2010 年代中期，我們中的一些人注意到更大的 AI 系統始終更智能，因此我們推測 AI 性能中最重要的因素可能是 AI 訓練計算的總預算。當繪製圖表時，很明顯進入最大模型的計算量以每年10 倍的速度增長（翻倍時間比摩爾定律快 7 倍）。2019 年，後來成為 Anthropic 創始團隊的幾名成員通過制定比例定律使這一想法更加精確對於 AI，證明你可以以可預測的方式讓 AI 變得更聰明，只需讓它們變得更大，並在更多數據上訓練它們。這些結果在一定程度上證明了這一點，該團隊領導了 GPT-3 的訓練工作，可以說是第一個現代 “大型” 語言模型（2），具有超過 173B 個參數。

自從發現尺度定律以來，我們 Anthropic 的許多人都相信人工智能很可能會取得非常快速的進步。然而，回到 2019 年，多模態、邏輯推理、學習速度、跨任務遷移學習和長期記憶似乎有可能成為減緩或阻止 AI 進步的 “牆”。從那以後的幾年裡，多模態和邏輯推理等這些 “牆” 中的一些已經倒塌。鑑於此，我們大多數人越來越相信人工智能的快速進步將繼續下去，而不是停滯或停滯不前。AI 系統現在在各種各樣的任務上的表現已經接近人類水平，但訓練這些系統的成本仍然遠低於哈勃太空望遠鏡或大型強子對撞機等 “大科學” 項目 —— 這意味著還有更多的空間進一步發展生長（3）。

人們往往不善於識別和承認早期階段的指數增長。儘管我們看到 AI 取得了快速進步，但人們傾向於認為這種局部進步一定是例外，而不是常規，而且事情可能很快就會恢復正常。然而，如果我們是正確的，那麼在人工智能系統擁有超出我們自身能力的廣泛能力之前，目前人工智能快速進步的感覺可能不會結束。此外，在 AI 研究中使用高級 AI 的反饋循環可以使這種轉變特別迅速；我們已經看到這一過程的開始，代碼模型的開發使人工智能研究人員的工作效率更高，而憲法人工智能減少了我們對人類反饋的依賴。

如果其中任何一條是正確的，那麼在不遠的將來，大部分或所有知識工作都可以實現自動化 —— 這將對社會產生深遠影響，也可能改變其他技術的進步速度（早期這方面的例子是像 AlphaFold 這樣的系統如何在今天加速生物學）。未來的人工智能系統將採用何種形式 —— 例如，它們是能夠獨立行動還是僅為人類生成信息 —— 仍有待確定。儘管如此，很難誇大這可能是多麼關鍵的時刻。雖然我們可能更希望 AI 的進展速度足夠慢以使這種轉變更易於管理，但這種轉變發生在幾個世紀而不是幾年或幾十年，但我們必須為我們預期的結果而不是我們希望的結果做好準備。

當然，這整個畫面可能是完全錯誤的。在 Anthropic，我們傾向於認為它更有可能，但也許我們對 AI 開發的工作有偏見。即使是這樣，我們也認為這幅圖足夠可信，不能完全否定它。鑑於潛在的重大影響，我們認為人工智能公司、政策制定者和民間社會機構應該非常認真地致力於圍繞如何處理變革性人工智能的研究和規劃。

有什麼安全隱患？#

如果您願意接受上述觀點，那麼不難證明人工智能可能對我們的安全構成威脅。有兩個常識性原因需要關注。

首先，當這些系統開始變得像它們的設計者一樣智能和了解周圍環境時，構建安全、可靠和可操縱的系統可能會很棘手。打個比方，國際象棋大師很容易發現新手的壞棋步，但新手很難發現大師的壞棋步。如果我們構建的人工智能系統比人類專家更有能力，但它追求的目標與我們的最大利益相衝突，後果可能是可怕的。這就是技術對齊問題。

其次，AI 的快速進步將極具破壞性，改變國家內部和國家之間的就業、宏觀經濟和權力結構。這些破壞本身可能是災難性的，它們還可能使以謹慎、深思熟慮的方式構建 AI 系統變得更加困難，從而導致 AI 進一步混亂甚至出現更多問題。

我們認為，如果人工智能進步很快，這兩個風險來源將非常重要。這些風險還將以多種難以預料的方式相互疊加。也許事後看來，我們會認為我們錯了，其中一個或兩個問題要麼不會成為問題，要麼很容易解決。儘管如此，我們認為有必要謹慎行事，因為 “弄錯了” 可能是災難性的。

當然，我們已經遇到過 AI 行為偏離其創造者意圖的各種方式。這包括毒性、偏見、不可靠、不誠實，以及最近的阿諛奉承和對權力的明確渴望。我們預計，隨著 AI 系統的激增和變得更強大，這些問題將變得越來越重要，其中一些可能代表我們將遇到的人類級別 AI 及更高級別的問題。

然而，在人工智能安全領域，我們預計會出現可預測和令人驚訝的發展。即使我們能夠圓滿地解決當代人工智能系統遇到的所有問題，我們也不想輕率地假設未來的問題都可以用同樣的方式解決。一些可怕的、推測性的问题可能只會在人工智能系統足夠聰明以了解它們在世界上的位置、成功地欺騙人們或制定人類不理解的策略時才會出現。有許多令人擔憂的問題可能只有在人工智能非常先進時才會出現。

我們的方法：人工智能安全的經驗主義#

我們認為，如果不與我們的研究對象密切接觸，就很難在科學和工程領域取得快速進步。不斷迭代 “基本事實” 的來源通常對科學進步至關重要。在我們的人工智能安全研究中，關於人工智能的經驗證據 —— 儘管它主要來自計算實驗，即人工智能訓練和評估 —— 是基本事實的主要來源。

這並不意味著我們認為理論或概念研究在 AI 安全中沒有地位，但我們確實相信以經驗為基礎的安全研究將具有最大的相關性和影響力。可能的人工智能系統、可能的安全故障和可能的安全技術的空間很大，很難獨自從扶手椅上穿越。考慮到考慮所有變量的困難，很容易過度關注從未出現過的問題或錯過確實存在的大問題（4）。好的實證研究通常可以使更好的理論和概念工作成為可能。

與此相關，我們認為檢測和緩解安全問題的方法可能極難提前計劃，需要迭代開發。鑑於此，我們傾向於認為 “計劃不可或缺，但計劃無用”。在任何給定時間，我們可能會為研究的下一步制定一個計劃，但我們對這些計劃沒有什麼依戀，它們更像是我們準備隨著了解更多而改變的短期賭注。這顯然意味著我們不能保證我們目前的研究路線會成功，但這是每個研究項目的生活事實。

前沿模型在實證安全中的作用#

Anthropic 作為一個組織存在的主要原因是我們認為有必要對 “前沿” 人工智能系統進行安全研究。這需要一個既能處理大型模型又能優先考慮安全性的機構（5）。

就其本身而言，經驗主義並不一定意味著需要邊境安全。人們可以想像這樣一種情況，即可以在更小、能力更差的模型上有效地進行實證安全研究。然而，我們不認為這是我們所處的情況。在最基本的層面上，這是因為大型模型與小型模型在質量上有所不同（包括突然的、不可預測的變化）。但規模還以更直接的方式與安全相關聯：

我們許多最嚴重的安全問題可能只會出現在接近人類水平的系統中，如果不使用此類人工智能，就很難或難以在這些問題上取得進展。
許多安全方法，如憲法 AI或辯論只能在大型模型上工作 —— 使用較小的模型使得無法探索和證明這些方法。
由於我們關注的是未來模型的安全性，因此我們需要了解安全方法和屬性如何隨著模型的擴展而變化。
如果未來的大型模型被證明是非常危險的，那麼我們就必須開發出令人信服的證據。我們希望只有使用大型模型才能實現這一點。

不幸的是，如果實證安全研究需要大型模型，那將迫使我們面對艱難的權衡。我們必須盡一切努力避免以安全為動機的研究加速危險技術部署的情況。但我們也不能讓過度謹慎導致最具安全意識的研究工作只涉及遠遠落後於前沿的系統，從而大大減緩我們認為至關重要的研究。此外，我們認為在實踐中，僅僅進行安全研究是不夠的 —— 建立一個具有機構知識的組織以儘快將最新的安全研究整合到實際系統中也很重要。

負責任地權衡這些權衡是一種平衡行為，這些擔憂是我們作為一個組織如何做出戰略決策的核心。除了我們在安全、能力和政策方面的研究之外，這些問題還推動了我們在公司治理、招聘、部署、安全和合作夥伴關係方面的方法。在不久的將來，我們還計劃做出對外明確的承諾，即在滿足安全標準的情況下，僅開發超出特定能力閾值的模型，並允許獨立的外部組織評估我們模型的能力和安全性。

采取投資組合方法來確保 AI 安全#

一些關心安全的研究人員受到對人工智能風險性質的強烈看法的激勵。我們的經驗是，即使預測 AI 系統在不久的將來的行為和特性也非常困難。對未來系統的安全性做出先驗預測似乎更加困難。與其採取強硬立場，我們認為各種情況都是合理的。

不確定性的特別重要的一個方面是，開發基本安全且對人類風險很小的先進人工智能系統將有多麼困難。開發這樣的系統可能位於從非常容易到不可能的範圍內的任何地方。讓我們將這個範圍分為三個具有非常不同含義的場景：

** 樂觀的情景：** 由於安全故障，高級人工智能帶來災難性風險的可能性很小。已經開發的安全技術，例如從人類反饋中強化學習(RLHF) 和憲法 AI (CAI)，已經在很大程度上足以進行對齊。AI 的主要風險是對當今面臨的問題的外推，例如毒性和故意濫用，以及廣泛的自動化和國際權力動態變化等事情造成的潛在危害 —— 這將需要 AI 實驗室和第三方，如學術界和民間社會機構開展大量研究以儘量減少危害。
** 中間場景：** 災難性風險是高級 AI 開發的可能甚至似是而非的結果。解決這個問題需要大量的科學和工程努力，但只要有足夠的重點工作，我們就可以實現它。
悲觀情景： AI 安全本質上是一個無法解決的問題 —— 這只是一個經驗事實，即我們無法控制或向一個比我們自己更智能的系統指定價值 —— 因此我們不能開發或部署非常先進的 AI 系統。值得注意的是，在創建非常強大的人工智能系統之前，最悲觀的場景可能看起來像樂觀的場景。認真對待悲觀情景需要在評估系統安全的證據時保持謙遜和謹慎。

如果我們處於樂觀的情況下…… Anthropic 所做的任何事情的風險（幸運的是）要低得多，因為無論如何都不太可能出現災難性的安全故障。我們的協調努力可能會加快先進人工智能真正有益用途的步伐，並將有助於減輕人工智能系統在開發過程中造成的一些近期危害。我們也可能會努力幫助決策者應對先進人工智能帶來的一些潛在結構性風險，如果發生災難性安全故障的可能性很小，這可能會成為最大的風險來源之一。

如果我們處於中間場景…… Anthropic 的主要貢獻將是識別高級人工智能系統帶來的風險，並找到和傳播安全的方法來訓練強大的人工智能系統。我們希望至少我們的一些安全技術組合（在下面更詳細地討論）將在這種情況下有所幫助。這些場景的範圍可以從 “中等簡單場景” 到 “中等難度場景”，其中我們認為我們可以通過迭代憲法人工智能等技術取得很多邊際進展，其中成功實現機械可解釋性似乎是我們最好的選擇。

如果我們處於悲觀情景中…… Anthropic 的作用將是提供儘可能多的證據，證明人工智能安全技術無法防止高級人工智能帶來的嚴重或災難性安全風險，並發出警報，以便世界機構可以集體努力防止危險人工智能的發展。如果我們處於 “近乎悲觀” 的情景中，這可能會涉及將我們的集體努力引導到 AI 安全研究上，同時阻止 AI 的進步。表明我們處於悲觀或接近悲觀情景的跡象可能會突然出現並且難以發現。因此，我們應該始終假設我們仍然可能處於這種情況下，除非我們有足夠的證據證明我們不是。

考慮到利害關係，我們的首要任務之一是繼續收集更多關於我們所處場景的信息。我們追求的許多研究方向旨在更好地了解人工智能系統和開發可以幫助我們的技術檢測有關行為，例如高級人工智能系統的權力尋求或欺騙。

我們的目標主要是開發：

使人工智能系統更安全的更好技術，
識別人工智能系統安全或不安全程度的更好方法。

在樂觀的情況下，(i) 將幫助 AI 開發人員訓練有益的系統，並且 (ii) 將證明此類系統是安全的。

在中間情景中，(i) 可能是我們最終避免 AI 災難的方式，以及 (ii) 對於確保高級 AI 帶來的風險較低至關重要。

在悲觀的情況下，(i) 的失敗將是人工智能安全無法解決的關鍵指標，並且 (ii) 將有可能向其他人令人信服地證明這一點。

我們相信這種 AI 安全研究的 “組合方法”。我們不是押注於上面列表中的單一可能場景，而是嘗試開發一個研究項目，該項目可以顯著改善人工智能安全研究最有可能產生巨大影響的中間場景，同時也在悲觀場景中發出警報人工智能安全研究不太可能對人工智能風險產生太大影響。我們還試圖以一種在對技術人工智能安全研究的需求不那麼大的樂觀情況下有益的方式這樣做。

Anthropic 的三種人工智能研究#

我們將 Anthropic 的研究項目分為三個領域：

** 能力：**AI 研究旨在使 AI 系統普遍更好地完成任何類型的任務，包括寫作、圖像處理或生成、玩遊戲等。使大型語言模型更高效或改進強化學習算法的研究將屬於這一標題。能力工作生成並改進了我們在對齊研究中調查和使用的模型。我們一般不發表這類工作，因為我們不想加快 AI 能力進步的速度。此外，我們的目標是考慮前沿能力的演示（即使沒有發布）。我們在 2022 年春季訓練了標題模型的第一個版本 Claude，並決定優先將其用於安全研究而不是公共部署。
** 對齊能力：** 這項研究的重點是開發新的算法來訓練人工智能系統，使其更有幫助、更誠實、更無害，以及更可靠、更穩健，並與人類價值觀普遍保持一致。Anthropic 現在和過去的此類工作的例子包括辯論、擴展自動紅隊、憲法 AI、去偏見和 RLHF（從人類反饋中強化學習）。通常，這些技術在實用上有用且具有經濟價值，但它們並非必須如此 —— 例如，如果新算法效率相對較低，或者只有在 AI 系統變得更強大時才會變得有用。
** 對齊科學：** 該領域側重於評估和理解 AI 系統是否真正對齊、對齊功能技術的工作情況，以及我們可以在多大程度上將這些技術的成功外推到功能更強大的 AI 系統。Anthropic 的這項工作的例子包括機械可解釋性的廣泛領域，以及我們在使用語言模型評估語言模型、紅隊和使用影響函數研究大型語言模型中的泛化方面的工作（如下所述）。我們關於誠實的一些工作落在對齊科學和對齊能力的邊界上。

在某種意義上，可以將對齊能力與對齊科學視為 “藍隊” 與 “紅隊” 的區別，其中對齊能力研究試圖開發新算法，而對齊科學則試圖理解和揭示它們的局限性。

我們發現這種分類有用的一個原因是人工智能安全社區經常爭論 RLHF 的發展 —— 它也產生經濟價值 —— 是否 “真的” 是安全研究。我們相信它是。務實有用的對齊能力研究是我們為更有能力的模型開發技術的基礎 —— 例如，我們在憲法人工智能和人工智能生成的評估方面的工作，以及我們正在進行的自動化紅隊和辯論方面的工作，不會沒有 RLHF 的先前工作是可能的。對齊功能的工作通常使 AI 系統有可能通過使這些系統更加誠實和可糾正來協助對齊研究。而且，

如果事實證明 AI 安全非常容易處理，那麼我們的對齊能力工作可能是我們最有影響力的研究。相反，如果對齊問題更加困難，那麼我們將越來越依賴對齊科學來尋找對齊能力技術中的漏洞。如果對齊問題實際上幾乎是不可能的，那麼我們迫切需要對齊科學來建立一個非常有力的案例來阻止高級人工智能系統的發展。

我們當前的安全研究#

我們目前正朝著各種不同的方向努力，以發現如何訓練安全的人工智能系統，其中一些項目解決了不同的威脅模型和能力水平。一些關鍵思想包括：

機械可解釋性
可擴展的監督
面向過程的學習
理解泛化
危險故障模式測試
社會影響和評價

機械可解釋性#

在許多方面，技術對齊問題與從 AI 模型中檢測不良行為的問題有著千絲萬縷的聯繫。如果我們即使在新情況下也能穩健地檢測到不良行為（例如，通過 “讀懂模型的想法”），那麼我們就有更好的機會找到方法來訓練不表現出這些故障模式的模型。同時，我們有能力警告其他人模型不安全，不應部署。

我們的可解釋性研究優先填補其他類型對齊科學留下的空白。例如，我們認為可解釋性研究可能產生的最有價值的事情之一是能夠識別模型是否具有欺騙性對齊（“配合” 甚至非常困難的測試，例如故意 “誘惑” 系統的 “蜜罐” 測試以揭示錯位）。如果我們在可擴展監督和面向過程的學習方面的工作產生了有希望的結果（見下文），我們希望產生的模型即使在非常嚴格的測試中也看起來是一致的。這可能意味著我們處於非常樂觀的情景中，或者我們處於最悲觀的情景之一。使用其他方法區分這些情況似乎幾乎是不可能的，但在可解釋性方面卻非常困難。

這讓我們下了個很大的風險賭注：機械可解釋性，即試圖將神經網絡逆向工程為人類可理解的算法的項目，類似於人們如何逆向工程一個未知且可能不安全的計算機程序。我們希望這可能最終使我們能夠做一些類似於 “代碼審查” 的事情，審核我們的模型以識別不安全的方面或提供強有力的安全保證。

我們認為這是一個非常困難的問題，但也不像看起來那麼不可能。一方面，語言模型是大型、複雜的計算機程序（我們稱之為 “疊加” 的現象只會讓事情變得更難）。另一方面，我們看到有跡象表明這種方法比人們最初想像的更容易處理。在 Anthropic 之前，我們的一些團隊發現視覺模型具有可以理解為可解釋電路的組件。從那時起，我們已經成功地將這種方法擴展到小型語言模型，甚至發現了一種似乎可以驅動大部分上下文學習的機制。我們對神經網絡計算機制的了解也比一年前多得多，例如那些負責記憶的機制。

這只是我們目前的方向，我們從根本上是受經驗驅動的 —— 如果我們看到其他工作更有希望的證據，我們會改變方向！更一般地說，我們相信更好地理解神經網絡和學習的詳細工作原理將開闢更廣泛的工具，我們可以通過這些工具追求安全。

可擴展的監督#

將語言模型轉變為一致的人工智能系統將需要大量高質量的反饋來引導它們的行為。一個主要的問題是人類將無法提供必要的反饋。人類可能無法提供準確 / 知情的足夠反饋來充分訓練模型以避免在各種情況下出現有害行為。人類可能會被 AI 系統愚弄，無法提供反映他們實際需要的反饋（例如，意外地為誤導性建議提供正面反饋）。問題可能是一個組合，人類可以通過足夠的努力提供正確的反饋，但不能大規模地這樣做。這是可擴展監督的問題，它似乎可能是訓練安全、一致的 AI 系統的核心問題。

最終，我們認為提供必要監督的唯一方法是讓人工智能系統部分自我監督或協助人類進行自我監督。不知何故，我們需要將少量高質量的人類監督放大為大量高質量的人工智能監督。這個想法已經通過 RLHF 和憲法 AI 等技術顯示出前景，儘管我們看到了使這些技術在人類水平系統中可靠的更多空間。我們認為這樣的方法是有前途的，因為語言模型已經學習了很多關於人類價值觀的知識在預訓練期間。學習人類價值觀與學習其他學科沒有什麼不同，我們應該期望更大的模型更準確地描繪人類價值觀，並且發現它們相對於更小的模型更容易學習。

可擴展監督的另一個關鍵特徵，尤其是像 CAI 這樣的技術，是它們允許我們自動化紅隊（又名對抗訓練）。也就是說，我們可以自動為 AI 系統生成可能有問題的輸入，查看它們如何響應，然後自動訓練它們以更誠實和無害的方式行事。希望我們可以使用可擴展的監督來訓練更強大的安全系統。我們正在積極調查這些問題。

我們正在研究各種可擴展監督的方法，包括 CAI 的擴展、人工輔助監督的變體、AI-AI 辯論的版本、通過多代理 RL 的紅隊，以及創建模型生成的評估。我們認為，規模化監督可能是最有前途的培訓系統方法，可以在保持安全的同時超越人類能力，但要研究這種方法是否能成功，還有大量工作要做。

學習過程而不是取得結果#

學習一項新任務的一種方法是通過反復試驗 —— 如果你知道期望的最終結果是什麼樣子，你就可以繼續嘗試新的策略，直到你成功。我們將此稱為 “以結果為導向的學習”。在面向結果的學習中，智能體的策略完全由期望的結果決定，並且智能體將（理想情況下）收斂於一些使其能夠實現這一目標的低成本策略。

通常，更好的學習方法是讓專家指導您了解他們為取得成功所遵循的流程。在練習輪中，如果您可以專注於改進您的方法，那麼您的成功甚至可能無關緊要。隨著你的進步，你可能會轉向一個更具協作性的過程，在這個過程中你會諮詢你的教練，看看新策略是否對你更有效。我們將此稱為 “面向過程的學習”。在面向過程的學習中，目標不是獲得最終結果，而是掌握可用於實現該結果的各個過程。

至少在概念層面上，許多關於高級人工智能系統安全性的擔憂都通過以面向過程的方式訓練這些系統來解決。特別是，在這個範例中：

人類專家將繼續了解人工智能系統遵循的各個步驟，因為為了鼓勵這些過程，它們必須對人類合理。
人工智能系統不會因以難以理解或有害的方式取得成功而獲得獎勵，因為它們只會根據其流程的有效性和可理解性獲得獎勵。
人工智能系統不應因追求資源獲取或欺騙等有問題的子目標而獲得獎勵，因為人類或其代理人會在訓練過程中為個人獲取過程提供負面反饋。

在 Anthropic，我們強烈支持簡單的解決方案，將 AI 培訓限制在面向過程的學習中可能是改善高級 AI 系統一系列問題的最簡單方法。我們也很高興能夠識別和解決面向過程的學習的局限性，並了解如果我們混合使用基於過程和基於結果的學習進行訓練，何時會出現安全問題。我們目前認為，面向過程的學習可能是最有前途的途徑，可以訓練安全和透明的系統達到並在某種程度上超越人類的能力。

理解泛化#

機械可解釋性工作對神經網絡執行的計算進行逆向工程。我們還試圖更詳細地了解大型語言模型 (LLM) 訓練過程。

法學碩士已經展示了各種令人驚訝的突發行為，從創造力到自我保護再到欺騙。雖然所有這些行為肯定都來自訓練數據，但途徑很複雜：模型首先在大量原始文本上進行 “預訓練”，從中學習廣泛的表徵和模擬不同主體的能力。然後它們以無數種方式進行微調，其中一些可能會產生令人驚訝的意外後果。由於微調階段嚴重過度參數化，學習模型關鍵取決於預訓練的隱式偏差；這種隱含的偏見來自複雜的表示網絡，該網絡是通過對世界上大部分知識的預訓練而建立起來的。

當一個模型表現出令人擔憂的行為時，例如扮演一個欺騙性對齊的 AI 的角色，它是否只是對幾乎相同的訓練序列的無害反流？或者這種行為（或者甚至是導致這種行為的信念和價值觀）是否已經成為模型的 AI 助手概念的一個組成部分，它們在不同的環境中始終如一地應用？我們正在研究將模型的輸出追溯到訓練數據的技術，因為這將產生一組重要的線索來理解它。

危險故障模式測試#

一個關鍵問題是高級人工智能可能會發展出有害的緊急行為，例如欺騙或戰略規劃能力，而這些行為在較小且能力較差的系統中是不存在的。我們認為，在此類問題成為直接威脅之前對其進行預測的方法是設置環境，在該環境中，我們有意將這些屬性訓練成能力不足以構成危險的小規模模型，以便我們可以隔離和研究它們。

我們特別感興趣的是人工智能系統在 “情境感知” 時的行為方式 —— 例如，當它們意識到自己是人工智能在訓練環境中與人類交談時 —— 以及這如何影響它們在訓練過程中的行為。人工智能系統會變得具有欺騙性，還是會發展出令人驚訝和不受歡迎的目標？在最好的情況下，我們的目標是建立這些趨勢如何隨規模變化的詳細定量模型，以便我們可以提前預測危險故障模式的突然出現。

同時，關注與研究本身相關的風險也很重要。如果在不會造成太大傷害的較小模型上進行研究，則不太可能帶來嚴重的風險，但這種研究涉及引出我們認為危險的能力，如果在具有更大影響的較大模型上進行，則會帶來明顯的風險能力。我們不打算對能夠造成嚴重傷害的模型進行這項研究。

社會影響和評價#

批判性地評估我們工作的潛在社會影響是我們研究的一個關鍵支柱。我們的方法以構建工具和測量為中心，以評估和理解我們的人工智能系統的能力、局限性和社會影響的潛力。例如，我們發表了分析大型語言模型中的可預測性和意外性的研究，研究了這些模型的高級可預測性和不可預測性如何導致有害行為。在那項工作中，我們強調了如何以有問題的方式使用令人驚訝的功能。我們還研究了紅隊語言模型的方法，通過探測不同模型大小的攻擊性輸出模型來發現和減少危害。最近，我們發現當前的語言模型可以遵循指令來減少偏見和刻板印象。

我們非常關注日益強大的人工智能系統的快速部署將如何在短期、中期和長期影響社會。我們正在開展各種項目，以評估和減輕人工智能系統中潛在的有害行為，預測它們的使用方式，並研究它們的經濟影響。這項研究還為我們制定負責任的人工智能政策和治理的工作提供了信息。通過對當今人工智能的影響進行嚴格的研究，我們旨在為政策制定者和研究人員提供他們所需的見解和工具，以幫助減輕這些潛在的重大社會危害，並確保人工智能的好處在整個社會中廣泛而均勻地分配。

結語#

我們相信，人工智能可能會對世界產生前所未有的影響，可能會在未來十年內發生。計算能力的指數增長和人工智能能力的可預測改進表明，新系統將比今天的技術先進得多。然而，我們還沒有充分了解如何確保這些強大的系統與人類價值觀穩健地保持一致，以便我們可以确信災難性故障的風險最小。

我們想明確表示，我們不認為今天可用的系統會造成迫在眉睫的問題。然而，如果開發出更強大的系統，現在就做基礎工作以幫助降低高級人工智能帶來的風險是明智的。事實證明，創建安全的人工智能系統很容易，但我們認為為不太樂觀的情況做好準備至關重要。

Anthropic 正在採取經驗驅動的方法來確保人工智能安全。積極工作的一些關鍵領域包括提高我們對人工智能系統如何學習和推廣到現實世界的理解，開發可擴展監督和審查人工智能系統的技術，創建透明和可解釋的人工智能系統，訓練人工智能系統遵循安全過程而不是追求結果，分析 AI 潛在的危險故障模式以及如何預防它們，並評估 AI 的社會影響以指導政策和研究。通過從多個角度解決 AI 安全問題，我們希望開發一個安全工作 “組合”，幫助我們在一系列不同場景中取得成功。

注解#

算法進步 —— 用於訓練 AI 系統的新方法的發明 —— 更難衡量，但進步似乎是指數級的，而且比摩爾定律更快。在推斷 AI 能力的進步時，必須將支出、硬件性能和算法進步的指數增長相乘，才能估算出整體增長率。
縮放定律為支出提供了理由，但開展這項工作的另一個潛在動機是轉向可以讀寫的 AI，以便更容易地訓練和試驗可以與人類價值觀相關的 AI。
從用於訓練的計算總量的增加來推斷人工智能能力的進步並不是一門精確的科學，需要一些判斷。我們知道，從 GPT-2 到 GPT-3 的能力躍升主要是由於計算量增加了約 250 倍。我們猜測，到 2023 年，原始 GPT-3 模型和最先進的模型將再增加 50 倍。在接下來的 5 年裡，我們可能預計用於訓練最大模型的計算量將增加約 1000 倍，基於計算成本和支出的趨勢。如果縮放定律成立，這將導致能力跳躍明顯大於從 GPT-2 到 GPT-3（或 GPT-3 到 Claude）的跳躍。在人擇，我們對這些系統的功能非常熟悉，對於我們中的許多人來說，如此大的跳躍感覺就像它可以在大多數任務中產生人類水平的表現。這需要我們使用直覺 —— 儘管是有根據的直覺 —— 因此是一種不完美的評估人工智能能力進步的方法。但基本事實包括 (i) 這兩個系統之間的計算差異，(ii) 這兩個系統之間的性能差異，(iii) 允許我們預測未來系統的比例定律，以及 (iv) 計算成本的趨勢任何人都可以獲得支出，我們相信他們共同支持我們在未來十年內開發廣泛的人類人工智能系統的可能性超過 10%。在這個粗略的分析中，我們忽略了算法的進展，計算數字是我們沒有提供詳細信息的最佳估計。然而，這裡的絕大多數內部分歧在於在給定等效計算跳躍的情況下推斷後續能力跳躍的直覺。
例如，在 AI 研究中，很長一段時間以來，人們普遍認為局部最小值可能會阻止神經網絡學習，而它們的泛化特性的許多定性方面，例如對抗性示例的廣泛存在，都來自某種程度上。一個謎和驚喜。
對大型模型進行有效的安全研究不僅需要名義上（例如 API）訪問這些系統 —— 要進行可解釋性、微調和強化學習方面的工作，有必要在 Anthropic 內部開發 AI 系統。

AI 的進步將為人類的發展帶來新的改變，我們要做的不是一味的唱讚歌或者打壓差評，而是要思考它能帶來的改變和機遇是什麼，同時可能會產生哪些負面的不可控的影響和後果，從而我們可以提前部署和解決這些問題，讓 AI 成為一個幫助人類生活更美好的工具，而不是無法掌控的超級生命體。

【翻譯 Hoodrh | 原文地址】

你還可以在這些地方找到我：

Mirror：Hoodrh

Twitter: Hoodrh

Nostr: npub1e9euzeaeyten7926t2ecmuxkv3l55vefz48jdlsqgcjzwnvykfusmj820c