ChatGPT热潮中的冷静剂-AI安全性研究

在 OpenAI 推出第四代 chatGPT 之后，流行之风从 AI 领域刮到泛科技界，同时也出现在各行各业的讨论声中，面对如此盛况，对热闹保持怀疑心态的我会想 “真的这么厉害吗？缺点是什么？”，这样想并不是不接受它带来的改变，而是想了解这种大型 AI 系统会对未来产生怎样的影响，我们应该如何面对这种短期、中期、长期的变化，从而有个心理预期，同时也为未来提前做规划。

正好，今天借 Anthropic 的这篇文章来作为契机，和大家共同思考一下大型 AI 模型面临的安全性问题，以及他们对于这个问题的探索。

引言#

我们创立 Anthropic 是因为我们相信人工智能的影响可能与工业和科学革命的影响相当，但我们不相信它会顺利进行。而且我们还相信，这种程度的影响可能很快就会到来 —— 也许在未来十年内。

这种观点听起来难以置信或夸大其词，并且有充分的理由对此表示怀疑。一方面，几乎所有说过 “我们正在做的事情可能是历史上最大的发展之一” 的人都错了，而且常常是可笑的。尽管如此，我们相信有足够的证据可以认真地为一个人工智能快速进步导致变革性人工智能系统的世界做好准备。

在 Anthropic，我们的座右铭是 “展示而不是讲述”，我们一直专注于发布源源不断的安全导向研究，我们认为这些研究对 AI 社区具有广泛的价值。我们现在写这篇文章是因为随着越来越多的人意识到人工智能的进步，现在是时候表达我们对这个话题的看法并解释我们的战略和目标了。简而言之，我们认为人工智能安全研究迫在眉睫，应该得到广泛的公共和私人参与者的支持。

因此，在这篇文章中，我们将总结为什么我们相信这一切：为什么我们预计 AI 会非常迅速地进步并产生非常大的影响，以及这如何导致我们担心 AI 安全。然后，我们将简要总结我们自己的 AI 安全研究方法及其背后的一些原因。我们希望通过写这篇文章，我们可以为更广泛的关于 AI 安全和 AI 进步的讨论做出贡献。

作为这篇文章中要点的高级总结：

人工智能将产生非常大的影响，可能在未来十年内
AI 系统的快速和持续进步是用于训练 AI 系统的计算呈指数增长的可预测结果，因为对 “缩放定律” 的研究表明，更多的计算会导致能力的普遍提高。简单的推断表明，人工智能系统将在未来十年内变得更加强大，在大多数智力任务上的表现可能等于或超过人类水平。人工智能的进步可能会放缓或停止，但有证据表明它可能会继续下去。
我们不知道如何训练系统以稳健地表现良好
到目前为止，还没有人知道如何训练非常强大的人工智能系统，使其变得非常有用、诚实和无害。此外，人工智能的快速进步将对社会造成破坏，并可能引发竞争性竞赛，从而导致企业或国家部署不可信的人工智能系统。这样做的结果可能是灾难性的，要么是因为人工智能系统在战略上追求危险的目标，要么是因为这些系统在高风险情况下会犯更多无辜的错误。
我们对人工智能安全的多方面、经验驱动的方法最为乐观
我们正在追求各种研究方向，以构建可靠安全的系统为目标，目前最令人兴奋的是扩展监督、机械可解释性、面向过程的学习，以及理解和评估人工智能系统如何学习和泛化。我们的一个关键目标是差异化地加速这项安全工作，并制定一个安全研究概况，试图涵盖广泛的场景，从那些安全挑战被证明很容易解决的场景到那些创造安全的场景系统是非常困难的。

我们对人工智能快速发展的粗略看法#

导致 AI 性能可预测（1）改进的三个主要因素是训练数据、计算和改进的算法。在 2010 年代中期，我们中的一些人注意到更大的 AI 系统始终更智能，因此我们推测 AI 性能中最重要的因素可能是 AI 训练计算的总预算。当绘制图表时，很明显进入最大模型的计算量以每年10 倍的速度增长（翻倍时间比摩尔定律快 7 倍）。2019 年，后来成为 Anthropic 创始团队的几名成员通过制定比例定律使这一想法更加精确对于 AI，证明你可以以可预测的方式让 AI 变得更聪明，只需让它们变得更大，并在更多数据上训练它们。这些结果在一定程度上证明了这一点，该团队领导了 GPT-3 的训练工作，可以说是第一个现代 “大型” 语言模型（2），具有超过 173B 个参数。

自从发现尺度定律以来，我们 Anthropic 的许多人都相信人工智能很可能会取得非常快速的进步。然而，回到 2019 年，多模态、逻辑推理、学习速度、跨任务迁移学习和长期记忆似乎有可能成为减缓或阻止 AI 进步的 “墙”。从那以后的几年里，多模态和逻辑推理等这些 “墙” 中的一些已经倒塌。鉴于此，我们大多数人越来越相信人工智能的快速进步将继续下去，而不是停滞或停滞不前。AI 系统现在在各种各样的任务上的表现已经接近人类水平，但训练这些系统的成本仍然远低于哈勃太空望远镜或大型强子对撞机等 “大科学” 项目 —— 这意味着还有更多的空间进一步发展生长（3） .

人们往往不善于识别和承认早期阶段的指数增长。尽管我们看到 AI 取得了快速进步，但人们倾向于认为这种局部进步一定是例外，而不是常规，而且事情可能很快就会恢复正常。然而，如果我们是正确的，那么在人工智能系统拥有超出我们自身能力的广泛能力之前，目前人工智能快速进步的感觉可能不会结束。此外，在 AI 研究中使用高级 AI 的反馈循环可以使这种转变特别迅速；我们已经看到这一过程的开始，代码模型的开发使人工智能研究人员的工作效率更高，而宪法人工智能减少了我们对人类反馈的依赖。

如果其中任何一条是正确的，那么在不远的将来，大部分或所有知识工作都可以实现自动化 —— 这将对社会产生深远影响，也可能改变其他技术的进步速度（早期这方面的例子是像 AlphaFold 这样的系统如何在今天加速生物学）。未来的人工智能系统将采用何种形式 —— 例如，它们是能够独立行动还是仅为人类生成信息 —— 仍有待确定。尽管如此，很难夸大这可能是一个多么关键的时刻。虽然我们可能更希望 AI 的进展速度足够慢以使这种转变更易于管理，这种转变发生在几个世纪而不是几年或几十年，但我们必须为我们预期的结果而不是我们希望的结果做好准备。

当然，这整个画面可能是完全错误的。在 Anthropic，我们倾向于认为它更有可能，但也许我们对 AI 开发的工作有偏见。即使是这样，我们也认为这幅图足够可信，不能完全否定它。鉴于潜在的重大影响，我们认为人工智能公司、政策制定者和民间社会机构应该非常认真地致力于围绕如何处理变革性人工智能的研究和规划。

有什么安全隐患？#

如果您愿意接受上述观点，那么不难证明人工智能可能对我们的安全构成威胁。有两个常识性原因需要关注。

首先，当这些系统开始变得像它们的设计者一样智能和了解周围环境时，构建安全、可靠和可操纵的系统可能会很棘手。打个比方，国际象棋大师很容易发现新手的坏棋步，但新手很难发现大师的坏棋步。如果我们构建的人工智能系统比人类专家更有能力，但它追求的目标与我们的最大利益相冲突，后果可能是可怕的。这就是技术对齐问题。

其次，AI 的快速进步将极具破坏性，改变国家内部和国家之间的就业、宏观经济和权力结构。这些破坏本身可能是灾难性的，它们还可能使以谨慎、深思熟虑的方式构建 AI 系统变得更加困难，从而导致 AI 进一步混乱甚至出现更多问题。

我们认为，如果人工智能进步很快，这两个风险来源将非常重要。这些风险还将以多种难以预料的方式相互叠加。也许事后看来，我们会认为我们错了，其中一个或两个问题要么不会成为问题，要么很容易解决。尽管如此，我们认为有必要谨慎行事，因为 “弄错了” 可能是灾难性的。

当然，我们已经遇到过 AI 行为偏离其创造者意图的各种方式。这包括毒性、偏见、不可靠、不诚实，以及最近的阿谀奉承和对权力的明确渴望。我们预计，随着 AI 系统的激增和变得更加强大，这些问题将变得越来越重要，其中一些可能代表我们将遇到的人类级别 AI 及更高级别的问题。

然而，在人工智能安全领域，我们预计会出现可预测和令人惊讶的发展。即使我们能够圆满地解决当代人工智能系统遇到的所有问题，我们也不想轻率地假设未来的问题都可以用同样的方式解决。一些可怕的、推测性的问题可能只会在人工智能系统足够聪明以了解它们在世界上的位置、成功地欺骗人们或制定人类不理解的策略时才会出现。有许多令人担忧的问题可能只有在人工智能非常先进时才会出现。

我们的方法：人工智能安全的经验主义#

我们认为，如果不与我们的研究对象密切接触，就很难在科学和工程领域取得快速进步。不断迭代 “基本事实” 的来源通常对科学进步至关重要。在我们的人工智能安全研究中，关于人工智能的经验证据 —— 尽管它主要来自计算实验，即人工智能训练和评估 —— 是基本事实的主要来源。

这并不意味着我们认为理论或概念研究在 AI 安全中没有地位，但我们确实相信以经验为基础的安全研究将具有最大的相关性和影响力。可能的人工智能系统、可能的安全故障和可能的安全技术的空间很大，很难独自从扶手椅上穿越。考虑到考虑所有变量的困难，很容易过度关注从未出现过的问题或错过确实存在的大问题（4）。好的实证研究通常可以使更好的理论和概念工作成为可能。

与此相关，我们认为检测和缓解安全问题的方法可能极难提前计划，需要迭代开发。鉴于此，我们倾向于认为 “计划不可或缺，但计划无用”。在任何给定时间，我们可能会为研究的下一步制定一个计划，但我们对这些计划没有什么依恋，它们更像是我们准备随着了解更多而改变的短期赌注。这显然意味着我们不能保证我们目前的研究路线会成功，但这是每个研究项目的生活事实。

前沿模型在实证安全中的作用#

Anthropic 作为一个组织存在的一个主要原因是我们认为有必要对 “前沿” 人工智能系统进行安全研究。这需要一个既能处理大型模型又能优先考虑安全性的机构（5）。

就其本身而言，经验主义并不一定意味着需要边境安全。人们可以想象这样一种情况，即可以在更小、能力更差的模型上有效地进行实证安全研究。然而，我们不认为这是我们所处的情况。在最基本的层面上，这是因为大型模型与小型模型在质量上有所不同（包括突然的、不可预测的变化）。但规模还以更直接的方式与安全相关联：

我们许多最严重的安全问题可能只会出现在接近人类水平的系统中，如果不使用此类人工智能，就很难或难以在这些问题上取得进展。
许多安全方法，如宪法 AI或辩论只能在大型模型上工作 —— 使用较小的模型使得无法探索和证明这些方法。
由于我们关注的是未来模型的安全性，因此我们需要了解安全方法和属性如何随着模型的扩展而变化。
如果未来的大型模型被证明是非常危险的，那么我们就必须开发出令人信服的证据。我们希望只有使用大型模型才能实现这一点。

不幸的是，如果实证安全研究需要大型模型，那将迫使我们面对艰难的权衡。我们必须尽一切努力避免以安全为动机的研究加速危险技术部署的情况。但我们也不能让过度谨慎导致最具安全意识的研究工作只涉及远远落后于前沿的系统，从而大大减缓我们认为至关重要的研究。此外，我们认为在实践中，仅仅进行安全研究是不够的 —— 建立一个具有机构知识的组织以尽快将最新的安全研究整合到实际系统中也很重要。

负责任地权衡这些权衡是一种平衡行为，这些担忧是我们作为一个组织如何做出战略决策的核心。除了我们在安全、能力和政策方面的研究之外，这些问题还推动了我们在公司治理、招聘、部署、安全和合作伙伴关系方面的方法。在不久的将来，我们还计划做出对外明确的承诺，即在满足安全标准的情况下，仅开发超出特定能力阈值的模型，并允许独立的外部组织评估我们模型的能力和安全性。

采取投资组合方法来确保 AI 安全#

一些关心安全的研究人员受到对人工智能风险性质的强烈看法的激励。我们的经验是，即使预测 AI 系统在不久的将来的行为和特性也非常困难。对未来系统的安全性做出先验预测似乎更加困难。与其采取强硬立场，我们认为各种情况都是合理的。

不确定性的一个特别重要的方面是，开发基本安全且对人类风险很小的先进人工智能系统将有多么困难。开发这样的系统可能位于从非常容易到不可能的范围内的任何地方。让我们将这个范围分为三个具有非常不同含义的场景：

** 乐观的情景：** 由于安全故障，高级人工智能带来灾难性风险的可能性很小。已经开发的安全技术，例如从人类反馈中强化学习(RLHF) 和宪法 AI (CAI)，已经在很大程度上足以进行对齐。AI 的主要风险是对当今面临的问题的外推，例如毒性和故意滥用，以及广泛的自动化和国际权力动态变化等事情造成的潜在危害 —— 这将需要 AI 实验室和第三方，如学术界和民间社会机构开展大量研究以尽量减少危害。
** 中间场景：** 灾难性风险是高级 AI 开发的可能甚至似是而非的结果。解决这个问题需要大量的科学和工程努力，但只要有足够的重点工作，我们就可以实现它。
悲观情景： AI 安全本质上是一个无法解决的问题 —— 这只是一个经验事实，即我们无法控制或向一个比我们自己更智能的系统指定价值 —— 因此我们不能开发或部署非常先进的 AI 系统。值得注意的是，在创建非常强大的人工智能系统之前，最悲观的场景可能看起来像乐观的场景。认真对待悲观情景需要在评估系统安全的证据时保持谦逊和谨慎。

如果我们处于乐观的情况下…… Anthropic 所做的任何事情的风险（幸运的是）要低得多，因为无论如何都不太可能出现灾难性的安全故障。我们的协调努力可能会加快先进人工智能真正有益用途的步伐，并将有助于减轻人工智能系统在开发过程中造成的一些近期危害。我们也可能会努力帮助决策者应对先进人工智能带来的一些潜在结构性风险，如果发生灾难性安全故障的可能性很小，这可能会成为最大的风险来源之一。

如果我们处于中间场景…… Anthropic 的主要贡献将是识别高级人工智能系统带来的风险，并找到和传播安全的方法来训练强大的人工智能系统。我们希望至少我们的一些安全技术组合（在下面更详细地讨论）将在这种情况下有所帮助。这些场景的范围可以从 “中等简单场景” 到 “中等难度场景”，其中我们认为我们可以通过迭代宪法人工智能等技术取得很多边际进展，其中成功实现机械可解释性似乎是我们最好的选择。

如果我们处于悲观情景中…… Anthropic 的作用将是提供尽可能多的证据，证明人工智能安全技术无法防止高级人工智能带来的严重或灾难性安全风险，并发出警报，以便世界机构可以集体努力防止危险人工智能的发展。如果我们处于 “近乎悲观” 的情景中，这可能会涉及将我们的集体努力引导到 AI 安全研究上，同时阻止 AI 的进步。表明我们处于悲观或接近悲观情景的迹象可能会突然出现并且难以发现。因此，我们应该始终假设我们仍然可能处于这种情况下，除非我们有足够的证据证明我们不是。

考虑到利害关系，我们的首要任务之一是继续收集更多关于我们所处场景的信息。我们追求的许多研究方向旨在更好地了解人工智能系统和开发可以帮助我们的技术检测有关行为，例如高级人工智能系统的权力寻求或欺骗。

我们的目标主要是开发：

使人工智能系统更安全的更好技术，
识别人工智能系统安全或不安全程度的更好方法。

在乐观的情况下，(i) 将帮助 AI 开发人员训练有益的系统，并且 (ii) 将证明此类系统是安全的。

在中间情景中，(i) 可能是我们最终避免 AI 灾难的方式，以及 (ii) 对于确保高级 AI 带来的风险较低至关重要。

在悲观的情况下，(i) 的失败将是人工智能安全无法解决的关键指标，并且 (ii) 将有可能向其他人令人信服地证明这一点。

我们相信这种 AI 安全研究的 “组合方法”。我们不是押注于上面列表中的单一可能场景，而是尝试开发一个研究项目，该项目可以显着改善人工智能安全研究最有可能产生巨大影响的中间场景，同时也在悲观场景中发出警报人工智能安全研究不太可能对人工智能风险产生太大影响。我们还试图以一种在对技术人工智能安全研究的需求不那么大的乐观情况下有益的方式这样做。

Anthropic 的三种人工智能研究#

我们将 Anthropic 的研究项目分为三个领域：

** 能力：**AI 研究旨在使 AI 系统普遍更好地完成任何类型的任务，包括写作、图像处理或生成、玩游戏等。使大型语言模型更高效或改进强化学习算法的研究将属于这一标题。能力工作生成并改进了我们在对齐研究中调查和使用的模型。我们一般不发表这类工作，因为我们不想加快 AI 能力进步的速度。此外，我们的目标是考虑前沿能力的演示（即使没有发布）。我们在 2022 年春季训练了标题模型的第一个版本 Claude，并决定优先将其用于安全研究而不是公共部署。
** 对齐能力：** 这项研究的重点是开发新的算法来训练人工智能系统，使其更有帮助、更诚实、更无害，以及更可靠、更稳健，并与人类价值观普遍保持一致。Anthropic 现在和过去的此类工作的例子包括辩论、扩展自动红队、宪法 AI、去偏见和 RLHF（从人类反馈中强化学习）。通常，这些技术在实用上有用且具有经济价值，但它们并非必须如此 —— 例如，如果新算法效率相对较低，或者只有在 AI 系统变得更强大时才会变得有用。
** 对齐科学：** 该领域侧重于评估和理解 AI 系统是否真正对齐、对齐功能技术的工作情况，以及我们可以在多大程度上将这些技术的成功外推到功能更强大的 AI 系统。Anthropic 的这项工作的例子包括机械可解释性的广泛领域，以及我们在使用语言模型评估语言模型、红队和使用影响函数研究大型语言模型中的泛化方面的工作（如下所述）。我们关于诚实的一些工作落在对齐科学和对齐能力的边界上。

在某种意义上，可以将对齐能力与对齐科学视为 “蓝队” 与 “红队” 的区别，其中对齐能力研究试图开发新算法，而对齐科学则试图理解和揭示它们的局限性。

我们发现这种分类有用的一个原因是人工智能安全社区经常争论 RLHF 的发展 —— 它也产生经济价值 —— 是否 “真的” 是安全研究。我们相信它是。务实有用的对齐能力研究是我们为更有能力的模型开发技术的基础 —— 例如，我们在宪法人工智能和人工智能生成的评估方面的工作，以及我们正在进行的自动化红队和辩论方面的工作，不会有没有 RLHF 的先前工作是可能的。对齐功能的工作通常使 AI 系统有可能通过使这些系统更加诚实和可纠正来协助对齐研究。而且，

如果事实证明 AI 安全非常容易处理，那么我们的对齐能力工作可能是我们最有影响力的研究。相反，如果对齐问题更加困难，那么我们将越来越依赖对齐科学来寻找对齐能力技术中的漏洞。如果对齐问题实际上几乎是不可能的，那么我们迫切需要对齐科学来建立一个非常有力的案例来阻止高级人工智能系统的发展。

我们当前的安全研究#

我们目前正朝着各种不同的方向努力，以发现如何训练安全的人工智能系统，其中一些项目解决了不同的威胁模型和能力水平。一些关键思想包括：

机械可解释性
可扩展的监督
面向过程的学习
理解泛化
危险故障模式测试
社会影响和评价

机械可解释性#

在许多方面，技术对齐问题与从 AI 模型中检测不良行为的问题有着千丝万缕的联系。如果我们即使在新情况下也能稳健地检测到不良行为（例如，通过 “读懂模型的想法”），那么我们就有更好的机会找到方法来训练不表现出这些故障模式的模型。同时，我们有能力警告其他人模型不安全，不应部署。

我们的可解释性研究优先填补其他类型对齐科学留下的空白。例如，我们认为可解释性研究可能产生的最有价值的事情之一是能够识别模型是否具有欺骗性对齐（“配合” 甚至非常困难的测试，例如故意 “诱惑” 系统的 “蜜罐” 测试以揭示错位）。如果我们在可扩展监督和面向过程的学习方面的工作产生了有希望的结果（见下文），我们希望产生的模型即使在非常严格的测试中也看起来是一致的。这可能意味着我们处于非常乐观的情景中，或者我们处于最悲观的情景之一。使用其他方法区分这些情况似乎几乎是不可能的，但在可解释性方面却非常困难。

这让我们下了一个很大的风险赌注：机械可解释性，即试图将神经网络逆向工程为人类可理解的算法的项目，类似于人们如何逆向工程一个未知且可能不安全的计算机程序。我们希望这可能最终使我们能够做一些类似于 “代码审查” 的事情，审核我们的模型以识别不安全的方面或提供强有力的安全保证。

我们认为这是一个非常困难的问题，但也不像看起来那么不可能。一方面，语言模型是大型、复杂的计算机程序（我们称之为 “叠加” 的现象只会让事情变得更难）。另一方面，我们看到有迹象表明这种方法比人们最初想象的更容易处理。在 Anthropic 之前，我们的一些团队发现视觉模型具有可以理解为可解释电路的组件。从那时起，我们已经成功地将这种方法扩展到小型语言模型，甚至发现了一种似乎可以驱动大部分上下文学习的机制. 我们对神经网络计算机制的了解也比一年前多得多，例如那些负责记忆的机制。

这只是我们目前的方向，我们从根本上是受经验驱动的 —— 如果我们看到其他工作更有希望的证据，我们会改变方向！更一般地说，我们相信更好地理解神经网络和学习的详细工作原理将开辟更广泛的工具，我们可以通过这些工具追求安全。

可扩展的监督#

将语言模型转变为一致的人工智能系统将需要大量高质量的反馈来引导它们的行为。一个主要的问题是人类将无法提供必要的反馈. 人类可能无法提供准确 / 知情的足够反馈来充分训练模型以避免在各种情况下出现有害行为。人类可能会被 AI 系统愚弄，无法提供反映他们实际需要的反馈（例如，意外地为误导性建议提供正面反馈）。问题可能是一个组合，人类可以通过足够的努力提供正确的反馈，但不能大规模地这样做。这是可扩展监督的问题，它似乎可能是训练安全、一致的 AI 系统的核心问题。

最终，我们认为提供必要监督的唯一方法是让人工智能系统部分自我监督或协助人类进行自我监督。不知何故，我们需要将少量高质量的人类监督放大为大量高质量的人工智能监督。这个想法已经通过 RLHF 和宪法 AI 等技术显示出前景，尽管我们看到了使这些技术在人类水平系统中可靠的更多空间。我们认为这样的方法是有前途的，因为语言模型已经学习了很多关于人类价值观的知识在预训练期间。学习人类价值观与学习其他学科没有什么不同，我们应该期望更大的模型更准确地描绘人类价值观，并且发现它们相对于更小的模型更容易学习。

可扩展监督的另一个关键特征，尤其是像 CAI 这样的技术，是它们允许我们自动化红队（又名对抗训练）。也就是说，我们可以自动为 AI 系统生成可能有问题的输入，查看它们如何响应，然后自动训练它们以更诚实和无害的方式行事。希望我们可以使用可扩展的监督来训练更强大的安全系统。我们正在积极调查这些问题。

我们正在研究各种可扩展监督的方法，包括 CAI 的扩展、人工辅助监督的变体、AI-AI 辩论的版本、通过多代理 RL 的红队，以及创建模型生成的评估。我们认为，规模化监督可能是最有前途的培训系统方法，可以在保持安全的同时超越人类能力，但要研究这种方法是否能成功，还有大量工作要做。

学习过程而不是取得结果#

学习一项新任务的一种方法是通过反复试验 —— 如果你知道期望的最终结果是什么样子，你就可以继续尝试新的策略，直到你成功。我们将此称为 “以结果为导向的学习”。在面向结果的学习中，智能体的策略完全由期望的结果决定，并且智能体将（理想情况下）收敛于一些使其能够实现这一目标的低成本策略。

通常，更好的学习方法是让专家指导您了解他们为取得成功所遵循的流程。在练习轮中，如果您可以专注于改进您的方法，那么您的成功甚至可能无关紧要。随着你的进步，你可能会转向一个更具协作性的过程，在这个过程中你会咨询你的教练，看看新策略是否对你更有效。我们将此称为 “面向过程的学习”。在面向过程的学习中，目标不是获得最终结果，而是掌握可用于实现该结果的各个过程。

至少在概念层面上，许多关于高级人工智能系统安全性的担忧都通过以面向过程的方式训练这些系统来解决。特别是，在这个范例中：

人类专家将继续了解人工智能系统遵循的各个步骤，因为为了鼓励这些过程，它们必须对人类合理。
人工智能系统不会因以难以理解或有害的方式取得成功而获得奖励，因为它们只会根据其流程的有效性和可理解性获得奖励。
人工智能系统不应因追求资源获取或欺骗等有问题的子目标而获得奖励，因为人类或其代理人会在训练过程中为个人获取过程提供负面反馈。

在 Anthropic，我们强烈支持简单的解决方案，将 AI 培训限制在面向过程的学习中可能是改善高级 AI 系统一系列问题的最简单方法。我们也很高兴能够识别和解决面向过程的学习的局限性，并了解如果我们混合使用基于过程和基于结果的学习进行训练，何时会出现安全问题。我们目前认为，面向过程的学习可能是最有前途的途径，可以训练安全和透明的系统达到并在某种程度上超越人类的能力。

理解泛化#

机械可解释性工作对神经网络执行的计算进行逆向工程。我们还试图更详细地了解大型语言模型 (LLM) 训练过程。

法学硕士已经展示了各种令人惊讶的突发行为，从创造力到自我保护再到欺骗。虽然所有这些行为肯定都来自训练数据，但途径很复杂：模型首先在大量原始文本上进行 “预训练”，从中学习广泛的表征和模拟不同主体的能力。然后它们以无数种方式进行微调，其中一些可能会产生令人惊讶的意外后果。由于微调阶段严重过度参数化，学习模型关键取决于预训练的隐式偏差；这种隐含的偏见来自复杂的表示网络，该网络是通过对世界上大部分知识的预训练而建立起来的。

当一个模型表现出令人担忧的行为时，例如扮演一个欺骗性对齐的 AI 的角色，它是否只是对几乎相同的训练序列的无害反流？或者这种行为（或者甚至是导致这种行为的信念和价值观）是否已经成为模型的 AI 助手概念的一个组成部分，它们在不同的环境中始终如一地应用？我们正在研究将模型的输出追溯到训练数据的技术，因为这将产生一组重要的线索来理解它。

危险故障模式测试#

一个关键问题是高级人工智能可能会发展出有害的紧急行为，例如欺骗或战略规划能力，而这些行为在较小且能力较差的系统中是不存在的。我们认为，在此类问题成为直接威胁之前对其进行预测的方法是设置环境，在该环境中，我们有意将这些属性训练成能力不足以构成危险的小规模模型，以便我们可以隔离和研究它们。

我们特别感兴趣的是人工智能系统在 “情境感知” 时的行为方式 —— 例如，当它们意识到自己是人工智能在训练环境中与人类交谈时 —— 以及这如何影响它们在训练过程中的行为。人工智能系统会变得具有欺骗性，还是会发展出令人惊讶和不受欢迎的目标？在最好的情况下，我们的目标是建立这些趋势如何随规模变化的详细定量模型，以便我们可以提前预测危险故障模式的突然出现。

同时，关注与研究本身相关的风险也很重要。如果在不会造成太大伤害的较小模型上进行研究，则不太可能带来严重的风险，但这种研究涉及引出我们认为危险的能力，如果在具有更大影响的较大模型上进行，则会带来明显的风险能力。我们不打算对能够造成严重伤害的模型进行这项研究。

社会影响和评价#

批判性地评估我们工作的潜在社会影响是我们研究的一个关键支柱。我们的方法以构建工具和测量为中心，以评估和理解我们的人工智能系统的能力、局限性和社会影响的潜力。例如，我们发表了分析大型语言模型中的可预测性和意外性的研究，研究了这些模型的高级可预测性和不可预测性如何导致有害行为。在那项工作中，我们强调了如何以有问题的方式使用令人惊讶的功能。我们还研究了红队语言模型的方法，通过探测不同模型大小的攻击性输出模型来发现和减少危害。最近，我们发现当前的语言模型可以遵循指令来减少偏见和刻板印象。

我们非常关注日益强大的人工智能系统的快速部署将如何在短期、中期和长期影响社会。我们正在开展各种项目，以评估和减轻人工智能系统中潜在的有害行为，预测它们的使用方式，并研究它们的经济影响。这项研究还为我们制定负责任的人工智能政策和治理的工作提供了信息。通过对当今人工智能的影响进行严格的研究，我们旨在为政策制定者和研究人员提供他们所需的见解和工具，以帮助减轻这些潜在的重大社会危害，并确保人工智能的好处在整个社会中广泛而均匀地分配。

结语#

我们相信，人工智能可能会对世界产生前所未有的影响，可能会在未来十年内发生。计算能力的指数增长和人工智能能力的可预测改进表明，新系统将比今天的技术先进得多。然而，我们还没有充分了解如何确保这些强大的系统与人类价值观稳健地保持一致，以便我们可以确信灾难性故障的风险最小。

我们想明确表示，我们不认为今天可用的系统会造成迫在眉睫的问题。然而，如果开发出更强大的系统，现在就做基础工作以帮助降低高级人工智能带来的风险是明智的。事实证明，创建安全的人工智能系统很容易，但我们认为为不太乐观的情况做好准备至关重要。

Anthropic 正在采取经验驱动的方法来确保人工智能安全。积极工作的一些关键领域包括提高我们对人工智能系统如何学习和推广到现实世界的理解，开发可扩展监督和审查人工智能系统的技术，创建透明和可解释的人工智能系统，训练人工智能系统遵循安全过程而不是追求结果，分析 AI 潜在的危险故障模式以及如何预防它们，并评估 AI 的社会影响以指导政策和研究。通过从多个角度解决 AI 安全问题，我们希望开发一个安全工作 “组合”，帮助我们在一系列不同场景中取得成功。

注解#

算法进步 —— 用于训练 AI 系统的新方法的发明 —— 更难衡量，但进步似乎是指数级的，而且比摩尔定律更快。在推断 AI 能力的进步时，必须将支出、硬件性能和算法进步的指数增长相乘，才能估算出整体增长率。
缩放定律为支出提供了理由，但开展这项工作的另一个潜在动机是转向可以读写的 AI，以便更容易地训练和试验可以与人类价值观相关的 AI。
从用于训练的计算总量的增加来推断人工智能能力的进步并不是一门精确的科学，需要一些判断。我们知道，从 GPT-2 到 GPT-3 的能力跃升主要是由于计算量增加了约 250 倍。我们猜测，到 2023 年，原始 GPT-3 模型和最先进的模型将再增加 50 倍。在接下来的 5 年里，我们可能预计用于训练最大模型的计算量将增加约 1000 倍，基于计算成本和支出的趋势。如果缩放定律成立，这将导致能力跳跃明显大于从 GPT-2 到 GPT-3（或 GPT-3 到 Claude）的跳跃。在人择，我们对这些系统的功能非常熟悉，对于我们中的许多人来说，如此大的跳跃感觉就像它可以在大多数任务中产生人类水平的表现。这需要我们使用直觉 —— 尽管是有根据的直觉 —— 因此是一种不完美的评估人工智能能力进步的方法。但基本事实包括 (i) 这两个系统之间的计算差异，(ii) 这两个系统之间的性能差异，(iii) 允许我们预测未来系统的比例定律，以及 (iv) 计算成本的趋势任何人都可以获得支出，我们相信他们共同支持我们在未来十年内开发广泛的人类人工智能系统的可能性超过 10%。在这个粗略的分析中，我们忽略了算法的进展，计算数字是我们没有提供详细信息的最佳估计。然而，这里的绝大多数内部分歧在于在给定等效计算跳跃的情况下推断后续能力跳跃的直觉。
例如，在 AI 研究中，很长一段时间以来，人们普遍认为局部最小值可能会阻止神经网络学习，而它们的泛化特性的许多定性方面，例如对抗性示例的广泛存在，都来自某种程度上。一个谜和惊喜。
对大型模型进行有效的安全研究不仅需要名义上（例如 API）访问这些系统 —— 要进行可解释性、微调和强化学习方面的工作，有必要在 Anthropic 内部开发 AI 系统。

AI 的进步将为人类的发展带来新的改变，我们要做的不是一味的唱赞歌或者打压差评，而是要思考它能带来的改变和机遇是什么，同时可能会产生哪些负面的不可控的影响和后果，从而我们可以提前部署和解决这些问题，让 AI 成为一个帮助人类生活更美好的工具，而不是无法掌控的超级生命体。

【翻译 Hoodrh | 原文地址】

你还可以在这些地方找到我：

Mirror：Hoodrh

Twitter: Hoodrh

Nostr: npub1e9euzeaeyten7926t2ecmuxkv3l55vefz48jdlsqgcjzwnvykfusmj820c