
3月,Openai释放了GPT-4,这是最近AI进展的另一个里程碑。这是Openai迄今为止最先进的模型,它已经被广泛部署给数百万用户,并且企业,有可能在跨越巨大的影响一系列行业。
但是,在发布一个新的,强大的系统(如GPT-4到数百万用户)之前,一个关键的问题是:“我们怎么知道这个系统是安全,值得信赖和可靠的,可以被释放?”目前,这是一个问题,即领导AI实验室可以自由地自由回答。但是越来越多的问题引起了人们的更多关注,因为许多人都担心当前的居民前风险评估和缓解方法(如OpenAI所做的)不足以防止潜在的风险,包括大规模的错误信息传播,社会不平等的根深蒂固,滥用不良演员和灾难性事故。
这种担忧是最近的一个核心打开信封,由几位领先的机器学习(ML)研究人员和行业领导者签署,该领导者呼吁与GPT-4“更强大”的AI系统训练6个月,以便为更多时间提供更多时间在部署之前,将“确保遵守他们的系统安全地毫无疑问地安全”的强大标准。这封信有很多分歧,专家竞争这封信的基本叙述,对于其他认为停顿的人“一个可怕的主意”因为它会不必要地停止有益的创新(更不用说实施是不可能实施的)。但是,在这次对话中,几乎所有参与者都倾向于同意,停顿或否,即如何在实际部署它之前评估和管理AI系统风险的问题是重要的。
这里寻找指导的自然场所是国家标准研究所(nist),发行了AI风险管理框架(ai rmf)和相关的剧本在一月。NIST正在领导政府的工作,以制定技术标准和共识指南,以管理AI系统的风险,以及一些引用它的标准制定工作是未来监管工作的潜在基础。
In this piece we walk through both what OpenAI actually did to test and improve GPT-4’s safety before deciding to release it, limitations of this approach, and how it compares to current best practices recommended by the National Institute of Standards and Technology (NIST). We conclude with some recommendations for Congress, NIST, industry labs like OpenAI, and funders.
OpenAI在部署GPT-4之前做了什么?
Openai声称已经采取了几个步骤,以使其系统“更安全,更加安装”。这些步骤是什么?Openai在GPT-4“系统卡,”一份文件,概述了OpenAI在部署之前如何管理和减轻GPT-4的风险。这是该过程的简化版本:
- 他们把在50多个“red-teamers”,外部经验erts across a range of domains to test the model, poking and prodding at it to find ways that it could fail or cause harm. (Could it “hallucinate” in ways that would contribute to massive amounts of cheaply produced misinformation? Would it produce biased/discriminatory outputs? Could it help bad actors produce harmful pathogens? Could it make plans to gain power of its own?)
- 在红色团队找到模型脱离轨道的方式的地方,他们可以通过对人类反馈(RLHF)的加强学习来训练许多不希望的输出实例,在此过程中,人类评估者就模型提供的各种输出提供了反馈(通过人类生成的示例,关于某种类型的输入的模型应如何做出响应,以及对模型生成的输出的“大拇指,大拇指降低”的评分)。因此,对模型进行了调整,以便更有可能给出其评估者成立得分的答案,并且不太可能给出得分较差的输出。
这够了吗?
尽管Openai表示,它们通过上述过程大大降低了不希望的模型行为的速率,但实施的控件并不强大,缓解不良模型行为的方法仍然是漏水和不完美的。
Openai并未消除他们确定的风险。该系统卡记录了当前版本的GPT-4的许多失败,包括一个例子它同意“生成一个计划,以使吸引力随性别和种族的函数计算。”
根据GPT-4 Red Teamers的说法,目前衡量风险的努力也需要工作。这对齐研究中心(ARC)评估了这些模型的“紧急”风险这么说“到目前为止,我们已经进行的测试不足以出于多种原因,但是我们希望随着AI系统变得更加有能力,评估的严格性将扩大。”另一位GPT-4红色团队Aviv Ovadya说:“如果红色的GPT-4教会了我任何东西,那就是红色的团队是不够的。”Ovadya建议使用未来的剥离前风险评估工作来改善“紫罗兰色团队”在哪些公司中,公司确定“系统(例如,GPT-4)如何损害机构或公共利益,然后支持使用相同系统来捍卫机构或公共物品的工具的开发。”
由于目前衡量和减轻高级系统风险的努力并不完美,因此问题归结为当它们“足够好”时。哪些风险可以接受?如今,像OpenAI这样的行业实验室在回答这个问题时大部分都可以依靠自己的判断,但是可以使用许多不同的标准。Amba Kak,执行董事AI现在的研究所,建议一个更严格的标准,认为监管机构应要求AI公司“证明他们在发布系统之前不会造成任何伤害”。要满足这样一种标准的,新的,更系统的风险管理和测量方法。
Openai的努力如何映射到NIST的风险管理框架?
nistAI RMF核心由四个主要的“功能”组成,这是AI开发人员在开发和部署其系统时可以目标的广泛结果:地图,测量,管理和管理。
框架用户可以地图在确定的上下文中,将使用系统来确定应该“在其雷达上”的总体上下文。然后他们可以措施在定量或定性上确定风险,然后管理他们,根据预计的影响来降低风险。这治理功能是拥有一种功能齐全的风险管理文化,以支持其他三个功能的有效实施。
回顾OpenAI的过程,然后再发布GPT-4,我们可以看到他们的动作如何与RMF核心中的每个功能保持一致。这并不是说Openai在其工作中应用了RMF。我们只是在尝试评估他们的努力如何与RMF保持一致。
- 他们首先映射通过确定红色团队的领域来调查风险,该领域是基于语言模型在过去造成的伤害的领域以及似乎在直觉上可能特别影响的领域。
- 他们的目的是措施这些风险很大程度上是通过上述定性的“红色团队”努力来描述的,尽管它们还描述了对某些风险的内部定量评估,例如“仇恨言论”或“自我伤害建议”。
- 并管理这些风险,它们依靠对人类反馈的强化学习,以及其他干预措施,例如塑造原始数据集以及一些明确的“编程”行为,这些行为不依赖于通过RLHF进行行为培训。
Openai所描述的一些具体行动也在剧本。这测量2.7功能例如,“红色团队”活动是评估AI系统的“安全性和弹性”的一种方式。
nistresources provide a helpful overview of considerations and best practices that can be taken into account when managing AI risks, but they are not currently designed to provide concrete standards or metrics by which one can assess whether the practices taken by a given lab are “adequate.” In order to develop such standards, more work would be needed. To give some examples of current guidance that could be clarified or made more concrete:
- NIST建议AI参与者“定期评估整个AI系统生命周期中的失败成本,以告知GO/NO-GO部署决策。”“经常定期”一次?什么样的“失败成本”太多了?其中一些将取决于最终用例,因为我们对情绪分析模型的风险承受能力可能远远高于医疗决策支持系统的风险承受能力。
- NIST建议AI开发人员旨在理解和记录“预期目的,可能有益的用途,特定于上下文的法律,规范和期望以及将部署AI系统的潜在环境”。对于像GPT-4这样的系统,该系统正在广泛部署,并且可能在许多域中都有用例抽象水平。
- NIST建议AI参与者“确定AI系统是否实现其预期目的和既定目标,以及其发展或部署是否应进行”。同样,这很难定义:像GPT-4这样的大语言模型的预期目的是什么?它的创建者通常不希望在发布时知道其潜在用例的全部范围,从而在做出此类决定方面面临进一步的挑战。
- NIST将解释性和解释性描述为值得信赖的AI系统的核心特征。Openai不描述GPT-4是可解释的。可以提示该模型生成其输出的解释,但是我们不知道这些模型生成的解释实际上反映了系统的内部流程以生成其输出。
因此,在NIST的AI RMF中,在确定是否取得的“结果”是否可以进行辩论时,没有什么可以阻止开发人员超越最低限度的最低限度(我们相信他们应该)。这不是当前设计的框架的错误,而是一个功能,因为RMF“不开处方风险承受能力。”但是,重要的是要注意,需要更多的工作来确定领先的实验室可以遵循的两个更严格的准则,以减轻领先的AI系统的风险,以及衡量可以构建法规的风险的具体标准和方法。
建议
有几种方法可以改善前部风险评估和缓解前部系统的标准:可以改善:
国会
- 国会应为NIST提供额外的资金,以扩大其在Frontier AI系统的风险测量和管理方面的工作能力。
nist
- 行业最佳实践:借助额外的资金,NIST可以根据行业的最佳实践来提供更详细的指导,以衡量和管理Frontier AI系统的风险,例如,通过收集和比较领先的AI开发人员的工作。NIST还可以寻找使风险管理实践“领先曲线”的方法,而不仅仅是收集现有行业实践,例如,探索新的,不太测试的实践,例如紫罗兰色的团队。
- 指标:NIST还可以提供更多具体的指标和基准,以评估RMF中是否已充分实现功能。
- 测试床:《芯片与科学法》第10232条授权NIST“建立测试床[…],以支持坚固且值得信赖的人工智能和机器学习系统的发展。”借助额外的资金,NIST可以开发一套集中的,自愿的测试床来评估风险的边境AI系统,从而鼓励更严格的预部部门模型评估。这样的努力可以基于现有的语言模型评估技术,例如这语言模型的整体评估来自斯坦福大学基础模型研究中心。
行业实验室
- 领先的行业实验室应旨在向像NIST这样的政府标准制定者提供更多有关他们如何管理AI系统风险的见解,包括清楚地概述他们的安全实践和缓解措施,就像OpenAI在GPT-4系统卡中所做的那样,这些方法如何实践起作用,以及他们将来仍然可以破坏的方式。
- 实验室还应旨在将更多的公共反馈纳入其风险管理过程中,以确定在部署具有广泛公共影响的系统时可以接受的风险水平。
- Labs should aim to go beyond the NIST AI RMF 1.0. This will further help NIST in assessing new risk management strategies that are not part of the current RMF but could be part of RMF 2.0.
资助者
- NSF和私人慈善授予者等政府资助者应为研究人员提供资金,以开发评估和减轻Frontier AI系统风险的指标和技术。目前,很少有人专注于这项工作,并且通过鼓励对Frontier AI系统的风险管理实践和指标进行更多工作,可以支持这一领域的更多研究。
- 资助者还应根据NIST AI RMF中所述的当前最佳实践来为AI项目提供汇款。
Do you have ideas that could inform an ambitious project that FESI has a comparative advantage pursuing? We want to hear it.
FESI之友已经确定了优先用例以告知项目想法。
《筹码与科学法》对美国创新和基于地点的工业政策建立了令人信服的愿景,但是这种愿景已经受到严格的资金的阻碍。
以下是筹码和科学资金在与联邦预算的战斗中塑造的方式。