技术与创新

Openai如何使GPT-4“更安全”堆积在NIST AI风险管理框架上?

05.11.23 | 9分钟阅读 | 文字利亚姆·亚历山大Divyansh Kaushik

3月,Openai释放了GPT-4,这是最近AI进展的另一个里程碑。这是Openai迄今为止最先进的模型,它已经被广泛部署给数百万用户,并且企业,有可能在跨越巨大的影响一系列行业

但是,在发布一个新的,强大的系统(如GPT-4到数百万用户)之前,一个关键的问题是:“我们怎么知道这个系统是安全,值得信赖和可靠的,可以被释放?”目前,这是一个问题,即领导AI实验室可以自由地自由回答。但是越来越多的问题引起了人们的更多关注,因为许多人都担心当前的居民前风险评估和缓解方法(如OpenAI所做的)不足以防止潜在的风险,包括大规模的错误信息传播,社会不平等的根深蒂固,滥用不良演员和灾难性事故。

这种担忧是最近的一个核心打开信封,由几位领先的机器学习(ML)研究人员和行业领导者签署,该领导者呼吁与GPT-4“更强大”的AI系统训练6个月,以便为更多时间提供更多时间在部署之前,将“确保遵守他们的系统安全地毫无疑问地安全”的强大标准。这封信有很多分歧,专家竞争这封信的基本叙述,对于其他认为停顿的人“一个可怕的主意”因为它会不必要地停止有益的创新(更不用说实施是不可能实施的)。但是,在这次对话中,几乎所有参与者都倾向于同意,停顿或否,即如何在实际部署它之前评估和管理AI系统风险的问题是重要的。

这里寻找指导的自然场所是国家标准研究所(nist),发行了AI风险管理框架(ai rmf)和相关的剧本在一月。NIST正在领导政府的工作,以制定技术标准和共识指南,以管理AI系统的风险,以及一些引用它的标准制定工作是未来监管工作的潜在基础。

In this piece we walk through both what OpenAI actually did to test and improve GPT-4’s safety before deciding to release it, limitations of this approach, and how it compares to current best practices recommended by the National Institute of Standards and Technology (NIST). We conclude with some recommendations for Congress, NIST, industry labs like OpenAI, and funders.

OpenAI在部署GPT-4之前做了什么?

Openai声称已经采取了几个步骤,以使其系统“更安全,更加安装”。这些步骤是什么?Openai在GPT-4“系统卡,”一份文件,概述了OpenAI在部署之前如何管理和减轻GPT-4的风险。这是该过程的简化版本:

这够了吗?

尽管Openai表示,它们通过上述过程大大降低了不希望的模型行为的速率,但实施的控件并不强大,缓解不良模型行为的方法仍然是漏水和不完美的。

Openai并未消除他们确定的风险。该系统卡记录了当前版本的GPT-4的许多失败,包括一个例子它同意“生成一个计划,以使吸引力随性别和种族的函数计算。”

根据GPT-4 Red Teamers的说法,目前衡量风险的努力也需要工作。这对齐研究中心(ARC)评估了这些模型的“紧急”风险这么说“到目前为止,我们已经进行的测试不足以出于多种原因,但是我们希望随着AI系统变得更加有能力,评估的严格性将扩大。”另一位GPT-4红色团队Aviv Ovadya说:“如果红色的GPT-4教会了我任何东西,那就是红色的团队是不够的。”Ovadya建议使用未来的剥离前风险评估工作来改善“紫罗兰色团队”在哪些公司中,公司确定“系统(例如,GPT-4)如何损害机构或公共利益,然后支持使用相同系统来捍卫机构或公共物品的工具的开发。”

由于目前衡量和减轻高级系统风险的努力并不完美,因此问题归结为当它们“足够好”时。哪些风险可以接受?如今,像OpenAI这样的行业实验室在回答这个问题时大部分都可以依靠自己的判断,但是可以使用许多不同的标准。Amba Kak,执行董事AI现在的研究所,建议一个更严格的标准,认为监管机构应要求AI公司“证明他们在发布系统之前不会造成任何伤害”。要满足这样一种标准的,新的,更系统的风险管理和测量方法。

Openai的努力如何映射到NIST的风险管理框架?

nistAI RMF核心由四个主要的“功能”组成,这是AI开发人员在开发和部署其系统时可以目标的广泛结果:地图,测量,管理和管理。

框架用户可以地图在确定的上下文中,将使用系统来确定应该“在其雷达上”的总体上下文。然后他们可以措施在定量或定性上确定风险,然后管理他们,根据预计的影响来降低风险。这治理功能是拥有一种功能齐全的风险管理文化,以支持其他三个功能的有效实施。

回顾OpenAI的过程,然后再发布GPT-4,我们可以看到他们的动作如何与RMF核心中的每个功能保持一致。这并不是说Openai在其工作中应用了RMF。我们只是在尝试评估他们的努力如何与RMF保持一致。

Openai所描述的一些具体行动也在剧本。这测量2.7功能例如,“红色团队”活动是评估AI系统的“安全性和弹性”的一种方式。

nistresources provide a helpful overview of considerations and best practices that can be taken into account when managing AI risks, but they are not currently designed to provide concrete standards or metrics by which one can assess whether the practices taken by a given lab are “adequate.” In order to develop such standards, more work would be needed. To give some examples of current guidance that could be clarified or made more concrete:

因此,在NIST的AI RMF中,在确定是否取得的“结果”是否可以进行辩论时,没有什么可以阻止开发人员超越最低限度的最低限度(我们相信他们应该)。这不是当前设计的框架的错误,而是一个功能,因为RMF“不开处方风险承受能力。”但是,重要的是要注意,需要更多的工作来确定领先的实验室可以遵循的两个更严格的准则,以减轻领先的AI系统的风险,以及衡量可以构建法规的风险的具体标准和方法。

建议

有几种方法可以改善前部风险评估和缓解前部系统的标准:可以改善:

国会

nist

行业实验室

资助者