指数

声明

托尼博士系绳
导向器
国防高级研究计划局

之前
政府间技术、信息政策小组委员会
关系与人口普查
政府改革委员会
美国众议院

2003年5月6日

主席先生、小组委员会成员和工作人员:我是托尼·泰瑟,美国国防高级研究计划局(DARPA)主任。我很高兴今天来到大家面前,来谈谈数据挖掘和保护美国人的隐私。这是一个重要的问题,我希望在你们的小组委员会研究这个复杂的问题时,我的发言对你们有帮助。

你们有些人可能不熟悉DARPA。我们本质上是工具制造商,资助国防部(DoD)的高回报研究。这项研究包括国防部高级研究计划局正在开发的几种新软件工具,以协助国防部执行反恐任务。我们正在开发新的数据搜索和模式识别技术,这些技术与现有的数据挖掘技术几乎没有共同之处,而且只是DARPA反恐研究的一个组成部分。我们研究的其他关键领域包括安全协作问题解决、结构化知识发现、数据可视化和企业内存决策。

重要的是要记住,我将讨论的技术尚未以最终形式存在,而且毫无疑问,它们将会改变。有些人会成功,有些人会失败,我们会在前进中学习。这就是研究的本质。

此外,如果我的同伴小组成员所代表的一些其他代理商,DARPA不是一个实际使用这些工具的机构,如果他们工作。国防部,联邦政府或国会的其他机构将决定是否希望使用我们创建的工具以及它们将如何使用它们。

美国国防部高级研究计划局的数据检索和模式识别方法

当大多数人谈论数据挖掘时,他们指的是使用聪明的统计技术来梳理大量数据,以发现之前未知的、但对构建预测模型有用的模式。在商业世界中,这通常是为了更好地预测客户的购买,理解供应链,或发现欺诈,或解决任何其他问题,更好地理解行为模式将会有帮助。金博宝正规网址基本的方法是找到统计相关性,作为发现未知行为模式的手段,然后建立预测模型。

一开始,人们可能会认为,数据挖掘对寻找恐怖分子的最普遍尝试非常有帮助。如果有一种软件能够自动发现大量数据中可疑的、但之前未被注意到的模式,并可以用来创建模型,将点间联系起来,并预先预测攻击,这似乎是最理想的。然而,扩大今天的数据挖掘方法,以普遍发现和阻止复杂的、精心策划的、涉及各种个人的恐怖阴谋的挑战,存在根本性的限制。

怀疑论者认为这种技术是不可行的,因为它太难编制了软件来回答一般问题,�活动可疑?�当恐怖计划是如此可变并且它们的证据是如此罕见。结果,怀疑论者表示,将包含无管理数量的�false阳性���活动被标记为可疑,结果是无辜的。

除了怀疑论者,批评人士还声称,这种方法必然会导致通过大量个人数据进行的调查,以及对美国人隐私的大规模侵犯,基本上不会对找到恐怖分子产生任何影响。在之前的证词中,这种方法被称为大规模数据监控

事实上,这些反对意见是为什么DARPA不追求这些技术,而是在我们的研究中开发一种不同的方法的原因之一。

DARPA无论你读过或听到过什么,都要努力实现大规模的数据监控。我们认为,现有的发现未知模式的数据挖掘方法不适合于找出恐怖分子的计划。

通常,数据挖掘的目的是在大量被严格定义和识别的活动(如信用卡使用或图书购买)的数据中发现以前未知但有用的行为模式。这些行为模式与单个事务或事务类相关(但与个人本身无关),同样是在狭义定义和确定的活动领域中。

反恐问题比这更困难。要检测和防止复杂的恐怖主义情节,必须找到极其罕见的跨越模式的实例非常广泛的各种各样的活动隐藏的个人之间的关系。数据挖掘不适合这项任务,因为潜在有趣活动的领域比购买行为多得多和复杂得多。

因此,我们认为,我们需要更好的工具和不同的方法来进行最广泛的努力,以发现和防止复杂的、精心策划的恐怖主义阴谋,特别是如果我们要在它们可能发生之前和它们到达美国海岸之前就阻止它们的话。因此,我们的研究目标是创造更好的反恐工具,而不是通过监视代表广泛或定义不明确的活动的海量数据,以期发现以前未知的、未指明的模式。相反,我们正在寻求一种寻找的方法证据指定的模式。

检测符合指定模式的数据

我们的方法是从制定袭击方案开始,通过这些方案来找出可能表明恐怖分子计划或计划的特定模式。这些场景将基于以往恐怖袭击的专家知识、情报分析、有关恐怖技术的新信息,以及/或来自军事演习,在这些演习中,聪明的人设想了攻击美国及其部署的部队的方法。基本方法不依赖统计分析来发现创建预测模型所需的未知模式。相反,我们从专家知识开始,创建支持情报分析的场景,而不是通过数据挖掘方法扫描数据库,以寻找之前未知的关联。

然后,这些场景将被简化为一系列问题,即哪些数据将提供证据,证明此类攻击是有计划的。我们把这些情景称为模型,本质上,它们是关于恐怖分子计划的假设。我们的目标是发现支持假设的数据。

对比这种方法试图发现可疑模式而不具有模型作为起点�当图案预先知道时。考虑一种卡车炸弹攻击,涉及租赁卡车装满肥料和其他材料。试图通过梳理数据comb致致力于通过堆积来获取软件,以发现其规划阶段�不知道它正在寻找什么,但试图旗帜�����恐怖计划的活动�不太可能工作。恐怖主义活动太少了,并且通过广泛地侦查所有可用的数据来发现许多不同的活动,需要对世界的巨大了解,以便识别活动或个人作为�suspious。

美国国防部高级研究计划局(DARPA)的研究重点是为情景模型或假设寻找证据,是否有外国游客停留在城市地区,购买大量化肥,租用卡车?同样,模型或假设不是通过在大量数据中探索未知的模式而建立的。

当然,寻找可疑模式的证据,就像我所做的那样简单。DARPAESS在数据搜索和模式识别领域的反恐研究基于两个基本类型的查询,即作为实际物质,可能会组合使用。

第一种类型的查询是基于主题的,并以实体(如人)开始已知的犯罪嫌疑人。分析人员会从嫌疑人的真实姓名开始,看看是否有证据表明他与其他嫌疑人或可疑活动有联系。当前与基于主题的查询相关的技术和策略已经得到了相当好的开发和理解。链接分析是一种具有巨大潜力的基于主题的查询方法,它寻求基于关于人、地点、事物和事件的数据关系来发现知识。链接分析使理解实体之间的关系成为可能。如果把这些联系恰当地组合起来,就可以提供更高级别恐怖主义网络和活动的图像,从而为恐怖袭击的早期迹象和预警奠定基础。数据挖掘并不能作为研究这些关系的工具,它通过在数据库中寻找统计相关性而不使用起点来创建模型,然后将这些模型不加区别地应用于整个数据集。链接分析之所以不同,是因为它使用已知的起始点检测罕见模式中的连通性,减少了开始时的搜索空间。

第二种类型的查询是基于严格的模式。分析师会寻找可能是威胁的特定活动模式的证据。

必须注意的是,这两种类型的查询都以已知的、已确定的可疑对象或已知的、已确定的模式开始。重点是调查而不是广泛的监视。在这两种情况下,人们寻找的数据很可能分布在大量非常不同的数据库中。查询分布式、异构数据库并不容易,特别是当我们试图检测模式时,而我们现在不知道如何去做。模式查询技术是我们反恐研究的关键要素;它相当不成熟,管理其应用的政策也是如此。

分析师在响应查询时获得的数据可能不会告诉他们一切。响应可能取决于进行分析的人员及其授权级别。这就引出了我们方法的第二个方面,分阶段进行检测。

检测的阶段

我们设想分析师将分阶段搜索特定模式的证据。他们会问问题,得到一些结果,然后通过问更多的问题来完善他们的结果。这只是常识,但值得强调的是,分阶段进行检测有许多好处:它更有效地利用信息;它有助于限制假阳性;符合法定侦查程序;它还允许内置隐私保护功能。

检测阶段有助于处理假阳性的关键挑战,这是,错误地将活动和人们误认为是可疑的,实际上是无害的。在最糟糕的情况下,误报浪费浪费调查资源可以导致错误指责。不幸的是,对虚假阳性和反恐的大部分讨论往往通过隐含地假设一个调查过程的漫画来强调技术作为关键问题,其中一名计算机程序通过大量数据的堆积,官员按下�打印件按钮,并出现了一堆逮捕令。当然,这种方法是不可行的。

我们认识到假阳性必须被认为是整个系统的产物。它们是由数据,技术,人员,调查程序相互作用,它们不仅仅是应用不完善的技术的结果。DARPA的研究旨在为分析师提供强大的工具,而不是取代分析师本身。此外,我们对积极因素的反应以及我们计划如何处理这些结果对这个问题至关重要。

同样重要的是要记住,所有的调查,无论是否使用数据库,都会产生假阳性结果。因此,相关的问题是,我们能否在不出现不可接受的系统误报率的情况下,提高我们检测和预防恐怖袭击的整体能力?�这是我们的研究要回答的关键挑战。

毫无疑问,分析师们在第一次询问时发现的许多积极因素都是错误的。必须对阳性结果进行进一步检查,以便开始排除假的,并确认真实的(如果有的话)。这将需要进行几个阶段的分析,以找到独立的、额外的证据来反驳或继续支持模型所代表的假设。此外,证据的程度部分取决于计划对积极回应的性质。例如,我们不会逮捕任何在进入这栋大楼时触发金属探测器的人。

一个类比我们有时用来说明这是潜艇检测。在潜艇战中,我们不仅仅根据首先攻击单个传感器检测到一个对象的迹象。我们将对象识别在阶段的阶段从�可能的敌对潜艇,到�侵袭的敌人潜水艇,以�攻击敌人的潜艇。为了确保我们的行为,我们通过不同,独立的传感器和信息来源确认识别。我们对数据搜索和模式识别的方法将以类似的方式进行。

阶段进行还意味着整个过程可以符合要求,法律程序或步骤。事实上,许多这些步骤都存在精确的保护人们的权利,清除假阳性。我们设想将许多必需的过程、权限或业务规则硬连接到软件中,以确保在过程的每个阶段都实际地遵循它们。

让我们回到卡车炸弹的例子。有人可能会在数据查询中加入一个叫做选择性披露的过程。在选择性披露中,向分析师披露的信息数量取决于分析师是谁、调查的现状以及分析师所获得的具体授权。分析师的凭据将自动包含在查询中,返回的信息级别也会相应变化。

也许是卡车炸弹查询的结果我谈论早些时候是17人适合卡车轰炸机模式,但没有关于这17个的个人信息。要检索额外的个人信息,可以根据分析师实际上��若要的证据(例如,法庭,例如法院)的证据(例如,法院)的证据,所以可能需要更高水平的授权。

这表明,有一类特殊的业务规则和程序,可以进入技术,以加强隐私保护,所以请告诉我。

内置的隐私保护

从我们研究的一开始,我们就开始寻找将隐私保护纳入DARPA侦测恐怖分子方法的方法。

我们有两个动机。First, we knew that the American public and their elected officials must have confidence that their liberties will not be violated before they would accept this kind of technology.

其次,许多联邦机构需要分享的是智力数据。从历史上看,情报机构一直不愿分享情报数据,因为它们担心泄露情报来源和方法。因此,保护隐私和情报来源和方法是我们方法的组成部分。

我们正在实施强调保护隐私的政策。正如我之前提到的,DARPA并不拥有或收集任何情报或执法数据库。我们的政策将涉及新工具的开发和过渡,使法律授权的机构能够使用这些数据库,并向每个人强调隐私的重要性。此外,我们完全了解并打算仅以符合《隐私法》要求的方式使用这些工具,以及在需要进行隐私影响评估时,遵守《电子政务法》关于隐私影响评估的隐私条款。我们认识到,根据美国管理和预算办公室的政策,主要机构使用这项技术的信息系统必须通过一个商业案例来证明其合理性,这个案例解决的是如何将隐私和安全内置到这项技术中。

为了进一步协助收集数据进行分析的机构,我们正在开发其他工具,帮助他们即使在搜索过程中也能保护信息的完整性。我之前提到选择性披露是保护隐私的一种方式,我们也在研究其他相关技术,比如将身份信息与交易信息分离。这些单独的信息只有在分析人员收到适当的授权后才能重新组合。

在那之前,分析师可能只知道基本的事实,而不知道参与者的身份。我们还在寻找在分析数据之前将其匿名化的方法。我们正在评估从分析中过滤不相关信息的方法,例如使用基于经验的规则的软件代理。这些软件代理会在分析师看到之前自动删除看似无关的数据。

除了隐私保护之外,我们还在研究内置的不可删除审计技术,这使得在不被发现的情况下滥用数据搜索和模式识别技术变得极其困难。这种审计技术将回答这个问题:谁使用这个系统来检索什么数据?�

我们正在寻求的一些想法包括以加密方式保护审计信息,甚至可能将其广播给外界,使其无法被篡改。我们也在调查软件代理,他们会观察分析师的行为,以确保他们的搜索和程序是适当的,并遵循既定的指导方针。

另一个有趣的想法是向系统报告其位置的数据。ReportsReports其中一种方法甚至可以为每个副本(�数字水印�)包含一个唯一的标识符,这样,如果分发了未经授权的副本,就可以追踪它们的来源。还有一个概念是将数据库查询的控制权交给受信任的第三方,这样他们就不会受到组织的压力而提供未经授权的访问。

我们非常认真地采取隐私问题。金博宝正规网址事实上,DARPA是少数联邦机构之一赞助了隐私保护技术领域的重要研究之一。

您经常会在此辩论中听到谈话,了解如何有权衡�,例如,我们可能需要对更多安全性交易更少的隐私。人们可能不同意适当的平衡,但达尔帕辛在制定隐私保护技术方面的努力实际上是为了改善提供完善的隐私保护和通过合法相关机构提高安全的前景。

最后,我想强调两点:

首先,请记住我今天在这里所描述的是研究,以及技术将如何工作,如果这部电影只会随着时间的推移而上映。

- 9 -其次,由于DARPA在这一领域的研究备受瞩目,2003年2月,国防部宣布成立两个委员会来监督我们的信息感知项目,包括我们的数据搜索和模式识别技术。这两个委员会,一个是内部监督委员会,一个是外部咨询委员会,将与DARPA合作,继续我们的研究,以确保完全遵守美国宪法、美国成法法和美国有关隐私的价值观。

我的讲话到此结束。我很乐意回答任何问题。


PDF版本