技术与创新
第一天项目

科学的AI:创造一个良性的发现与创新圈

08.22.22 | 9分钟阅读 | 文字凯特·科恩(Kate Kohn)&Will Rieck

在这次采访中,汤姆·卡利尔(Tom Kalil)讨论了科学机构和研究界使用AI/ML来加速科学发现和技术进步的速度的机会。

问:为什么你认为科学机构和research community should be paying more attention to the intersection between AI/ML and science?

最近,研究人员使用了DeepMind的Alphafold为了预测大约100万种物种的超过1亿种蛋白质的结构,涵盖了地球上几乎所有已知的蛋白质!尽管并非所有这些预测都是准确的,但对于蛋白质结构预测领域来说,这是向前迈出的一大步。

科学机构和不同的研究社区应该积极探索的问题是 - 该结果的前提是什么,我们可以采取任何步骤来在其他领域创造这些情况吗?

拍摄者深态Unplash

该问题的一个部分答案是,蛋白质结构社区受益于大型开放数据库(蛋白质数据库)以及语言学家马克·利伯曼(Mark Liberman)所说的“常见的任务方法。”

问:什么是常见的任务方法(CTM),为什么对AI/ML如此重要?

在CTM中,竞争对手分享了在具有挑战性的标准化数据集上训练模型的共同任务,目的是获得更好的分数。一指出常见任务通常有四个要素:

  1. 任务是通过清晰的数学解释正式定义的
  2. 易于访问的金色标准数据集以现成的标准化格式公开提供
  3. 为每个任务定义了一个或多个定量指标,以判断成功
  4. 最先进的方法在不断更新的排行榜中排名

计算物理学家和合成生物学家Erika Debenedictis已提出添加第五个组件,即“可以根据需要生成新数据”。埃里卡(Erika),经营施密特期货的竞争,例如2022年生物学挑战,,,,argues that creating extensible living datasets has a few advantages. This approach can detect and help prevent overfitting; active learning can be used to improve performance per new datapoint; and datasets can grow organically to a useful size.

常见的任务方法对于在AI/ML中进步至关重要。正如大卫·多诺霍(David Donoho)所指出的那样50年的数据科学,,,,

问:您为什么认为我们可能对CTM方法进行投资

U.S. agencies have already started to invest in AI for Science. Examples include NSF’s AI Institutes, DARPA’s Accelerated Molecular Discovery, NIH’s Bridge2AI, and DOE’s investments in scientific machine learning. The NeurIPS conference (one of the largest scientific conferences on machine learning and computational neuroscience) now has an entire track devoted to数据集和基准。

但是,有很多原因使我们可能会在这种方法中投资不足。

  1. 这些开放的数据集,基准和竞赛是经济学家所说的“公共物品。”它们使整个领域受益,并且通常不会使创建数据集的团队受益不成比例。此外,CTM需要一定程度的社区买入。没有一个研究人员可以单方面定义社区将用来衡量进度的指标。
  2. 如果研究人员看不到清晰可靠的途径来获得资助,他们就不会花很多时间提出想法。研究人员问自己:“哪些数据集已经存在,或者我可以用500,000美元 - 100万美元的赠款创建哪些数据集?”他们不问这个问题:“哪种数据集 + CTM将对给定的科学或技术挑战产生变革性的影响,而不管创建它所需的资源如何?”如果我们希望更多的研究人员能够产生具体的,高影响力的想法,那么我们就必须使其值得花时间和精力来做到这一点。
  3. 许多关键数据集(例如,在化学等领域)都是专有的,并且是在现代机器学习时代之前设计的。尽管研究人员应该在其赠款应用程序中包括数据管理计划,但这些要求没有执行,但通常不会以有用的方式共享数据,并且数据可能具有可变的质量和可靠性。此外,有时可能不会将大型数据集创建视为学术新颖,无法为研究人员提供高影响力出版物。金博宝更改账户
  4. 创建足够大的数据集可能非常昂贵。例如,专家估计,重新创建蛋白质数据库的成本将为150亿美元!科学机构可能还需要探讨创新在硬件或新技术中可以探讨的作用,可以在降低成本和增加数据的统一性方面发挥作用,例如自动化,大规模并行性,微型化和多重型。一个很好的例子是NIH’s $1,000 Genome project,由杰弗里·施洛斯(Jeffrey Schloss)领导。

问:为什么要利用AI可以在加速科学中扮演的角色的实验团队和计算团队之间的密切合作?

According to Michael Frumkin with Google Accelerated Science, what is even more valuable than a static dataset is a data generation capability, with a good balance of latency, throughput, and flexibility. That’s because researchers may not immediately identify the right “objective function” that will result in a useful model with real-world applications, or the most important problem to solve. This requires iteration between experimental and computational teams.

问:您认为如何实现科学数字化转型的更广泛的机会

我认为有不同的工具和技术可以通过多种方式混合和匹配,这些工具和技术将共同实现科学和工程的数字化转型。一些示例包括:

这些不同的科学和技术构建基础的交汇处有很多机会。例如,使用先验知识有时可以减少训练ML模型所需的数据量。硬件的创新可以降低生成培训数据的时间和成本。ML可以预测可能会产生更多计算中的模拟的答案。因此,毫无疑问,有机会创造一个良性的创新圈。

问:常见任务方法有任何风险吗?

一些研究人员指出与“Sota-Chasing” - 例如一心一意的专注于产生最先进的结果。其中包括减少被认为是合法的研究类型的广度,竞争过多且合作不足,并以“超级人类”的表现水平夸大了AI/ML结果。同样,为增加数据集的规模和实用性做出贡献的研究人员可能与获得最先进结果的研究人员相同。

在公制中,某些因逐步改进而过于主导的领域不得不将狂野和疯狂的想法引入其会议中的独立轨道,以创造一个空间,以提供更具投机性的研究方向。

问:应该优先考虑哪些类型的科学和工程问题?

科学和工程学的数字化转型之一是,它将加快发现和技术进步的速度。这说明在时间本质上的问题中选择问题,包括:

显然,AI和ML可以有所作为,例如ML近似映射输入和输出之间的函数的能力,或降低进行预测的成本。

问:为什么经济政策制定者也应该关心这一点?

长期增长我们的生活水平的主要驱动力之一是生产力(每个工人的产量),而生产力的一种来源是经济学家所说的通用技术(GPTS)。这些技术会对我们的经济和社会产生普遍影响,例如可互换的部分,电网,晶体管和互联网。

从历史上看,在可以实现经济和社会福利之前,GPT需要其他互补的变化(例如,组织的变化,生产过程的变化和工作性质)。这引入电力最终导致制造生产率的大量提高,但直到重组工厂和生产线以利用小型电动机。在培养AI/ML和补充技术在加速科学和技术进步的速度方面发挥的作用也存在类似的挑战:

问:为什么这个领域可以从执行中“解开”想法的创造是有意义的?

传统的资金机制假设有一个想法的个人或团队应该永远是实现这一想法的人。我认为数据集和CTM不一定是这种情况。研究人员可能对数据集有一个绝妙的主意,但可能无法解放数据(如果已经存在),集会社区并筹集创建数据集所需的资金。让研究人员提交和发表他们的想法仍然具有价值,因为他们的建议可能是对更大范围的努力的催化。

代理商可以以最佳想法获得现金奖励白皮书比赛。[白皮书比赛的一个很好的例子是气候盛大的挑战,有很多特征这使其催化。]竞赛可以激励研究人员回答以下问题:

这views and opinions expressed in this blog are the author’s own and do not necessarily reflect the view of Schmidt Futures.