科学的AI：创造一个良性的发现与创新圈

08.22.22 | 9分钟阅读 | 文字凯特·科恩（Kate Kohn）＆Will Rieck

在这次采访中，汤姆·卡利尔（Tom Kalil）讨论了科学机构和研究界使用AI/ML来加速科学发现和技术进步的速度的机会。

问:为什么你认为科学机构和research community should be paying more attention to the intersection between AI/ML and science?

最近，研究人员使用了DeepMind的Alphafold为了预测大约100万种物种的超过1亿种蛋白质的结构，涵盖了地球上几乎所有已知的蛋白质！尽管并非所有这些预测都是准确的，但对于蛋白质结构预测领域来说，这是向前迈出的一大步。

科学机构和不同的研究社区应该积极探索的问题是 - 该结果的前提是什么，我们可以采取任何步骤来在其他领域创造这些情况吗？

拍摄者深态在Unplash

该问题的一个部分答案是，蛋白质结构社区受益于大型开放数据库（蛋白质数据库）以及语言学家马克·利伯曼（Mark Liberman）所说的“常见的任务方法。”

问：什么是常见的任务方法（CTM），为什么对AI/ML如此重要？

在CTM中，竞争对手分享了在具有挑战性的标准化数据集上训练模型的共同任务，目的是获得更好的分数。一纸指出常见任务通常有四个要素：

任务是通过清晰的数学解释正式定义的
易于访问的金色标准数据集以现成的标准化格式公开提供
为每个任务定义了一个或多个定量指标，以判断成功
最先进的方法在不断更新的排行榜中排名

计算物理学家和合成生物学家Erika Debenedictis已提出添加第五个组件，即“可以根据需要生成新数据”。埃里卡（Erika），经营施密特期货的竞争，例如2022年生物学挑战，，，，argues that creating extensible living datasets has a few advantages. This approach can detect and help prevent overfitting; active learning can be used to improve performance per new datapoint; and datasets can grow organically to a useful size.

常见的任务方法对于在AI/ML中进步至关重要。正如大卫·多诺霍（David Donoho）所指出的那样50年的数据科学，，，，

我们现在认为，许多自动过程的最终成功 - Google翻译，智能手机触摸ID，智能手机语音识别 - 来自CTF（常见任务框架）研究范式，或更具体地是在特定领域运行后的累积效果。最重要的是我们的故事：机器学习取得成功的那些领域本质上是系统地应用CTF的那些领域。

问：您为什么认为我们可能对CTM方法进行投资？

U.S. agencies have already started to invest in AI for Science. Examples include NSF’s AI Institutes, DARPA’s Accelerated Molecular Discovery, NIH’s Bridge2AI, and DOE’s investments in scientific machine learning. The NeurIPS conference (one of the largest scientific conferences on machine learning and computational neuroscience) now has an entire track devoted to数据集和基准。

但是，有很多原因使我们可能会在这种方法中投资不足。

这些开放的数据集，基准和竞赛是经济学家所说的“公共物品。”它们使整个领域受益，并且通常不会使创建数据集的团队受益不成比例。此外，CTM需要一定程度的社区买入。没有一个研究人员可以单方面定义社区将用来衡量进度的指标。
如果研究人员看不到清晰可靠的途径来获得资助，他们就不会花很多时间提出想法。研究人员问自己：“哪些数据集已经存在，或者我可以用500,000美元 - 100万美元的赠款创建哪些数据集？”他们不问这个问题：“哪种数据集 + CTM将对给定的科学或技术挑战产生变革性的影响，而不管创建它所需的资源如何？”如果我们希望更多的研究人员能够产生具体的，高影响力的想法，那么我们就必须使其值得花时间和精力来做到这一点。
许多关键数据集（例如，在化学等领域）都是专有的，并且是在现代机器学习时代之前设计的。尽管研究人员应该在其赠款应用程序中包括数据管理计划，但这些要求没有执行，但通常不会以有用的方式共享数据，并且数据可能具有可变的质量和可靠性。此外，有时可能不会将大型数据集创建视为学术新颖，无法为研究人员提供高影响力出版物。金博宝更改账户
创建足够大的数据集可能非常昂贵。例如，专家估计，重新创建蛋白质数据库的成本将为150亿美元！科学机构可能还需要探讨创新在硬件或新技术中可以探讨的作用，可以在降低成本和增加数据的统一性方面发挥作用，例如自动化，大规模并行性，微型化和多重型。一个很好的例子是NIH’s $1,000 Genome project，由杰弗里·施洛斯（Jeffrey Schloss）领导。

问：为什么要利用AI可以在加速科学中扮演的角色的实验团队和计算团队之间的密切合作？

According to Michael Frumkin with Google Accelerated Science, what is even more valuable than a static dataset is a data generation capability, with a good balance of latency, throughput, and flexibility. That’s because researchers may not immediately identify the right “objective function” that will result in a useful model with real-world applications, or the most important problem to solve. This requires iteration between experimental and computational teams.

问：您认为如何实现科学数字化转型的更广泛的机会？

我认为有不同的工具和技术可以通过多种方式混合和匹配，这些工具和技术将共同实现科学和工程的数字化转型。一些示例包括：

Self-driving labs (and eventually, fleets of networked, self-driving labs), where machine learning is not only analyzing the data but informing which experiment to do next.
高通量，低延迟，自动化，可编程且可能遥远的科学设备（例如“云实验室”）。
新颖的测定和传感器。
使用“科学发现游戏”，允许志愿者和公民科学家更准确地标记培训数据。例如，游戏莫扎克训练志愿者协作重建神经元的复杂3D表示。
Advances in algorithms (e.g. progress in areas such as causal inference, interpreting high-dimensional data, inverse design, uncertainty quantification, and multi-objective optimization).
用于编排实验的软件，并打开硬件和软件界面，以允许更复杂的科学工作流程。
集成机器学习，先验知识，建模和仿真以及高级计算。
信息学和知识表示的新方法 - 例如一本可读的科学文献，越来越多的实验可以表示为代码，因此更可复制。
人机组合的方法，可以在人类科学家和自主实验之间进行最佳劳动分裂。
资金机制，组织结构和激励措施使团队科学和社区范围的合作需要实现这种方法的潜力。

这些不同的科学和技术构建基础的交汇处有很多机会。例如，使用先验知识有时可以减少训练ML模型所需的数据量。硬件的创新可以降低生成培训数据的时间和成本。ML可以预测可能会产生更多计算中的模拟的答案。因此，毫无疑问，有机会创造一个良性的创新圈。

问：常见任务方法有任何风险吗？

一些研究人员指出与“Sota-Chasing” - 例如一心一意的专注于产生最先进的结果。其中包括减少被认为是合法的研究类型的广度，竞争过多且合作不足，并以“超级人类”的表现水平夸大了AI/ML结果。同样，为增加数据集的规模和实用性做出贡献的研究人员可能与获得最先进结果的研究人员相同。

在公制中，某些因逐步改进而过于主导的领域不得不将狂野和疯狂的想法引入其会议中的独立轨道，以创造一个空间，以提供更具投机性的研究方向。

问：应该优先考虑哪些类型的科学和工程问题？

科学和工程学的数字化转型之一是，它将加快发现和技术进步的速度。这说明在时间本质上的问题中选择问题，包括：

我们需要开发和制造碳中性和碳阴性技术，我们需要进行电力，运输，建筑物，工业以及食品和农业。目前，发现和制造一种新材料可能需要17 - 20年。如果我们想实现雄心勃勃的2050气候目标，那就太长了。
通过能够更快地设计，开发和评估新的疫苗，疗法和诊断方法来改善我们对未来大流行的反应。
解决对我们国家安全的新威胁，例如工程病原体以及我们与同伴对手的经济和军事竞争的技术维度。

显然，AI和ML可以有所作为，例如ML近似映射输入和输出之间的函数的能力，或降低进行预测的成本。

问：为什么经济政策制定者也应该关心这一点？

长期增长我们的生活水平的主要驱动力之一是生产力（每个工人的产量），而生产力的一种来源是经济学家所说的通用技术（GPTS）。这些技术会对我们的经济和社会产生普遍影响，例如可互换的部分，电网，晶体管和互联网。

从历史上看，在可以实现经济和社会福利之前，GPT需要其他互补的变化（例如，组织的变化，生产过程的变化和工作性质）。这引入电力最终导致制造生产率的大量提高，但直到重组工厂和生产线以利用小型电动机。在培养AI/ML和补充技术在加速科学和技术进步的速度方面发挥的作用也存在类似的挑战：

研究人员和科学资助者需要识别和支持技术基础架构（例如数据集 + CTM，自动驾驶实验室），这些基础架构将向前进或解决一个特别重要的问题。
参与蛋白质结构预测的主要学术研究人员指出使深媒体在蛋白质折叠问题上取得如此多进步的一件事是，“每个人都朝着相同的方向划船”，“ 18个联合第一作者。并集中研究范式……[这]提出了一个问题，即存在哪些其他问题，这些问题已经成熟，可以快速而集中攻击。”因此，利用机会可能需要在资金，组织和激励研究的机制上进行更多的实验，例如专注的研究组织。

问：为什么这个领域可以从执行中“解开”想法的创造是有意义的？

传统的资金机制假设有一个想法的个人或团队应该永远是实现这一想法的人。我认为数据集和CTM不一定是这种情况。研究人员可能对数据集有一个绝妙的主意，但可能无法解放数据（如果已经存在），集会社区并筹集创建数据集所需的资金。让研究人员提交和发表他们的想法仍然具有价值，因为他们的建议可能是对更大范围的努力的催化。

代理商可以以最佳想法获得现金奖励白皮书比赛。[白皮书比赛的一个很好的例子是气候盛大的挑战，有很多特征这使其催化。]竞赛可以激励研究人员回答以下问题：

哪些数据集和共同的任务将对我们回答关键科学问题或在重要用途启发或技术问题上取得进展的能力产生重大影响？在对数据收集进行大规模投资之前，已经完成了什么初步工作或应该做什么？
在某种程度上，行业还发现数据有用，他们是否愿意分享收集数据的成本？他们还可以共享现有数据，包括实验失败的结果。
硬件或实验技术的进步会降低一个或多个数量级生成高价值数据集的时间和成本？
哪些自动驾驶实验室将在给定领域或问题中大大加速进度，为什么？

这views and opinions expressed in this blog are the author’s own and do not necessarily reflect the view of Schmidt Futures.

金博宝更改账户

查看全部金博宝更改账户

技术与创新

博客

筹码和科学资金更新：2023财年综合，20024财年预算都在短短数十亿美元

以下是筹码和科学资金在与联邦预算的战斗中塑造的方式。