[译文]实用性 vs 理解力：进入 2022 年的机器学习领域

原文标题：Utility vs Understanding: the State of Machine Learning Entering 2022
原文作者：Aidan Cooper

机器学习在某些领域中的经验实用性已经远远超出了我们对基础理论的理解：这些模型不合理地非常有效，但我们并不完全确定原因。相反，在其他相对容易理解的研究领域中难以实现或者在实践中的适用性有限。本文试图就机器学习的实用性和理解力绘制不同角度的图，并探讨科学和技术进步如何在这一框架内体现。

构建这个矩阵是一项非常主观的尝试，它将多方面的字段减少为一维尺度上未定义的单个值，它们本身由多个因素组成。这个矩阵仅代表我个人的观点——一个仅根据一般特征粗略评估的领域。我承认这不精确，无视了细微差别，而且我也不是这些技术中大多数的专家。
本文主要旨在讨论经验效用和理论理解之间的对比，以及它们与科学或者技术进步的关系。在矩阵中精确定位研究领域并不是目标。

我所说的经验效用是指一种综合衡量方法，它考虑了一种方法的适用性广度、实施的难易程度，最重要的是：它在现实世界中的有用程度。一些具有高实用性的方法具有更广泛的适用性，而另一些则更强大，但仅限于狭窄的领域。可靠、可预测且没有重大缺陷的方法也被认为具有更高的效用。

我所说的理论理解是指一种综合衡量方法（比如，输入和输出之间的关系如何？如何可以获得预期的结果？这种技术的内部机制是什么？），它考虑了直观可解释性（interpretability）和理论可解释性（explainability），以及其文献的深度和完整性。¹理解程度低的方法通常在实施时采用启发式方法或大量试错。理解程度高的方法往往具有公式化的实现，具有强大的理论基础和可预测的结果。更简单的方法（例如线性回归）具有较低的理论上限，而更复杂的方法（例如深度学习）具有更高的理论上限。当谈到一个领域的文献的深度和完整性时，我已经更具其假设的理论上限来评估该领域——一个来自直觉的想象值。

我们可以将矩阵构造为四个象限，轴的交点代表一个假设的、半成熟的参考领域，具有平均理解和平均效用。这让我们能够以定性的方式解释矩阵中的领域，具体取决于领域所在的象限，如下图所示。给定象限中的领域可能具有部分或全部这些普遍特征。

一般来说，我们期待效用和理解是松散相关的，因为被很好理解的东西比那些不被理解的东西可能更有用。这意味着大多数领域应位于左下象限或右上象限。远离对角线的领域代表着有趣的例外。通常，实用性落后于理论，因为将新兴的研究转化为实际应用需要时间。因此，对角线应该位于原点上方，而不是直接穿过它。

机器学习领域分布图 The distribution of Machine Learning fields

2022 年的机器学习领域

并非所有的领域都完全包含在机器学习（ML）中，但它们都可以应用在机器学习的上下文中或与之密切相关。许多评估的领域重叠并且无法清晰地描述：强化学习、联邦学习和图学习等高级机器学习方法通常基于深度学习。在这些情况下，我考虑了与它们的理论和实用性的非深度学习方面相关的领域。

右上象限：高理解，高效用

线性回归是一种简单、易于理解且高效的技术的典型示例。它是被低估的、默默无闻的英雄，经常被时尚同行所忽视。它的使用广度和透彻的理论基础不仅将其置于右上角，而且将其固定在右上角。

传统（非深度）机器学习已经成熟为一个具有高度理解性和实用性的领域。复杂的机器学习算法，例如梯度决策树，已证明自己在非平凡的预测任务中通常优于线性回归。大数据问题无疑就是这种情况。可以说，对过度参数化模型的理论理解仍然存在漏洞，但实施机器学习是一个精炼的方法论过程，并且模型可以在行业环境中可靠地操作（如果做得好）。然而，额外的复杂性和灵活性确实会导致错误的实现，这就是为什么我将机器学习放在线性回归的左侧。一般来说，有监督的机器学习会比无监督的机器学习更精细，影响更大，但两种方法都有效地解决了不同的问题空间。

贝叶斯方法有一群狂热的从业者，他们宣扬它优于更流行的经典统计方法。在某些情况下，贝叶斯模型特别有用：当仅有点估计不够时，不确定性的估计就显得很重要；当数据有限或高度缺失时；并且当您了解要在模型中明确包含的数据生成过程时。贝叶斯模型的实用性受到了以下事实的限制：对于许多问题，点估计已经足够好，人们只是默认使用非贝叶斯方法。更重要的是，有一些方法可以量化传统机器学习的不确定性（它们只是很少被使用）。通常，将机器学习算法简单地应用于数据会更容易，而不必考虑数据生成机制和先验。贝叶斯模型在计算上也很昂贵，如果理论进步产生更好的采样和逼近方法，它会具有更高的效用。

右下象限：低理解，高效用

与大多数领域的进展相反，深度学习取得了一些惊人的成功，尽管理论方面被证明从根本上难以取得进展。深度学习体现了一种鲜为人知的方法的许多特征：模型不稳定、难以可靠地构建、基于弱启发式进行配置以及产生不可预测的结果。像随机种子之类的可疑调参方法非常普遍，而且工作模型的内部机制也很难解释。然而，深度学习继续推进并在计算机视觉和自然语言处理等领域达到了超人的水平，开辟了一个充满其他难以完成的任务的世界，如自动驾驶。

假设，通用人工智能将占据右下角，因为根据定义，超级智能超出了人类的理解范围，可以用于解决任何问题。目前，它仅作为思想实验包含在内。

理论理解力 vs 经验实用性 understanding vs utility

图1. 每个象限的定性描述。领域可以通过其对应区域的部分或全部描述来描述。

左上象限：高理解，低效用

大多数的因果推断不是机器学习，但有时是，并且总是对预测模型感兴趣。因果关系可以分为随机对照实验（RCT）和更复杂的因果推理方法，后者试图从观察数据中衡量因果效应。RCT 在理论上很简单并给出严格的结果，但在现实世界中进行通常既昂贵又不切实际——如果不是不可能的话——因此效用有限。因果推理方法本质上是模拟随机对照实验，而无需做任何事情，这使得它们执行起来不那么令人望而却步，但有许多限制和陷阱可能使结果无效。总体而言，因果关系仍然是一个令人沮丧的追求，其中当前的方法通常不能满足我们想要问的问题，除非这些问题可以通过随机对照实验进行探索，或者它们恰好适合某些框架（例如，作为“自然实验”的偶然结果）。

联邦学习（FL）是一个很酷的概念，但却很少受到关注——可能是因为它最引人注目的应用程序需要分发到大量智能手机设备，因此联邦学习只有两个参与者才能真正研究：Apple 和 Google。联邦学习还存在其他用例，例如汇集专有数据集，但协调这些倡议存在政治和物流挑战，限制了它们在实践中的效用。尽管如此，对于听起来像是一个奇特的概念（大致概括为：“将模型引入数据，而不是将数据引入模型”），联邦学习是有效的，并且在键盘文本预测和个性化新闻推荐等领域有切实的成功案例。联邦学习背后的基本理论和技术似乎具有足够的鲁棒性，以让联邦学习得到更广泛的应用。

强化学习（RL）在国际象棋、围棋、扑克和 Dota 2 等游戏中达到了前所未有的能力水平。但在视频游戏和模拟环境之外，强化学习还没有令人信服地转化为现实世界的应用程序。机器人技术本应成为强化学习的下一个前沿领域，但这并没有实现——现实似乎比高度受限的玩具环境更具挑战性。也就是说，到目前为止，强化学习的成就是鼓舞人心的，真正喜欢国际象棋的人可能会认为它的效用应该更高。我期待看到强化学习在被置于矩阵右侧之前实现一些潜在的实际应用。

左下象限：低理解，低效用

图神经网络（GNNs）是目前机器学习的一个非常热门的领域，在多个领域都取得了可喜的成果。但对于其中许多示例，尚不清楚图神经网络是否比使用更传统的结构化数据与深度学习架构组合的替代方法更好。数据本身是图结构的问题，例如化学信息学中的分子似乎具有更引人注目的图神经网络结果（尽管这些通常不如非图相关的方法）。与大多数领域相比，用于大规模训练图神经网络的开源工具与工业中使用的内部工具之间似乎存在很大差异，这限制了大型图神经网络在这些有围墙的花园之外的可行性。该领域的复杂性和广度表明理论上限很高，因此图神经网络应该有成熟的空间并令人信服地证明某些任务的优势，这将带来更大的实用性。图神经网络也可以从技术进步中获益，因为图目前还不能自然地适用于现有的计算硬件。

直观可解释的机器学习（Interpretable machine learning，IML）是一个重要且有前途的领域，并且持续受到关注。SHAP 和 LIME 等技术已经成为真正可用的工具来处理机器学习模型。由于有限的采用，现有方法的效用尚未完全实现——尚未建立健全的最佳实践和实施指南。然而，直观可解释的机器学习目前的主要弱点是它没有解决我们真正感兴趣的因果问题。直观可解释的机器学习解释了模型如何进行预测，但没有解释数据背后隐含的因果关系（尽管经常被错误地解释）。在取得重大理论进展之前，直观可解释的机器学习的合法用途大多仅限于模型调试或监控和假设生成。

量子机器学习（Quantum machine learning，QML）远远超出了我的知识，但目前似乎是一种假设性的尝试，耐心地等待着可行的量子计算机变成可用。在那之前，量子机器学习先暂时默默地置于左下角。

渐进式进展、技术飞跃和范式转变

领域可以通过三种主要机制来遍历理论理解与经验效用矩阵（图2）。

渐进式进展是缓慢而稳定的进展，它在矩阵的右侧向上移动。过去几十年的有监督机器学习就是一个很好的例子，在此期间，越来越有效的预测算法得到改进和采用，为我们提供了很强大的工具箱。²渐进式进展是所有成熟领域的现状，除非由于技术飞跃和范式转变才会经历了更强烈的变化。

领域发展机制 The steps of development

图2. 领域可以遍历矩阵的方式的说明性示例。

由于技术的飞跃，一些领域看到了科学进步的阶梯式变化。深度学习领域并没有因其理论基础而解锁，这些理论基础是在 2010 年代深度学习热潮之前 20 多年发现的——它是由消费级 GPU 支持的并行处理推动了它的复兴。技术飞跃通常表现为沿经验效用轴向右跳跃。然而，并非所有以技术为主导的进步都是飞跃。今天的深度学习的特点是通过使用更多的计算能力和越来越专业的硬件训练越来越大的模型来实现跃进式进步。

在这个框架内科学进步的最终机制是范式转变。正如托马斯·库恩（Thomas Kuhn）在他的著作《科学革命的结构》中所指出的，范式转变代表了科学学科的基本概念和实验实践的重要变化。Donald Rubin 和 Judea Pearl 开创的因果框架就是这样的一个例子，它将因果关系领域从随机对照实验和传统的统计分析提升为因果推理形式的更强大的数学化学科。范式转变通常表现为理解的向上运动，这可能会跟随或伴随着效用的增加。

但是，范式转变可以在任何方向上遍历矩阵。当神经网络（以及随后的深度神经网络）将自己确立为传统机器学习的独立范式时，这最初对应着实用性和理解力的下降。许多新兴领域以这种方式从更成熟的研究领域分化出来。

预测和深度学习的科学革命

总而言之，以下是我认为未来可能发生的一些推测性预测（表1）。右上象限中的领域被省略，因为它们太成熟而看不到重大进展。

表1. 机器学习的特定领域未来可能会或可能不会取得进展的预测。

未来可能的发展方向 Possible development in future

然而，比个别领域将如何发展更重要的观察是经验主义的总体趋势，以及越来越愿意承认全面的理论理解。

从历史上看，理论（假设）先出现，然后再制定想法。深度学习引领了一个新的科学过程，颠覆了这一点。在人们关注理论之前，方法有望展示最先进的性能。实证结果为王，理论是可选的。

这导致了机器学习研究中系统的广泛博弈，通过简单地修改现有方法并依靠随机性来超越基线，而不是有意义地推进该领域的理论，从而获得最新成果。但也许这就是我们为新一波机器学习的繁荣所付出的代价。

深度学习的潜在进展 Possible development of Deep Learning

图3. 2022 年深度学习三种潜在的进展。

2022 年可能被证明是“深度学习是否不可逆转地采用这种以结果为导向的新过程并将理论理解降级为可选”的转折点。这些是我们应该思考的问题（图 3）：

理论突破能否让我们的理解赶上实用性，并将深度学习转变为像传统机器学习一样更有条理的学科？
现有的深度学习文献是否足以让效用无限增长，仅仅通过扩展越来越大的模型？
或者，一个经验性的突破会带领我们进一步深入兔子洞，进入一种增强效用的新范式，尽管我们对这种范式理解得更少？
这些路线中的任何一条都会导致通用人工智能吗？

只有时间会给出答案。

笔者感想

这篇文章从实用性和理解力两个角度描述了机器学习中的各个分支，并对它们进行了宏观上的把握，还给出了一些未来可能的进展预测，内容十分丰富精彩。诚如原文作者所言，计算机硬件 GPU 和智能设备 AI 芯片的进步给深度学习带来了一种新的前进思路，即先实现高效用再慢慢提升理论理解。可能对于某些只要求结果的领域，比如人脸识别、游戏、自然语言处理等，这种思路完全没有什么问题。但是对于一些基础领域，比如物理化学、生物、材料等，并不能一味地只追求结果，还是需要在理论理解上稳扎稳打，才能完善和推动基础学科领域的发展。

另外对文中有些内容个人存在不同的看法。

联邦学习的适用和研究领域

联邦学习的本质是保护隐私，即在不能完全窥探数据全貌的情况下进行多数据源的交叉融合学习。联邦学习可以在分布式的智能设备上独立运行并汇集数据，也可以在不同的分布式服务器集群间汇集数据。这在银行的机器学习实践中应用较多，香港科技大学的杨强教授（微众银行首席人工智能官）就曾主持过很多这类的研究。

可解释性的两个英语单词

脚注中有原文作者所注的说明，但本人对此持怀疑态度。interpretability 和 explainability 这两个单词从翻译上来看中文意义完全一样，这也导致大家觉得两者没有差别。但是从两个单词的词根来看，interpret 这个解释是指表面上地、直观地解释某样东西，而 explain 这个解释是在有一定的背景知识等前提条件下理论上解释某样东西。简而言之，前者突出解释的直观性，后者更突出解释的前提和逻辑。

举个例子，有一个二次函数 \(y=ax^2+bx+c\)。如果给出这个二次函数对应的图，我们就能很容易地看出这个二次函数是否有最大值或者最小值，且具体的最大值或最小值为多少。这种可解释性就是 interpretability。当我们只知道二次函数的数学表达形式时，如果我们知道二次函数的对称轴和最值的固定公式，我们能够通过代入 \(a、b、c\) 的值计算出来结果。这种可解释性就是 explainability。

由于本文是对英文博文的译文，本人对文章内容不享有版权。如有版权争议，可联系撤下本文。
As this article is a translation of an English blog post, I do not have the copyright of the content in this article. If there is a copyright dispute, please contact me to withdraw this article.

脚注（来自原文）

机器学习中的术语“直观可解释性”（interpretability）和“理论可解释性”（explainability）没有统一的定义，许多研究人员互换使用它们。 ↩
例如随机森林算法的出现不会增加对之前的支持向量机算法的理解或实用性，但它确实推进了有监督机器学习的总体领域。 ↩

（采用 CC BY-NC-SA 4.0 许可协议进行授权）

本文标题：《 [译文]实用性 vs 理解力：进入 2022 年的机器学习领域》

本文链接：https://lisz.me/ac/ml/utility-vs-understanding.html

本文最后一次更新为天前，文章中的某些内容可能已过时！