正在阅读:

关于AI黑箱的终极答案

扫一扫下载界面新闻APP

关于AI黑箱的终极答案

AI在很多情况下仍然是黑箱,但对黑箱方法的全盘否定可能是草率的。

文|新智元

编辑|肖琴

科幻小说作家道格拉斯·亚当斯(Douglas Adams)设想了有史以来最伟大的计算机——“深思”(Deep Thought),它被编程来回答有史以来最深刻的问题:关于生命、宇宙,以及一切的终极问题。

经过750万年的计算,深思揭示了它的答案:42。

随着AI系统进入人类社会的每一个领域——包括科学、工程和健康——人类也面临着如同亚当斯所设计的同样难题:当不清楚为什么是这个答案时,知道这个答案有什么好处?黑箱(black box)有什么用?

在对物理科学和工程领域的同事进行的一项非正式调查中,绝大多数人表示,他们不使用深度学习等人工智能方法的首要原因是,他们不知道如何解释其结果。这是一个重要的反对意见,其含义从实践到道德到法律都有。科学家的目标和工程师的责任不仅仅在于预测会发生什么,还在于理解为什么会发生。工程师和AI系统都可以学习预测桥梁是否会倒塌。但是只有工程师可以用物理模型来解释他的预测,这个物理模型可以传达给他人,并由他人评估。工程师和AI系统都作出了预测,但你宁愿过谁的桥?

并非只有科学家和工程师对黑箱的答案持怀疑态度。2018年出台的《欧盟通用数据保护条例》(European Union General Data Protection Regulation,简称GDPR)规定,在基于个人数据的自动决策过程中,个人能够获得“涉及逻辑的有意义的信息”。该条例的法律解释仍在辩论之中,但法规中明显存在对无法解释的系统的不信任。

在这种普遍的怀疑氛围中,AI研究人员较少为黑箱系统辩解,而更多地关注理解它们如何做出决策,这一点并不令人惊讶,这被称为可解释性问题(interpretability problem)。事实上,这是当前计算机科学面临的重大挑战之一。但是这种对黑箱方法的全盘否定可能是草率的。事实上,就跟所有普通人一样,科学家和工程师们的许多决定是基于判断和经验做出的,这些都是他们自己“深度学习”的结果。在这种情况下,考虑AI系统生成的黑箱答案是否同样有用似乎是合理的,那么如果是的话,我们应该在什么时候应用它们?

当黑箱有价值时:根据定义,人类无法评估黑箱算法是如何得出特定答案的。然而,当黑箱方法产生了最佳结果时,当错误答案的成本较低时,或者当它们激发了新想法时,它们仍然可以提供价值。

第一个使用黑箱的例子,也是最显然的用例是,当错误答案的代价相对于正确答案的价值更低时。定向广告就是一个典型的例子。从供应商的角度来看,发布一个不受欢迎的广告的成本很小,而一个成功的广告的好处是巨大的。在我自己的材料科学领域,图像分割(对图像中的像素进行分类的任务)通常需要人类在材料的复杂内部结构的图像中手工列出感兴趣的对象。这是一个非常昂贵的过程,以至于博士论文和工业质量控制系统的设计都要求尽可能少地进行图像分割。AI系统可以训练出虽然不完美、但保真度相当高的效果来完成这项工作。然而,要使这个系统有用,并不需要完美,因为与节省研究生的时间相比,略微不完美的像素的成本更低。

第二个关于黑箱的例子同样显而易见,但却更令人担忧。当黑箱产生最佳结果时,可以并且应该使用黑箱。例如,在阅读标准的医学图像时,训练好的AI系统提高了人类放射科医生在检测癌症方面的表现。尽管错误答案(无论是假阴性还是假阳性)的代价可能很高,但黑箱提供了目前可用的最佳解决方案。当然,让AI读乳房X线照片并不存在争议,部分原因是人类医生会检查答案。但让AI驾驶汽车更具争议,因为黑箱必须在没有人为干预的情况下做出生死抉择。也就是说,自动驾驶汽车最终将比人类驾驶的汽车更安全;它们将在交通伤害和死亡方面产生最佳结果。当这个交叉点发生时,可以用适当的客观指标来确定,但是,是否将人类的生死交给AI驾驶程序这一社会选择,将不可避免地涉及基于主观因素的决策,包括如何将人类的伦理、公平和责任等价值观应用于非人类实体。

这些参数不应该被解释为应用黑箱方法的自由许可。上面的两个用例假设了一个理想的黑箱,由能够计算成本并明确定义最佳结果的用户操作。这两种假设都存在陷阱。AI系统可能存在许多缺点,包括偏见、在训练领域之外的不适用性和脆弱性(容易被愚弄)。此外,评估成本和最佳结果是平衡经济、个人、社会和伦理等因素的一项复杂而主观的工作。更糟的是,这些因素可能会叠加在一起:一个有偏见的模型可能会带来隐性成本,包括客观的错误预测和主观衡量的不公平性。一个脆弱的模型可能有盲点,导致非常糟糕的决策。与任何决策系统一样,黑箱必须与知识、判断和责任一起使用。

尽管AI的思维过程可能是有局限的、有偏见的或完全错误的,但它们与人类思维过程的不同之处在于,它们可以揭示新的联系和方法。这就引出了黑箱系统的第三个用例:作为激发和引导人类探究的工具。例如,在一项突破性的医学成像研究中,科学家训练了一个深度学习系统,通过视网膜图像诊断糖尿病视网膜病变(一种影响眼睛的糖尿病并发症)。它们的表现达到甚至超过了眼科专家。更令人惊讶的是,该系统可以准确地识别出许多其他特征,包括心脏病的危险因素、年龄和性别,而这些特征通常不通过视网膜图像进行评估。之前没有人注意到人类视网膜的性别差异,因此黑箱的观察激发了研究人员研究男性和女性视网膜的差异以及原因。对这些问题的研究将他们从黑箱中拉了出来,转而采用可解释的人工智能和人类智能。

这让我们回到了“深思”电脑的答案。我们不能使用黑箱人工智能来寻找因果关系、系统化或理解。黑箱无法告诉我们一座桥是如何倒塌的,它为什么会倒塌,以及生命、宇宙以及一切的终极问题是什么。至少就目前而言,这些问题仍然是人类智能和可解释AI广阔且不断发展的领域的研究范围。然而,与此同时,按黑箱本身的条件接受它是值得的。黑箱方法可以为科学、技术、工程和数学做出实质性、富有成效的贡献,以提供价值、优化结果和激发灵感。

来源:Science,作者:Elizabeth A. Holm 

本文为转载内容,授权事宜请联系原著作权人。

评论

暂无评论哦,快来评价一下吧!

下载界面新闻

微信公众号

微博

关于AI黑箱的终极答案

AI在很多情况下仍然是黑箱,但对黑箱方法的全盘否定可能是草率的。

文|新智元

编辑|肖琴

科幻小说作家道格拉斯·亚当斯(Douglas Adams)设想了有史以来最伟大的计算机——“深思”(Deep Thought),它被编程来回答有史以来最深刻的问题:关于生命、宇宙,以及一切的终极问题。

经过750万年的计算,深思揭示了它的答案:42。

随着AI系统进入人类社会的每一个领域——包括科学、工程和健康——人类也面临着如同亚当斯所设计的同样难题:当不清楚为什么是这个答案时,知道这个答案有什么好处?黑箱(black box)有什么用?

在对物理科学和工程领域的同事进行的一项非正式调查中,绝大多数人表示,他们不使用深度学习等人工智能方法的首要原因是,他们不知道如何解释其结果。这是一个重要的反对意见,其含义从实践到道德到法律都有。科学家的目标和工程师的责任不仅仅在于预测会发生什么,还在于理解为什么会发生。工程师和AI系统都可以学习预测桥梁是否会倒塌。但是只有工程师可以用物理模型来解释他的预测,这个物理模型可以传达给他人,并由他人评估。工程师和AI系统都作出了预测,但你宁愿过谁的桥?

并非只有科学家和工程师对黑箱的答案持怀疑态度。2018年出台的《欧盟通用数据保护条例》(European Union General Data Protection Regulation,简称GDPR)规定,在基于个人数据的自动决策过程中,个人能够获得“涉及逻辑的有意义的信息”。该条例的法律解释仍在辩论之中,但法规中明显存在对无法解释的系统的不信任。

在这种普遍的怀疑氛围中,AI研究人员较少为黑箱系统辩解,而更多地关注理解它们如何做出决策,这一点并不令人惊讶,这被称为可解释性问题(interpretability problem)。事实上,这是当前计算机科学面临的重大挑战之一。但是这种对黑箱方法的全盘否定可能是草率的。事实上,就跟所有普通人一样,科学家和工程师们的许多决定是基于判断和经验做出的,这些都是他们自己“深度学习”的结果。在这种情况下,考虑AI系统生成的黑箱答案是否同样有用似乎是合理的,那么如果是的话,我们应该在什么时候应用它们?

当黑箱有价值时:根据定义,人类无法评估黑箱算法是如何得出特定答案的。然而,当黑箱方法产生了最佳结果时,当错误答案的成本较低时,或者当它们激发了新想法时,它们仍然可以提供价值。

第一个使用黑箱的例子,也是最显然的用例是,当错误答案的代价相对于正确答案的价值更低时。定向广告就是一个典型的例子。从供应商的角度来看,发布一个不受欢迎的广告的成本很小,而一个成功的广告的好处是巨大的。在我自己的材料科学领域,图像分割(对图像中的像素进行分类的任务)通常需要人类在材料的复杂内部结构的图像中手工列出感兴趣的对象。这是一个非常昂贵的过程,以至于博士论文和工业质量控制系统的设计都要求尽可能少地进行图像分割。AI系统可以训练出虽然不完美、但保真度相当高的效果来完成这项工作。然而,要使这个系统有用,并不需要完美,因为与节省研究生的时间相比,略微不完美的像素的成本更低。

第二个关于黑箱的例子同样显而易见,但却更令人担忧。当黑箱产生最佳结果时,可以并且应该使用黑箱。例如,在阅读标准的医学图像时,训练好的AI系统提高了人类放射科医生在检测癌症方面的表现。尽管错误答案(无论是假阴性还是假阳性)的代价可能很高,但黑箱提供了目前可用的最佳解决方案。当然,让AI读乳房X线照片并不存在争议,部分原因是人类医生会检查答案。但让AI驾驶汽车更具争议,因为黑箱必须在没有人为干预的情况下做出生死抉择。也就是说,自动驾驶汽车最终将比人类驾驶的汽车更安全;它们将在交通伤害和死亡方面产生最佳结果。当这个交叉点发生时,可以用适当的客观指标来确定,但是,是否将人类的生死交给AI驾驶程序这一社会选择,将不可避免地涉及基于主观因素的决策,包括如何将人类的伦理、公平和责任等价值观应用于非人类实体。

这些参数不应该被解释为应用黑箱方法的自由许可。上面的两个用例假设了一个理想的黑箱,由能够计算成本并明确定义最佳结果的用户操作。这两种假设都存在陷阱。AI系统可能存在许多缺点,包括偏见、在训练领域之外的不适用性和脆弱性(容易被愚弄)。此外,评估成本和最佳结果是平衡经济、个人、社会和伦理等因素的一项复杂而主观的工作。更糟的是,这些因素可能会叠加在一起:一个有偏见的模型可能会带来隐性成本,包括客观的错误预测和主观衡量的不公平性。一个脆弱的模型可能有盲点,导致非常糟糕的决策。与任何决策系统一样,黑箱必须与知识、判断和责任一起使用。

尽管AI的思维过程可能是有局限的、有偏见的或完全错误的,但它们与人类思维过程的不同之处在于,它们可以揭示新的联系和方法。这就引出了黑箱系统的第三个用例:作为激发和引导人类探究的工具。例如,在一项突破性的医学成像研究中,科学家训练了一个深度学习系统,通过视网膜图像诊断糖尿病视网膜病变(一种影响眼睛的糖尿病并发症)。它们的表现达到甚至超过了眼科专家。更令人惊讶的是,该系统可以准确地识别出许多其他特征,包括心脏病的危险因素、年龄和性别,而这些特征通常不通过视网膜图像进行评估。之前没有人注意到人类视网膜的性别差异,因此黑箱的观察激发了研究人员研究男性和女性视网膜的差异以及原因。对这些问题的研究将他们从黑箱中拉了出来,转而采用可解释的人工智能和人类智能。

这让我们回到了“深思”电脑的答案。我们不能使用黑箱人工智能来寻找因果关系、系统化或理解。黑箱无法告诉我们一座桥是如何倒塌的,它为什么会倒塌,以及生命、宇宙以及一切的终极问题是什么。至少就目前而言,这些问题仍然是人类智能和可解释AI广阔且不断发展的领域的研究范围。然而,与此同时,按黑箱本身的条件接受它是值得的。黑箱方法可以为科学、技术、工程和数学做出实质性、富有成效的贡献,以提供价值、优化结果和激发灵感。

来源:Science,作者:Elizabeth A. Holm 

本文为转载内容,授权事宜请联系原著作权人。