DIKW金字塔，AI爬到第几层了？|界面新闻

文｜脑极体

你可能没听说过DIKW金字塔，但你一定曾被按在这座塔的鄙视链上摩擦过。

曾有某个游戏主播形容自己的预判：观众只看到了第二层，想到了第一层，实际上我在第五层。于是，网友们形容一些让人意想不到的操作，“这波啊，这波是在大气层”。

这种说法虽然有些戏谑，但还真有点科学道理。

DIKW金字塔，是一个关于人类理解、推理和解释的层次结构，分别是：数据（原始的事实集合）、信息（可被分析测量的结构化数据）、知识（需要洞察力和理解力进行学习）、智慧（指导行动）。

站在DIKW金字塔尖的人，相当于全部通关的顶级选手，掌握了数据、整理成信息、理解为知识、转化成智慧，才能让行动如有神助。足智多谋如诸葛亮，锦囊妙计用的那叫一个信手拈来，绝对是“站在大气层的男人”。

DIKW金字塔适用于人，也适用于AI吗？答案是肯定的。

如果AI也有鄙视链，那么基于数据的AI，一定会被基于知识的AI碾压。

这是因为，AI Is A Knowledge Technology，AI就是一种由知识驱动的技术。因此，从初级人工智能向高级人工智能、通用人工智能发展的过程，也是一个攀爬DIKW金字塔的过程。

近年来，AI领域的诸多学术力量、产业力量，从强调“数据出奇迹”的蛮力计算，向着“知识金字塔”的更高层级进发，推动知识计算引领AI应用的未来潮流。

可以说，我们正处于一个向基于知识的AI过渡的关键阶段。AI已经影响着你我生活的方方面面，所以有必要来聊一聊，AI沿着DIKW金字塔向上攀爬，将会带来怎样的变化？

回归的钟摆：理性主义的复兴

将知识运用在机器智能当中，并不是什么新鲜事。早在上个世纪，人类就开始了探索知识计算的步伐，并广泛应用到工作和生活当中。

AI诞生的那一刻起，就是理性主义和经验主义两大流派的交相辉映、此消彼长。它们的共同之处，都认为机器智能首先要拥有知识，知识是智能的核心；分歧在于，对于知识的理解和获取途径不同。

而伴随着这两大流派的发展，知识与AI的结合，也就表现为两种方式。

一种是理性主义的结合，人提供知识，机器负责计算。

理性主义认为人的智能是先天遗传的，要实现机器智能，就要理解人脑的运行机制，将这个东西总结成知识，再由人来告诉机器怎么做。

典型应用就是专家系统。

人类专家总结出知识，计算机根据专家系统知识库进行学习，这种方式可解释性非常高。从1968年世界上第一个专家系统——化学专家系统DENDRAL研制成功之后，针对某个单一领域、模仿专家进行推理分析的早期专家系统开始流行起来，广泛应用于工农业、医疗、气象、交通、军事等众多产业计算场景之中。

不过，专家机只能在一些特定领域发挥作用，建构成本非常高。并且，受限于专家的认知上限，如果人都没有找到那个知识，或者表述不出来的话，机器就更不可能学会了。

于是从九十年代到现在，另一种AI与知识的结合模式就占据了主流，那就是经验主义。

由人手工打造一个分类器，开发人员不必提前知道答案，机器可以不依赖那些人类专家描述不出来、“只可意会不可言传”的知识，按照自己的运作机制，从数据中来挖掘知识，通过大规模数据训练出模型参数，表现出超过人类的智能。

最具代表性的就是深度学习。

依靠强大的数据、算力和神经网络，谷歌大脑可以不需要人类的帮助，在不知道“猫”这个词的前提下，通过训练将数据转化为知识，看过数百万张图片后，自己提炼出猫的基本特性，知道猫是一种毛茸茸的（此处省略一堆形容词）生物，然后成功在一堆照片中识别出猫。

基于庞大的数据，AI虽然并不真正理解和掌握相关知识，也就是“知其然不知其所以然”，不可能真的取代人类专家，但可以将复杂的模式识别问题分解成更简单的模式识别问题，在一些特定任务中表现得比人类更好、效率更高，取得了长足的发展。深度学习也被视为经验主义的高峰，成为推动第三次AI浪潮的核心。

但是，基于数据的AI，和基于知识的AI，还是有本质区别的。著名的莫拉维克悖论，早就指出过这个问题，因为机器无法像人一样将隐性知识融入思想和行动之中，形成高阶智慧，所以成了逻辑的巨人、常识的矮子，在一些困难的问题如下围棋上能超越人类，但在很简单的认知问题上，表现反而不如四五岁的人类小孩儿。

而解决思路之一，就是理性主义所推崇的，让机器能够如同真正的人类一样理解知识并进行思考。

就像丘吉在《钟摆摆得太远》(A Pendulum Swung Too Far)所预测的那样，AI已经偏离经验主义太远，将来回归理性主义的速度就会越快，理性主义复兴的步伐正在到来。

产业的呼唤：数智化浪潮与知识之光

或许你会认为，经验主义和理性主义，只是学术界的流派之争，跟普通人和工业界没什么关系。

实际上，在产业智能化的浪潮中，有越来越多的行业和组织，开始呼唤基于知识的AI，这是因为——

模型设计阶段，需要基于知识的理解。

我们知道，AI已经开始走出实验室和象牙塔，走向千行百业，开始与物理世界和生物世界结合，而这些领域的数据并不是全部由1和0所构成。

比如AI预测蛋白质结构，每个蛋白质都不是一个简单的图像数据，它的背后是有具体意义的。不同的分子关系如何、怎样相互作用、靠什么原理组合在一起等，有一整套生物学逻辑和知识体系支撑的，如果缺乏对药学知识的了解，用纯数据驱动的方法来设计模型，很可能做出来的模型无法发挥效用。

因此，想要AI模型真正能够在产业端发挥价值，要结合实际工作的机理模型、专家知识等，转化为AI可理解、可处理、可分析的数学语言。

模型训练阶段，需要基于知识的数据。

在产业AI中，数据中往往存在大量的信息，也就是没有或无法被表征的知识，往往体现为专家经验或师徒传承。想要训练出效果更好的产业模型，不仅需要大量、完备的数据，还要能够精准描述出数据之间的知识关系，这样才能够从数据中挖掘出更多有用的知识。

就拿我们日常都会碰到的推荐算法来说，传统的推荐算法是用户喜欢什么就推荐什么，很容易陷入信息茧房。而国内某科研团队，将食品营养科学的知识图谱与推荐算法相结合，根据用户反馈数据，比如点击量、兴趣偏好、身体数据等等，结合健康知识来进行组合搭配与推荐。

基于知识的数据，能够帮助打造高质量、更懂人性的算法。就拿前面提到的推荐系统来说，相比不断迎合用户的算法，提供了一种既满足口味喜好、又符合健康管理要求的选择。再设想一下，如果AI能够将外卖配送员的行为数据与人的常识性知识结合到一起，或许无限挤压配送时间导致的内卷困境，也有望被解决了。

模型落地阶段，需要基于知识的信任。

AI模型落地应用，在很大程度上取决于其可靠性：一是可信度，结果是否被人所信任，深度学习受限于可解释性问题，在医疗等专精领域不如人类专家被信任；二是可靠性，能否在被干扰的情况下也能表现出较好的性能，也就是解决鲁棒性问题。

中科院院士、清华大学人工智能研究院院长张钹教授曾提出，在产业落地应用的人工智能，需要符合五个条件：丰富数据或知识、完全信息、确定性信息、静态环境、特定领域或单一任务。这五个条件只要有一个不满足，AI产业化落地都非常困难。

而改变困境的思路之一，就是知识计算，让AI系统能够读懂知识、学会常识推理，从而让模型变得可信任、高可靠。

此前，谷歌为了提高搜索引擎结果的可信度和说服力，就将NLP与知识图谱相结合来进行学习。如果搜索者发现一些文章提到“XX曾在中国工作过”的信息，这些信息与知识库融合在一起，显示出XX曾为对华贸易委员会工作，而该组织在北京设有办事处，那么“XX曾在中国工作过”的可信度就会大大提高。

同样，如果自动驾驶系统从大规模文本信息中提取并学习到一些出行常识，比如“大卡车挡住了前方的视线，应该小心一点，说不定突然过来一个人就可能撞到”，对常识性知识的理解无疑会大大增加人们对自动驾驶安全性的信心。

模型应用阶段，需要基于知识的计算。

当前产业智能化的一大瓶颈是高成本的算力。庞大的深度神经网络系统需要大量计算资源来处理复杂任务。一份来自马萨诸塞大学的研究显示，常见的几种大型 AI 模型，训练过程会排放超过 626000 磅二氧化碳，几乎是普通汽车寿命周期排放量的五倍。

拉踩一下，人类在思考（也是一种知识计算）时就十分节省能耗，心理学家卡尼曼在《思考，快与慢》中就提出，人脑既可以通过系统2进行较慢的理性思考，也可以经由系统1，基于已经内化的知识，实现无意识的、近似于肌肉记忆的快速运算，大脑能量消耗极少。

未来，打造基于知识的AI模型，如同激活脑区一样，将成为绿色计算的重要方法，保证产业智能的可持续发展。

不难发现，行业知识与AI计算的结合，既是理论上技术发展的必然阶段，也是事实上产业AI化所不可或缺的一步。

作为一种致用技术，AI只有真正接纳并融合行业知识，让计算与知识转变成新时代的生产力，才能凝结出技术的长期价值，推动第三次人工智能浪潮继续向前奔涌。

艰难的攀爬：从数据层到知识层总共分几步？

抛开应用条件谈技术前景的都是“画饼”，基于知识的AI同样少不了前提条件。需要具备至少几个特征：

1. 知识表征的准确性。

要让AI理解并利用知识来解决复杂的现实问题，首先需要将这些内容转化为数学语言，变成AI可解的数据化路径。

不过，一个AI系统中需要被表示的知识类型有很多，想要全面且准确地表示出来并不容易。

其中，既有容易被表征的陈述性知识，如何做某事的程序性知识；也有不易被描述出来的知识，像是基于某个领域的专家经验所总结的启发性知识，就未必全是正确的；以及表示概念关系的结构知识，比如分子和分子的相互作用，目前人类了解得还不够全面。

知识表征的准确性，将直接影响到机器是否能像人类一样智能。

2.知识推理的多样性。

推理能力是人类与其他物种最大的不同，尤其是创造性思维。而知识计算的核心能力正是推理能力，根据现有的表征结构产生相对应的新知识，为产业侧提供创造性见解。

完全可以想象这样一个场景：建立一个庞大的知识库，储存着人类完成各种任务所需要的知识， AI不再需要对每一个特定场景、特定数据集进行专门训练，可以像一个真正的聪慧人类一样，触类旁通、举一反三，轻松地完成推理分析，应对现实世界中各种各样的复杂任务。

3. 知识获取的自动化。

建立常识库并不是件容易的事，也被叫做“AI 的曼哈顿工程”。尤其是信息爆炸带来的海量数据，需要机器接管将信息转化为知识的工作，要提高知识获取的效率，自动化成为必须啃下的一块硬骨头。

使用自动化方法来获取新知识，能够加快AI知识系统迭代，实现模型的自动更新，缩短构建行业知识图谱的时间。

4. 知识应用的高效率。

不同行业的知识沉淀、应用、管理方式千差万别，让企业自己去搭建一套个性化工具并不现实。因此，知识计算想要落地行业，还需要一系列标准化工具，提供知识搜索、高性能查询、可视化分析等功能，提高对知识的挖掘效率。

作为一个新崛起的技术方向，需要有前瞻眼光的平台化科技企业与组织来做好基础设施建设，并将能力接口向各行各业企开放。

数据和信息描述世界，知识和智慧理解世界。从这个角度说，AI在DIKW金字塔上的层次越高，能力就越强，距离强人工智能也就越近。这条攀爬之路并不好走，却是AI产业化和产业AI化的必经之路。

最后的最后，当AI登上金字塔尖的那一刻，获得真正的智慧，届时我们已经不能确定，AI会不会是地球上最聪明的物体了。或者说，人类还在智慧的最高层吗？

正如艾略特在诗中所写的：“我们在哪里丢失了知识中的智慧？又在哪里丢失了信息中的知识？”（Where is the wisdom we have lost in knowledge？/ Where is the knowledge we have lost in information？）

曾几何时，智慧是人类所特有的东西，是人作为万物之灵长的代表。很多人正在数字时代，越来越少地掌握知识、主动思考，越来越多地沉浸于支离破碎的数据和信息汪洋之中。

或许，当我们见证AI向金字塔尖攀爬的时候，更重要的是，对人类向金字塔底部的滑落保持一点警醒。

文｜脑极体

你可能没听说过DIKW金字塔，但你一定曾被按在这座塔的鄙视链上摩擦过。

这种说法虽然有些戏谑，但还真有点科学道理。

DIKW金字塔适用于人，也适用于AI吗？答案是肯定的。

如果AI也有鄙视链，那么基于数据的AI，一定会被基于知识的AI碾压。