
3.5 多源信息融合与开放网络知识计算
网络空间中层出不穷的各类应用引发了数据规模的爆炸式增长,形成了网络空间的大数据(简称网络大数据)。开放网络知识计算是针对网络大数据体量巨大、动态性强、价值丰富等特点提出的系统性方法论及实现框架,它主要包括开放知识网络(Open Knowledge Network)模型方法和开放知识计算引擎(OpenKN)两个方面。其中,开放知识网络是一种开放的、自适应的、可演化的、可计算的知识计算模型方法。
开放知识网络是一个异构网络,其点和边都带有时空信息并被赋予了一系列函数或算子。更准确地讲,给定时间集合T和空间信息集合 S、点的类型集合、边的类型集合
,开放知识网络
可以定义为如下的八元组:

其中,是点的集合,
是有向边的集合,即一系列关系对
的集合,其中
,
;
是定义在点集合上的类型映射函数,可唯一确定点的类型
;
是一个关系映射函数,使得每对点之间的关系类型最多有
个;
是定义在点集合上的时间映射函数,返回特定点的时间戳;同理
是定义在边集合上的时间映射函数;
是定义在点集合上的空间信息映射函数,返回点的空间信息;同理
是定义在边集合上的空间映射函数。
开放知识网络从逻辑的角度讲包括三个主要部分:开放知识网络构建、开放知识融合、开放知识网络特征。
3.5.1 开放知识网络构建
开放知识网络构建主要从开放网页、在线百科和核心词表中抽取概念、实例、属性和关系,并构建分类体系等。开放知识网络构建的知识库包含两部分,即存储常识性知识的通用基础库和针对特定领域的领域知识库,如图3-6所示。其中,通用基础库的知识从在线百科中抽取;而领域知识库(假定有n个),又可以划分为三个部分:导出的通用基础库、领域基础库和领域网络库。具体地,导出的通用基础库包括从常识知识中选取的和领域相关的知识;领域基础库来自领域字典核心词汇表等,可获取当前最新最实时的基础知识;而领域网络库描述从开放的互联网网页中抽取的领域相关的最新知识。

图3-6 开放知识网络构建
3.5.2 开放知识融合
开放知识融合主要包括开放知识的时序融合和多数据源融合两个方面。开放知识的时序融合利用每个实体和事实都被赋予了时空信息的特点,根据时序信息融合知识,从而维护每个点和每条边的时空信息。时序融合是开放知识网络更新的基础,能够处理不断产生的新数据,定期对实体和事实的时间戳进行更新。多数据源融合是将多个数据源的异构知识进行验证和消歧,使得知识能够复用和共享,避免从头开始,解决知识库的构建成本非常高的问题。其需要针对概念、实例、属性和关系的冲突和重复进行数据的清理工作,包括对概念、实例进行映射、消歧,对关系进行合并等。
上述知识库构建和融合得到的知识,称为显式的知识。除了显式的知识,知识推理与预测能够进一步获得隐式知识,包括隐性知识、隐藏知识和复杂知识的推理。其中,隐性知识是开放知识网络中潜在的、缺失的知识;隐藏知识是指开放知识网络中因人为隐藏等因素,无法直接推理出的知识;复杂知识是指对多目标的隐性知识和隐藏知识进行推导,即推理结果含有多目标。开放知识网络通过属性计算、关系计算、实例计算等对隐式知识进行推理和预测。例如,基于开放知识网络的显式知识,可以训练得到知识在低维向量空间中的表示,进而可以预测隐式知识。为提升推理预测效果,在学习低维表示向量时要融合网络中的层次结构等结构信息。同时,对于得到的隐式知识,需要检测其与显式知识的相关性与一致性,称为知识验证过程。
3.5.3 开放知识网络特征
开放知识网络有三个主要特征:自适应性、可演化性和可计算性。这三个特征一起诠释了开放知识网络的“开放”的含义。下面将逐一介绍。
(1)开放知识网络的自适应性主要体现在两个方面:自适应知识演化过程和自适应知识获取策略。
自适应知识演化过程用来描述知识演化的规律,如图3-7所示。它可以分为两个阶段,一是知识库的自我更新,一是与其他知识库的句法-语义级融合。在知识库的自我更新阶段,知识演化通过两个基本运算(逻辑加和逻辑乘
运算)和一系列规则完成。而对于两个不同知识库的融合,可分为两个操作:语义级的融合
和句法级的融合
。

图3-7 开放知识网络的自适应性
自适应知识获取策略的目的是获取随时间和空间演化的动态知识。自适应知识获取策略使用一个称为过滤器的组件来产生句法-语义级的抽取模板,如Such-As模板、Is-A模板等。抽取模板通过自适应调整和对抽取结果的反馈来迭代实现调整。在自适应调整阶段,例如当Such-As模板遇到例外情况(如句子“animals other than dogs such as cats”)时,不仅可以从概率的角度发现这个特例,还可以通过模糊本体技术来识别这种情况。在抽取结果的反馈阶段,抽取模板通过对抽取结果的正确性进行打分,实现所谓的外部校正。
开放知识网络的自适应性可以有效地满足网络大数据快速变化带来的挑战。一方面,它可以使知识库具有捕获新数据的能力;另一方面,不同的规则,如基本规则,保证了知识的实时更新。
(2)开放知识网络的可演化性表现在两个方面:一是网络通过自我更新形成新的知识网络,二是网络吸纳其他知识库中的知识得到新的知识网络。
这两个方面分别在图3-8和图3-9中进行了阐释。在图3-8中,最左边的网络是一个已有的可演化知识网络。当从网络中获取到新的知识后,首先将新知识表示为一个知识网络,其次将新知识网络中的点和边与已有网络中相应的点和边进行融合,最终形成一个新的网络。在图3-9中,现有的知识库先转换为一个知识网络,然后和已有的知识网络进行融合。

图3-8 网络通过自我更新形成新的知识网络
开放知识网络的可演化性使它拥有了一个完整的演化生命周期,包括演化识别与感知、演化定位、演化评估和管理。同时,这种演化的非刚性保证了网络的时新性。

图3-9 网络吸纳其他知识库中的知识得到新的知识网络
(3)开放知识网络的可计算性可形式化为两类算子或操作,即对点的操作和对边的操作。
具体地讲,对点的操作可分为三个子操作,即点的抽取、点的融合及点的推理。类似地,对边的操作也可分为三个子操作,即关系抽取、关系融合和关系推断。这里提到的所有操作均涉及对点和边上的时间与空间信息的操作。例如,利用关系的时间戳,构造时间差关系路径,并用于预测关系的产生及其时间戳。同时,由于开放知识网络中保存了时空信息,可以预测点或边的未来的空间属性。注意这些操作与前文提到的自适应知识演化过程和自适应知识获取策略是一致的,即点和边的抽取实现了自适应知识获取,其他操作构成了自适应知识演化过程。
开放知识网络的演化计算算子库,首次将知识获取的整个流程中涉及的方法纳入一个体系当中,便于深入理解每个方法之间的关系,为不同的方法及其之间的衔接与相互作用提供了一个全面的视角。
基于上述开放知识网络模型方法,可以构造开放知识计算引擎(OpenKN)。其系统架构如图3-10所示,包括4个模块,即知识库构建、知识验证与计算、知识存储、知识服务与应用。

图3-10 开放知识计算引擎系统架构
经过了验证的海量知识,在开放知识计算引擎系统里存储在一个基于图的数据库(Graph DataBase,GDB)以及关系数据库中。其中,GDB中存储的是显式的知识,关系数据库中存储的是隐式的知识。GDB作为大数据存储基础设施,支持大于100亿条知识的存储。与传统的数据库模型(如Neo4j、Titan)相比,GDB的点和边都有各自唯一的ID并且支持一系列的多值属性。特别地,GDB描述了一个与现有的图模型不同的异构网络—可演化的开放知识网络。目前,开放知识计算引擎能够处理的点规模达到3000万,边的规模达到10亿级,同时处理规模仍在不断扩大中。
开放知识计算引擎强大的开放知识网络构建、开放知识融合、知识推理与预测能力,为人们深入利用网络大数据的价值提供了有效的途径,目前已经从数据积累阶段逐步向产品产出阶段转化。其不仅能够快速高效地构造面向特定领域的开放知识网络,如视频领域开放知识网络;而且由于计算引擎的方法的高度可迁移性,知识的获取与融合推理方法可以扩展到其他领域中,例如书籍领域、音乐领域等。同时,开放知识计算引擎的发展刺激了一些新兴的应用的兴起,为下一代智能搜索系统、信息统计分析系统、自动问答系统等的进一步发展提供了重要的基础。例如,在自动问答系统中,开放知识网络的分类体系可以辅助问题理解进而生成答案。
网络大数据具有多源异构、实时性、高噪声等特点,不但非结构化数据多,而且数据的实时性强。网络大数据背后蕴含着丰富的、复杂关联的知识。有效利用网络大数据的价值就要从数据中去粗取精,从数据中挖掘知识,对网络大数据背后的知识进行深入的分析。面向网络大数据的知识计算引擎的主要特点是自适应性和可演化计算性,使得可以更好地感知动态变化的网络知识,同时对潜在的和变化的时序知识进行推断和预测,更好地为网络大数据下的知识挖掘提供服务。