KGB知识图谱技术能够解决哪些行业痛点？

ljrj123 · 发表于 2019-10-31 17:10:44

知识图谱和行业应用相互结合时，需要充分发挥其技术特色，且要适用于现在的企业应用。那么知识图谱的应用可以解决那些行业问题呢？
领域知识图谱和通用知识图谱）的关系和区别。首先来看GKG和DKG的区别。两者之间的区别是明显的，体现在知识表示、知识获取和知识应用三个层面。在知识表示层面的差别可以从广度、深度和粒度这三个维度加以考察。从广度来看，GKG涵盖的范围明显大于DKG。从深度来看，DKG通常更深，尤其体现在概念图谱的层级体系上。比如，在娱乐领域，追星族们可能很关心“内地鼻子长得帅的男明星”，在电商领域单单“连衣裙”不足以满足人们的购物需求，电商图谱中往往要涵盖“韩版夏装连衣裙”这样的细分品类。如何表达与处理这些较深层次的概念对于很多领域知识图谱应用而言是个巨大挑战。需要指出的是层次较深的细粒度概念往往不是基本概念（basic concept）。这意味着不同人对这些深层次概念有着不同的认知体验的，因而会有较大的主观分歧。这就是很多人工构建的概念层级深到一定层次就很难继续下去的重要原因。此时，数据驱动的自下而上的自动化方法往往比较适合。
第三个维度是知识表示的粒度，DKG通常涵盖细粒度的知识。知识表示是有粒度的，知识的基本单元可以是一个文档，也可以是文章中的段落、法律中的条款、教育资源中的知识点等等。传统知识管理往往以文档为单位组织企业知识资源。在司法智能中的司法解释往往需要将知识粒度控制在条款级别。在教育智能化领域，学科的知识点往往是个合适的粒度，以知识点为中心组织教学素材和资源是个可行的思路。知识表示的粒度也可以细化到知识图谱中的实体与属性级别，或者是逻辑规则中的条件与结果。比如法律条款可以进一步细化到由条件与结果构成的产生式规则，数学中的很多定理也可以进一步细化为相关的公理系统（一组产生式规则）。既然知识表示的粒度是可控的，我们应该如何控制呢？很多场景下知识表示的粒度是个需要仔细斟酌的问题。
一般而言，粒度越细表达能力越强，但是其表达与获取代价也越大。细粒度知识表示一般是领域应用的强需求之一。比如在知识管理领域，粒度粗放已经成为阻碍企业知识管理发展的根本问题。传统知识搜索只能搜索到文档级别，如果不幸这个文档含有1000页内容，则会给用户带来巨大麻烦。但是，凡事过犹不及，太细粒度的知识表示也往往会给知识获取带来巨大的复杂性。合理控制知识表示的粒度，不盲目求精求细，是知识库技术落地成功的关键思路之一。很多落地实践中过早地陷入细粒度知识获取的泥潭当中，消耗巨大但收效甚微。但事实上细粒度的知识表示在很多场景下也是不必要的。因此，在实践中建议紧扣应用需求，从应用出发反推需要怎样粒度的知识表示。
在知识获取层面，DKG对质量往往有着极为苛刻的要求。因为很多领域应用场景是极为严肃的（也就是mission critical 的AI应用）。比如医疗，某个药物有哪些禁忌症，这类知识是不能出错的。对质量的苛刻要求自然就意味着领域知识图谱构建过程中专家参与的程度相对较高。需要指出的是，专家的积极干预并不意味着盲目的手动构建。如何应用好人力资源，包括哪些环节让人参与以及专家参与的具体方式等问题一直以来就是领域知识图谱落地的关键问题。在众包计算中有不少方法值得借鉴。但是对于有着依赖专家经验的历史传统而言，如何尽可能降低人力资源的成本是个值得深入研究的问题。一般而言，我们期望构建过程尽可能自动化；但是由于对目标图谱有着苛刻的质量要求，最终的知识验证过程还是要诉诸人力。较多的人工干预自然决定了领域知识图谱落地过程自动化程度相对较低。相比较而言，通用知识图谱构建一定要高度自动化，因为通用知识图谱规模太大（动辄数千万的实体，数亿的关系），如果没有自动化的办法，根本无法推进，除非存在有效的大规模众包化手段，比如知识类互动游戏等。
在知识应用层面，首先，领域知识图谱的推理链条往往相对较长。原因有两个方面。一是领域知识图谱相对密集。比如某个疾病在通用知识库中相关实体可能寥寥无几，但是在一个医疗知识图谱中相关实体可能数以百计。知识库建设有一个有意思的现象那就是永远不要指望知识库是完备的。完备是知识库建设永远在追求但却无法企及的目标。但是，DKG相对于GKG在单个实体的相关知识覆盖面有着明显优势。也正是基于此，领域知识图谱上的推理链条可以较长。在一个相对稠密的领域知识图谱上长距离推理之后的结果仍然还可能是个有意义的结果。但是在通用知识图谱上，由于其相对稀疏，多步推理之后语义漂移（semantic drift）严重，其推理结果很容易“面目全非”、“离题千里”，令人难以理解了。所以在GKG之上的推理操作大都是基于上下文的一到两步的推理。比如搜索“刘德华”，可以推荐他的歌曲，那是因为知识图谱告知我们刘德华是一个歌星，主要作品是歌曲，这是两步的推理链条。其次，领域知识图谱上的计算操作也相对复杂一些。像之前提到的深度推理就是一种复杂的应用。此外，领域应用往往会涉及复杂查询。比如在公共安全领域，对于重点监控人群，通常需要在相关图谱中查询该人群形成的稠密子图。诸如此类的复杂计算和操作，在领域知识图谱中并不罕见。相反，通用知识图谱的查询多为一到两步的邻居查询，相对简单。

		自动登录	找回密码
密码			注册(开放注册)

中国政法大学论坛|沧海云帆

KGB知识图谱技术能够解决哪些行业痛点？