当前位置:主页 > 香港六合 >

【学术论文】基于知识图谱的保险领域对话系统

发表时间: 2019-10-09

  与一般的闲聊对话系统不同,特定领域的对话系统是基于知识,带有上下文推理的实用性对话系统。

  保险领域是典型的特定领域,介绍了一种保险相关领域对话系统的基本构建方法,可以帮助用户快速、实用地在某特定领域和场景下构建对话系统,且具有一定的推广性和拓展性。中文引用格式:

  代文韬,林诗璐,朱小燕,等. 基于知识图谱的保险领域对话系统构建[J].电子技术应用,2019,45(9):18-21,27.英文引用格式:

  Dai Wentao,Lin Shilu,Zhu Xiaoyan,et al. A knowledge-based dialogue system for insurance domain[J]. Application of Electronic Technique,2019,45(9):18-21,27.人工智能是当前世界科技发展的潮流。问答系统和对话系统是人工智能系统中既古老而又年轻的话题。随着互联网服务对象的规模日益扩大,为了提高效率,降低人力成本,很多特定领域的服务都开始引入自动问答系统。保险行业由于其业务量大、业务范围广、业务面对的对象多等特点,非常需要对线中描述了特定领域对话系统的一般结构,自然语言理解模块对用户的问题进行语义分析,产生语义结构,再通过对话管理和答案生成模块得到答案。对于特定领域的对话系统,知识图谱的地位非常重要。没有知识,就不能理解用户输入的上下文,也就不能进行对话。在结合知识的基础上,对自然语言进行分析,识别出用户的意图,通过对话管理,生成多轮的对话。

  虽然随大数据和人工智能的发展出现了很多通用的知识图谱,例如Google的Knowledge Graph [1]就已经有了30亿条数据,但是如此庞大的图谱不足以支撑垂直领域所需要更细致的专业知识,对于保险领域来说也是如此。保险行业由于知识的复杂性、动态性和保密性,缺乏真实可用的知识图谱和与之相对应的语法分析与对线 知识图谱构建和维护

  通常来说,知识图谱是基于语义网对概念、关系的抽象描述,描述专业领域知识和各类资源及资源之间的关系,可以帮助人类和计算机更好地协同工作 [2]。本文使用RDF和RDFS作为知识图谱的描述语言 [3]。

  资源描述框架(RDF)是用来表示万维网上各类资源和信息的一种语言,用三元组(Triple)的方式描述对象和对象之间的关系,通常可以形式化为(Subject,Predict,Object),简称为SPO。

  RDF Schema(RDFS)是对RDF的一种扩展。RDF通过类、属性和值来描述资源,在此之外,RDF还需要一种定义应用程序专业的类和属性的方法。应用程序专用的类和属性必须使用对RDF的扩展来定义。RDF Schema就是这样一种扩展,专门用来定义知识图谱的结构框架Schema。

  知识图谱的构建包括了本体的构建与知识实例的填充。常用知识图谱构建方法有企业建模法(Tove)、骨架法(Skeletal Methodology)、Methontology法、循环获取法、七步法等 [4-5]。根据特定领域具体情况,本文借鉴了七步法构建知识图谱。7个步骤如图2所示,分别为:

  (4)定义类(Class)和类的等级体系(Hierarchy)。建立一个类等级体系一般来说有3种方法:一是自顶向下法,从领域中最大的通用概念开始,而后将这些概念细化;二是自底向上法,由等级体系树中底层叶子类的定义开始,然后将这些叶子类合并为更为概括的较大概念(即向上回溯);三是综合法,综合以上两种方法,首先定义直接大量显而易见的概念,然后再对它们进行进一步的归纳和细化。

  (5)定义类的属性。一旦定义好了类,就要开始描绘概念间的内在结构,即类的属性。任意一个类的所有下位类都会继承其上位类(父类)的属性。为了方便操作,属性的定义多是基于之前列出的术语清单。

  (6)定义属性的限制。属性限制有许多不同的类型,如描述赋值类型(value type)、允许的赋值(allowed value)以及赋值的基数(cardinality)。除了上述几种限制外,还有值域(range)和定义域(domain)的定义。

  保险领域包括了产品、个险、核保和养老社区等子领域。通过4步法,本文构建了如表1所示的知识图谱。

  一个具体的保险产品就是一个保险产品类的实例,同时具有多个属性。很多时候,实体和属性的关系往往比较复杂,这也需要在知识图谱里面加以体现。

  最简单的情况就是“实体-属性-值”,例如:(XX保险定义def)。除此之外,还存在以下几种复杂的情况,如图4所示。

  例如:对于问句“产品A订单的查看方式是什么?”,表示了如下的实体属性关系:实体1是产品A,实体2是订单,查看方式是DP。

  语义分析是对话系统的核心,它负责分析输入的自然语言中关键的要素和整体的意图,对整个问答系统的处理能力起着至关重要的作用。

  基于语义模板的语义分析模型是比较成熟的语义分析方法。由于在特定领域,用户所用的语言和所涉及的语言变化相对较少,使用语义模板可以基本覆盖实际的需要,具有简单易行、准确性高、欢迎神码堂三肖中特中央广播电视总台大湾区之声记者提问,实用性强的特点。

  因此本文采用了改进的基于语义模板的语义分析模型。一方面把领域无关的语义知识和领域相关的语义知识分开,另一方面利用多层次模板生成的方法,保证模板的准确度与灵活度。模板既人工可控,可以较为精确地处理每一类问题,又可以充分体现人类智慧在人工智能中起到的指导意义。语义分析的基本流程如图5所示。

  图5表示了语义分析的整个流程:自然语言通过预处理,得到分词后的字符串流,包括了各种命名实体的识别、特殊符号的识别等。字符串流和模板库中的模板进行匹配,得到相应的对话意图。同时输入的字符串通过信息检索的方法,对语料中存在答案的QA对进行搜索,通过相似度比对找到最相似的答案。后处理模块决定采用模板还是QA对的结果,将结果输出到对话管理。

  从工程上来说,类似R这种类正则表达式的方式,用户维护起来比较困难,很难考虑周全。本文把用户维护模板与系统模板分开,通过多级语言知识扩展,生成系统模板。

  模板生成模块递归调用同义规则资源,将可维护的模板自动生成为机器使用的模板。所谓的同义规则,主要由3种规则构成:

  (1)停用词规则:在句子中可以被省略的词,并不会影响句子的实质语义表达。通常这些词为副词、助词等。

  (2)同义词规则:在任何上下文中都可以相互替换而保持同义的词汇。例如:母亲和妈妈。这部分资源,可以在已有语言学资源的基础上(例如:同义词词林),经过人工编辑审核得到。

  (3)同义转换规则:只在特定上下文中是同义的,通常有较大的结构性的变化。这部分资源可以一方面通过人工编辑补充,也可以在较大规模的标注数据上归纳得到。香港挂牌

  如上的规则在很多情况下是领域无关的,维护好同义规则资源,对于领域迁移有很大的益处。

  对话管理模块的作用是处理对话的上下文信息,进行相应的逻辑运算并返回回答结果的表达式。特别对于保险领域来说,用户的主要目的不是闲聊,而是要获取相应信息,对话的进程有一定的限定性和指向性。对话管理模块主要包含了对话管理模型与自然语言生成两部分内容。

  在经过语义分析和意图分析后,输入的自然语言已经被转化为一个较为明确的逻辑表达式。对话模型旨在建立一个完整的对话流程控制和对话逻辑处理的体系,以完成对话系统的对话功能。结合特定领域的特点,本文采用了基于有限状态自动机的对线],同时结合了填表的方法来构建对线所示。

  (4)如果在知识图谱中找到多个结果,按照条件或者意图反问澄清,并根据回答更新上下文。

  考虑到保险知识图谱的复杂性,自动机在自动生成的基础上,针对知识图谱的特殊结构做了特别的处理。

  例如:保险的投保年龄分别涉及投保人和被保险人的年龄,而年龄又有上限和下限的具体限制,如图7所示。在查询投保年龄时,系统检查上下文中是否包含了“对象”信息,以及所问的具体属性是否明确。如当用户询问“X保险最小几岁能买”时,系统反问“您想问的是X保险哪个对象的投保年龄下限:投保人、被保险人”,此时如果用户补充“被保险人”,系统便能回答“X保险被保险人的投保年龄下限为0岁”。

  每轮对话都会产生DA,DA由逻辑表达式通过可编辑的模板生成自然语言回答。答案生成模板是开放用户维护的。如果通过答案表达式索引到了多个模板,则从这些模板中随机进行选择,答案的形式可以变得更加丰富,也使得系统与人交互更为友好和智能。答案生成的数据资源和自动机逻辑是完全分离的,这使得系统能够快速有效地进行迁移。

  (3)适用于特定领域的语法分析器,在满足数据量的基础上,结合知识图谱的向量化,通 过深度学习,得到更好的语言模型;

  (4)更好地利用数据评价知识,并对知识进行加权,甚至引入部分常识性表示;

  (5)更好地利用知识评价数据,减少标注数据的偏置,通过主动交互的方法,更有效地加快系统收敛的速度。

  [2] 李洁,丁颖.语义网、语义网格和语义网络[J].计算机与现代化,2005,7(4):38-41.

  [4] 韩韧,黄永忠,刘振林,等.OWL本体构建方法的研究[J].计算机工程学报,2008,29(6):

  [6] 黄民烈,朱小燕.对话管理中基于槽特征有限状态自动机的方法研究[J].计算机学报,2004,27(8):

  (1.清华大学 计算机科学与技术系,北京100084;2.华北电力大学 控制与计算机工程学院,北京102206)