论文部分内容阅读
文章编号: 2095-2163(2018)03-0087-04中图分类号: 文献标志码: A
摘要: 关键词: (School of Computer Science and Technology, Donghua University, Shanghai 201620, China)
Abstract: Introduce the data structure and concept level of Chinese insurance contract format clauses, and treat its unstructured insurance clause data set as the object of processing. First, analyze and study the structure and meaning of insurance format clauses, and then use template extraction and matching methods to perform the operating, transform it into structured data. Experiments show that this method can achieve higher accuracy.
Key words:
作者简介:
收稿日期: 引言
随着当前中国经济水平的发展和民众对保险产业认知的加深,使得保险产业在互联网效应的驱动下有了更进一步的发展。目前各大应用平台纷纷上线财产保险、人身保险等相关保险产品,从保险购买者的角度出发,对于健康医疗保险,投保人如何根据保险人的实际身体健康状况和所需相关保障进行投保更大程度上取决于投保人对健康医疗保险条款的理解和判断[1]。但对于普通保险购买人来说,保险行业信息仍然存在着极大的不透明性,保险合同格式条款是由保险公司单方面商定、购买人并不参与定制的文本文件,且保险合同格式条款[2-3]大多为长文本数据类型,文本内容多采用专业性语言和超长词汇进行描述。
因此,如何从保险格式条款中获取有效信息并且根据投保人意愿提供相关合理化意见和建议已经成为保险经营活动的新趋势。 目前在文本数据结构化[4]处理方面,国内外均有许多相关的研究工作,但由于中文语言、语义、文法等存在着特殊性,借鉴国外的技术受到很多制约。首先,处理中文格式化健康保险文档需要对长文本进行分词,但目前现有的中文分词工具,如中科院的NLPIR[5]、复旦的FNLP[6]、斯坦福的NLTK[7]等在处理具有很强专业性的中文保险合同格式条款中并不能取得很好的分词结果;其次,与英文不同,中文不存在类似于英文的词根/前缀,不能直接通过词语本身对词语进行分类,需要借助语境、语义做相应的判别分析。
针对上述问题,本文结合中文健康保险合同格式条款的具体特点,提出了一种简单有效的中文健康保险合同格式条款文本结构化处理方法。该方法首先对获取到的保险条款格式进行格式转换、编码转换、事项分类、长句切分等预处理操作。然后利用外部词库和文本分词计算词语共现度和计算词语权重的方法构建包含专业术语和具有重要意义的长复合词组库。构建RDF提取模板;首先对事项内容进行聚类,根据聚类结果进行关键名词组提取,然后利用余弦相似度计算方法去除同义属性,接着根据提取结果进行总结和含义转换,最后回溯属性提取过程,建立RDF提取模板。之后根据构建的RDF提取模板建立通用的正则算法对文本数据进行描述抽取。
1问题阐述
保险合同格式条款是根据保险法及保险险种、范围所定义的内容。条款内容中包含大量的专业术语和规范性语言表述,其中还有大量“本合同”、“本合同条款”等无关键意义的词语。保险合同格式条款文本数据样例如图1所示。
在文本结构上,保险合同格式条款以总分结构定义,每篇条款由多条事项构成;在语义上,保险合同格式条款是对其规定相关内容的描述,每项条款由若干关联长短句组成。
定義1条款名称指所属的保险合同的条款名称名词。例:新华i健康定期重大疾病保险利益条款。
定义2事项名称指保险合同格式条款中包含的规定事项。例:保险期间。
定义3属性名指某一事项下包含的主体、原因、期间、赔付、结果等信息名词。
定义4描述值指与指标名一一对应的描述性信息。
以图1中的数据为例,该条款中的事项名称为 “保险期间”、“保险责任”,在保险责任部分,按语义内容可提取指标和对应指标值“主体 :被保险人”,“原因:疾病”,“给付:重大疾病保险金”。
2保险格式条款机构化处理方法
本文提出的基于中文健康医疗保险合同格式条款的结构化信息抽取方法主要涉及到自然语言处理[9]的分词、文本聚类、文本相似度计算、正则表达式匹配等技术,整个处理过程主要包括5部分,分别是:合同条款数据的预处理、模板提取、领域词库构建、信息抽取和纠错校验,其具体流程如图2所示。
2.1文本预处理
由于保险格式条款的获取渠道和文本形式不尽相同,所以在保存数据前需要对收集到的大量不符合结构化要求的数据进行前期处理,将表格形式、网页格式的文档转换为纯文本文件,且为了能在抽取过程中进行字符串匹配对获取的文本数据按需要进行编码转换。保险合同格式条款单个数据量比较复杂,依据事项关键字匹配对其进行分类。由于保险条款存在一定的法律意义,所以数据相对正确性较高,无需进行清洗工作,只需根据断点进行长短句切分。
2.2领域词库构建
在保险合同格式条款中,对很多保险事项内容的描述都采用了医疗保险领域内的专业术语或固有词组进行表达,如“投保”、“保险期间”。并且其中包含很多在语义上不可分割的较长的字符串词组,如“重大疾病保险金”。
本文首先采用结巴分词工具对文本数据进行分词,首先去除停用词,然后利用TF-IDF统计算法筛选出文本数据集中比较重要的词语,应用N-Gram模型套用贝叶斯公司计算词语的共现度,从而得出数据集中复杂的复合词语,然后经初步人工筛选建立医疗保险领域词组库。
2.3RDF提取模板建立
建立RDF资源描述框架形式的提取模板有助于对保险合同格式化条款进行高效的抽取和分类。提取模板的建立过程主要包含以下步骤:首先对事项中的内容利用Single-Pass算法进行聚类处理,然后利用IDF和IC-value计算关键名词组提取,之后利用余弦相似度比较对提取的复杂词组进行去重,经含义转换操作对属性值和描述值进行重新定义和转换,最后根据抽取内容和内在联系建立RDF 抽取模板。
2.3.1文本聚类
由于事项内容文本量较小,但待聚类数据量大,无法确定簇的个数,为便于后续根据数据情况增加新的类别,所以本文采用single-pass算法[13]对事项数据文本内容进行聚类。Single-pass算法流程如图3所示。
文本进行聚类的目的是为了将每个事项内容中的长短句进行类别划分。在本文中,对子句进行相似度对比是应用杰卡德相似系数(Jaccard Similarity)计算子句之间字符串的重合度实现的。 杰卡德相似系数计算公式如下:J(A,B)=|A∩B||A∪B|(1)
2.3.2关键名词组抽取
对文本进行关键名词组抽取主要应用基于统计参数的方法实现。在模板提取中重点需要用到两个重要的统计参数分别为IDF值和IC-value值。IDF值为信息检索中最常用到的“逆文本频率指数”,IC-value是一种通过从逆文档频率、破碎子串和术语长度3个方面改进C-value而得到的一种计算候选术语度的方法。同时,属性值的统计范围是该类别的长子句的集合,而不是整个文本数据集。
计算属性名w的IDF值的公式[10]如下:IDFw=logDDw(2)其中,D为子类中全部长句数,Dw为子类中W出现的长句数。
计算属性名w的IC-value值的公式如下:
摘要: 关键词: (School of Computer Science and Technology, Donghua University, Shanghai 201620, China)
Abstract: Introduce the data structure and concept level of Chinese insurance contract format clauses, and treat its unstructured insurance clause data set as the object of processing. First, analyze and study the structure and meaning of insurance format clauses, and then use template extraction and matching methods to perform the operating, transform it into structured data. Experiments show that this method can achieve higher accuracy.
Key words:
作者简介:
收稿日期: 引言
随着当前中国经济水平的发展和民众对保险产业认知的加深,使得保险产业在互联网效应的驱动下有了更进一步的发展。目前各大应用平台纷纷上线财产保险、人身保险等相关保险产品,从保险购买者的角度出发,对于健康医疗保险,投保人如何根据保险人的实际身体健康状况和所需相关保障进行投保更大程度上取决于投保人对健康医疗保险条款的理解和判断[1]。但对于普通保险购买人来说,保险行业信息仍然存在着极大的不透明性,保险合同格式条款是由保险公司单方面商定、购买人并不参与定制的文本文件,且保险合同格式条款[2-3]大多为长文本数据类型,文本内容多采用专业性语言和超长词汇进行描述。
因此,如何从保险格式条款中获取有效信息并且根据投保人意愿提供相关合理化意见和建议已经成为保险经营活动的新趋势。 目前在文本数据结构化[4]处理方面,国内外均有许多相关的研究工作,但由于中文语言、语义、文法等存在着特殊性,借鉴国外的技术受到很多制约。首先,处理中文格式化健康保险文档需要对长文本进行分词,但目前现有的中文分词工具,如中科院的NLPIR[5]、复旦的FNLP[6]、斯坦福的NLTK[7]等在处理具有很强专业性的中文保险合同格式条款中并不能取得很好的分词结果;其次,与英文不同,中文不存在类似于英文的词根/前缀,不能直接通过词语本身对词语进行分类,需要借助语境、语义做相应的判别分析。
针对上述问题,本文结合中文健康保险合同格式条款的具体特点,提出了一种简单有效的中文健康保险合同格式条款文本结构化处理方法。该方法首先对获取到的保险条款格式进行格式转换、编码转换、事项分类、长句切分等预处理操作。然后利用外部词库和文本分词计算词语共现度和计算词语权重的方法构建包含专业术语和具有重要意义的长复合词组库。构建RDF提取模板;首先对事项内容进行聚类,根据聚类结果进行关键名词组提取,然后利用余弦相似度计算方法去除同义属性,接着根据提取结果进行总结和含义转换,最后回溯属性提取过程,建立RDF提取模板。之后根据构建的RDF提取模板建立通用的正则算法对文本数据进行描述抽取。
1问题阐述
保险合同格式条款是根据保险法及保险险种、范围所定义的内容。条款内容中包含大量的专业术语和规范性语言表述,其中还有大量“本合同”、“本合同条款”等无关键意义的词语。保险合同格式条款文本数据样例如图1所示。
在文本结构上,保险合同格式条款以总分结构定义,每篇条款由多条事项构成;在语义上,保险合同格式条款是对其规定相关内容的描述,每项条款由若干关联长短句组成。
定義1条款名称指所属的保险合同的条款名称名词。例:新华i健康定期重大疾病保险利益条款。
定义2事项名称指保险合同格式条款中包含的规定事项。例:保险期间。
定义3属性名指某一事项下包含的主体、原因、期间、赔付、结果等信息名词。
定义4描述值指与指标名一一对应的描述性信息。
以图1中的数据为例,该条款中的事项名称为 “保险期间”、“保险责任”,在保险责任部分,按语义内容可提取指标和对应指标值“主体 :被保险人”,“原因:疾病”,“给付:重大疾病保险金”。
2保险格式条款机构化处理方法
本文提出的基于中文健康医疗保险合同格式条款的结构化信息抽取方法主要涉及到自然语言处理[9]的分词、文本聚类、文本相似度计算、正则表达式匹配等技术,整个处理过程主要包括5部分,分别是:合同条款数据的预处理、模板提取、领域词库构建、信息抽取和纠错校验,其具体流程如图2所示。
2.1文本预处理
由于保险格式条款的获取渠道和文本形式不尽相同,所以在保存数据前需要对收集到的大量不符合结构化要求的数据进行前期处理,将表格形式、网页格式的文档转换为纯文本文件,且为了能在抽取过程中进行字符串匹配对获取的文本数据按需要进行编码转换。保险合同格式条款单个数据量比较复杂,依据事项关键字匹配对其进行分类。由于保险条款存在一定的法律意义,所以数据相对正确性较高,无需进行清洗工作,只需根据断点进行长短句切分。
2.2领域词库构建
在保险合同格式条款中,对很多保险事项内容的描述都采用了医疗保险领域内的专业术语或固有词组进行表达,如“投保”、“保险期间”。并且其中包含很多在语义上不可分割的较长的字符串词组,如“重大疾病保险金”。
本文首先采用结巴分词工具对文本数据进行分词,首先去除停用词,然后利用TF-IDF统计算法筛选出文本数据集中比较重要的词语,应用N-Gram模型套用贝叶斯公司计算词语的共现度,从而得出数据集中复杂的复合词语,然后经初步人工筛选建立医疗保险领域词组库。
2.3RDF提取模板建立
建立RDF资源描述框架形式的提取模板有助于对保险合同格式化条款进行高效的抽取和分类。提取模板的建立过程主要包含以下步骤:首先对事项中的内容利用Single-Pass算法进行聚类处理,然后利用IDF和IC-value计算关键名词组提取,之后利用余弦相似度比较对提取的复杂词组进行去重,经含义转换操作对属性值和描述值进行重新定义和转换,最后根据抽取内容和内在联系建立RDF 抽取模板。
2.3.1文本聚类
由于事项内容文本量较小,但待聚类数据量大,无法确定簇的个数,为便于后续根据数据情况增加新的类别,所以本文采用single-pass算法[13]对事项数据文本内容进行聚类。Single-pass算法流程如图3所示。
文本进行聚类的目的是为了将每个事项内容中的长短句进行类别划分。在本文中,对子句进行相似度对比是应用杰卡德相似系数(Jaccard Similarity)计算子句之间字符串的重合度实现的。 杰卡德相似系数计算公式如下:J(A,B)=|A∩B||A∪B|(1)
2.3.2关键名词组抽取
对文本进行关键名词组抽取主要应用基于统计参数的方法实现。在模板提取中重点需要用到两个重要的统计参数分别为IDF值和IC-value值。IDF值为信息检索中最常用到的“逆文本频率指数”,IC-value是一种通过从逆文档频率、破碎子串和术语长度3个方面改进C-value而得到的一种计算候选术语度的方法。同时,属性值的统计范围是该类别的长子句的集合,而不是整个文本数据集。
计算属性名w的IDF值的公式[10]如下:IDFw=logDDw(2)其中,D为子类中全部长句数,Dw为子类中W出现的长句数。
计算属性名w的IC-value值的公式如下: