一种健康医疗保险格式条款的结构化处理方法

来源 :智能计算机与应用 | 被引量 : 0次 | 上传用户:woshigr321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  文章编号: 2095-2163(2018)03-0087-04中图分类号: 文献标志码: A
  摘要: 关键词: (School of Computer Science and Technology, Donghua University, Shanghai 201620, China)
  Abstract: Introduce the data structure and concept level of Chinese insurance contract format clauses, and treat its unstructured insurance clause data set as the object of processing. First, analyze and study the structure and meaning of insurance format clauses, and then use template extraction and matching methods to perform the operating, transform it into structured data. Experiments show that this method can achieve higher accuracy.
  Key words:
  作者简介:
  收稿日期: 引言
  随着当前中国经济水平的发展和民众对保险产业认知的加深,使得保险产业在互联网效应的驱动下有了更进一步的发展。目前各大应用平台纷纷上线财产保险、人身保险等相关保险产品,从保险购买者的角度出发,对于健康医疗保险,投保人如何根据保险人的实际身体健康状况和所需相关保障进行投保更大程度上取决于投保人对健康医疗保险条款的理解和判断[1]。但对于普通保险购买人来说,保险行业信息仍然存在着极大的不透明性,保险合同格式条款是由保险公司单方面商定、购买人并不参与定制的文本文件,且保险合同格式条款[2-3]大多为长文本数据类型,文本内容多采用专业性语言和超长词汇进行描述。
  因此,如何从保险格式条款中获取有效信息并且根据投保人意愿提供相关合理化意见和建议已经成为保险经营活动的新趋势。 目前在文本数据结构化[4]处理方面,国内外均有许多相关的研究工作,但由于中文语言、语义、文法等存在着特殊性,借鉴国外的技术受到很多制约。首先,处理中文格式化健康保险文档需要对长文本进行分词,但目前现有的中文分词工具,如中科院的NLPIR[5]、复旦的FNLP[6]、斯坦福的NLTK[7]等在处理具有很强专业性的中文保险合同格式条款中并不能取得很好的分词结果;其次,与英文不同,中文不存在类似于英文的词根/前缀,不能直接通过词语本身对词语进行分类,需要借助语境、语义做相应的判别分析。
  针对上述问题,本文结合中文健康保险合同格式条款的具体特点,提出了一种简单有效的中文健康保险合同格式条款文本结构化处理方法。该方法首先对获取到的保险条款格式进行格式转换、编码转换、事项分类、长句切分等预处理操作。然后利用外部词库和文本分词计算词语共现度和计算词语权重的方法构建包含专业术语和具有重要意义的长复合词组库。构建RDF提取模板;首先对事项内容进行聚类,根据聚类结果进行关键名词组提取,然后利用余弦相似度计算方法去除同义属性,接着根据提取结果进行总结和含义转换,最后回溯属性提取过程,建立RDF提取模板。之后根据构建的RDF提取模板建立通用的正则算法对文本数据进行描述抽取。
  1问题阐述
  保险合同格式条款是根据保险法及保险险种、范围所定义的内容。条款内容中包含大量的专业术语和规范性语言表述,其中还有大量“本合同”、“本合同条款”等无关键意义的词语。保险合同格式条款文本数据样例如图1所示。
  在文本结构上,保险合同格式条款以总分结构定义,每篇条款由多条事项构成;在语义上,保险合同格式条款是对其规定相关内容的描述,每项条款由若干关联长短句组成。
  定義1条款名称指所属的保险合同的条款名称名词。例:新华i健康定期重大疾病保险利益条款。
  定义2事项名称指保险合同格式条款中包含的规定事项。例:保险期间。
  定义3属性名指某一事项下包含的主体、原因、期间、赔付、结果等信息名词。
  定义4描述值指与指标名一一对应的描述性信息。
  以图1中的数据为例,该条款中的事项名称为 “保险期间”、“保险责任”,在保险责任部分,按语义内容可提取指标和对应指标值“主体 :被保险人”,“原因:疾病”,“给付:重大疾病保险金”。
  2保险格式条款机构化处理方法
  本文提出的基于中文健康医疗保险合同格式条款的结构化信息抽取方法主要涉及到自然语言处理[9]的分词、文本聚类、文本相似度计算、正则表达式匹配等技术,整个处理过程主要包括5部分,分别是:合同条款数据的预处理、模板提取、领域词库构建、信息抽取和纠错校验,其具体流程如图2所示。
  2.1文本预处理
  由于保险格式条款的获取渠道和文本形式不尽相同,所以在保存数据前需要对收集到的大量不符合结构化要求的数据进行前期处理,将表格形式、网页格式的文档转换为纯文本文件,且为了能在抽取过程中进行字符串匹配对获取的文本数据按需要进行编码转换。保险合同格式条款单个数据量比较复杂,依据事项关键字匹配对其进行分类。由于保险条款存在一定的法律意义,所以数据相对正确性较高,无需进行清洗工作,只需根据断点进行长短句切分。
  2.2领域词库构建
  在保险合同格式条款中,对很多保险事项内容的描述都采用了医疗保险领域内的专业术语或固有词组进行表达,如“投保”、“保险期间”。并且其中包含很多在语义上不可分割的较长的字符串词组,如“重大疾病保险金”。
  本文首先采用结巴分词工具对文本数据进行分词,首先去除停用词,然后利用TF-IDF统计算法筛选出文本数据集中比较重要的词语,应用N-Gram模型套用贝叶斯公司计算词语的共现度,从而得出数据集中复杂的复合词语,然后经初步人工筛选建立医疗保险领域词组库。
  2.3RDF提取模板建立
  建立RDF资源描述框架形式的提取模板有助于对保险合同格式化条款进行高效的抽取和分类。提取模板的建立过程主要包含以下步骤:首先对事项中的内容利用Single-Pass算法进行聚类处理,然后利用IDF和IC-value计算关键名词组提取,之后利用余弦相似度比较对提取的复杂词组进行去重,经含义转换操作对属性值和描述值进行重新定义和转换,最后根据抽取内容和内在联系建立RDF 抽取模板。
  2.3.1文本聚类
  由于事项内容文本量较小,但待聚类数据量大,无法确定簇的个数,为便于后续根据数据情况增加新的类别,所以本文采用single-pass算法[13]对事项数据文本内容进行聚类。Single-pass算法流程如图3所示。
  文本进行聚类的目的是为了将每个事项内容中的长短句进行类别划分。在本文中,对子句进行相似度对比是应用杰卡德相似系数(Jaccard Similarity)计算子句之间字符串的重合度实现的。 杰卡德相似系数计算公式如下:J(A,B)=|A∩B||A∪B|(1)
  2.3.2关键名词组抽取
  对文本进行关键名词组抽取主要应用基于统计参数的方法实现。在模板提取中重点需要用到两个重要的统计参数分别为IDF值和IC-value值。IDF值为信息检索中最常用到的“逆文本频率指数”,IC-value是一种通过从逆文档频率、破碎子串和术语长度3个方面改进C-value而得到的一种计算候选术语度的方法。同时,属性值的统计范围是该类别的长子句的集合,而不是整个文本数据集。
  计算属性名w的IDF值的公式[10]如下:IDFw=logDDw(2)其中,D为子类中全部长句数,Dw为子类中W出现的长句数。
  计算属性名w的IC-value值的公式如下:
其他文献
互动平台  编者注:为了提高同学们的英语写作水平,使大家在中考中立于不败之地,应广大师生的要求,我们开辟了“学生习作名师点评”栏目。同学们如果想让自己的英语习作得到名师的点评,请邮寄给我们。老师们如果发现自己学生的优秀习作需推荐的话,请按栏目要求邮寄给我们。    【栏目要求】   1. 将学生习作根据中考分值给出成绩;2. 在应该修改的地方划线并标注序号;   3. 根据所标序号进行修改并说明修
摘要:利用多媒体创作软件Authorware7.0以及数据库Access创作学生管理系统。文中给出了创作的主要流程线圈以及主要的程序代码。  關键词:框架图标 交互图标 判断图标 导航函数  中图分类号: G434  文献标识码: B 文章编号:1002-2422(2008)01-0030-02    使用多媒体创作软件Authorware7.0以及数据库Ac-tess进行学生管理系统
问:where用来引导什么样的问句?Where is your book in?这个句子对吗?  答:where意为“在哪里”,常用于引导对地点提问的特殊疑问句。回答的时候应选用适当的介词。例如:  —Where’s David? 大卫在哪里?  —He’s in the room. 他在房间里。  Where is your book in?这句话不对。where在本句中是副词,它引导的特殊疑问
摘要:介绍了PanelView Plusl500和RSView Machine Edition,及基于RSView Studio平台开发的烘丝工艺线监控界面的设计方法。  关键词:RSView Studio 监控 人机界面  中图分类号:TP311 文献标识码:B 文章编号:1002-2422(2008)01-0017-02    1 PaneIViCW Plus 1500简介    Pa
人类绘画艺术在萌生之初,并无东西方或民族的明显差异,人们皆凭借对生活的激情和艺术的直觉,以线为主,象形“涂鸦”,随意任兴,可谓充满着写“意”精神。及至文艺复兴,西方绘画走上了与科学为伍的道路,以解剖学、透视学、色彩学等光影色的科学原理,作为艺术再现客观事物的标准,在以写“真”为能事之精彩极顶的同时,却更多地丢失了艺术的主观性、丢失了艺术的精神特质。照相机的发明很快令西方绘画陷入了尴尬和困惑。艺术重
王?垂  1948年出生于湖南,现为职业画家,旅居加拿大。1976年毕业于湖南师范学院艺术系,1980年毕业于中央美术学院油画研究生班。毕业后任教于中央美术学院附中,时任副教授。1988年赴法国研修,1990年旅居加拿大。  有多幅作品被中外收藏家及博物馆、美术馆收藏。  有作品先后获得法国多维尔第四十一届油画大奖风景画二等奖和弗隆蒂尼博物馆银质奖牌,作品被该馆收藏。曾有作品获第三十六届贝济耶国际
Before Mother’s Day, five boys were discussing how to make their mothers happy. At last they all agreed that there was only one important thing they could do. That was not to take their school reports
[新目标英语七年级水平能力暑期测试题(一)参考答案]  Ⅰ、选择填空。  1~5 CCBCB 6~10 CBCAA  11~15 BACCC 16~20 AABAC  Ⅱ、阅读理解。  21~25 FFFIT  26.They are five Beijing Olympic mascots.  27.From August 8th to August 24th in 2008.
摘要:高校实验室是进行教学、科研、培养创新人才的重要场所,对于学生动手能力和创新意识的培养具有重大意义。结合自身的长期实践,分析总结高校大型实验仪器设备的管理体制不够完善,开放共享程度不高,运行水平不够高导致整体利用率低下等问题,为使大型实验仪器设备在有效期内的使用率得到最大化程度的提升,本文从对高校实验室大型仪器设备的科学有效管理方式,优化资源,建立共享平台等多方面对提高设备利用率提出建议和措施
小朋友们,暑假到了。你们都有什么计划呢?美国的暑假从6月中旬,一直到8月底、9月初。按照美国法律,家长不得把 12 岁以下的儿童独自留在家中,以避免各种意外伤害,否则就触犯了法律,第一次家长通常会被警告,第二次则有可能失去半年以上对孩子的监护权。学校不开门,如何照看这些孩子就成了社会和家长最关心的问题。我们来看看美国小学生多彩的暑假生活吧!    日托班    在美国的不少社区,一到暑假,各种小学