临床文本数据信息挖掘去识别技术研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户：xmyone1

【摘要】

：

目的:本研究针对临床文本患者隐私保护问题，构建高质量临床文本去识别方法，在保证数据价值的基础上，最大化保护病人隐私，从而有助于大数据的共享、融合和利用，我们旨在（1）描述中文临

【作者】

：

都丽婷

【机构】

：

华中科技大学

【出处】

：

华中科技大学

【发表日期】

：

2018年期

【关键词】

：

中文临床文本去识别技术机器学习 CRF算法隐私保护

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

目的:本研究针对临床文本患者隐私保护问题，构建高质量临床文本去识别方法，在保证数据价值的基础上，最大化保护病人隐私，从而有助于大数据的共享、融合和利用，我们旨在（1）描述中文临床文本中PHI的分布情况，（2）提出一种基于机器学习方法的中文临床文本去识别方法，以及（3）验证高效的机器学习算法在中文临床文本去识别研究中的有效性。　　方法:基于从四川省雅安市的一个区域人口健康信息平台中随机抽取的14719条出院小结数据，我们构建了一个条件随机域（Conditional Random Fields，CRF）模型来识别临床文本的PHI，并针对样本中数量较少的PHI类别设计相应的正则表达式来优化综合识别结果。　　结果:通过大量的人工标注，本研究构建了带有PHI标记的中文临床文本语料库，临床文本的描述性统计结果显示，在中文临床文本中PHI分布的广泛性和多样性。去识别模型评估结果显示，为分词工具添加临床概念外部词典提高了去识别模型的表现；在词汇特征基础上加入字典特征后，基于CRF的去标识模型的整体性能得到了显著改善，F值从97.73%增长到98.73%；在CRF模型基础上结合后处理规则后F值增加到0.9878。　　结论:随着电子病历在卫生保健机构的迅速普及，迫切需要能够分析中文临床文本中患者特定信息的工具。本研究中CRF算法在临床文本去识别中的良好表现，显示出了该模型应用于中文临床文本去识别的潜力，为中文临床文本去识别研究提供了一个高效的解决方案。

其他文献

深化医院图书馆的信息服务

近年来,我馆采取多种措施,深化信息服务,满足读者的需求。1.提供最新期刊信息。每期期刊到馆后,我们及时复印有关学科的核心期刊目次,将综合性医学期刊目次加工成题录,并摘录

期刊

医院图书馆期刊目次信息服务医学研究医学发展期刊信息读者性医学摘录学科题录前沿科室简报加工国内复印措施

推进县(市)图书馆文献资源建设

目前,县(市)图书馆文献资源建设存在不少问题,归纳起来主要有:上级领导部门重视不够,经费投入较少;文献入藏量少,质量不高;队伍不够稳定,业务素质亟待提高。针对这些问题,应

期刊

图书馆文献资源建设质量不高业务素质上级领导经费投入财政预算入藏量改革措施拨款

培养中学生对数学感兴趣的对策初探

人的天赋差异是客观存在的，是不以人的意志为转移的。因材施教的内涵既应包括＂补差＂，也应包括＂拔尖＂。数学人才的早期发现与培养无疑是利国利民之好事。　　在数学教学中一般都很重

期刊

培养中学生数学智力兴趣数学学习逻辑推理能力多种智力理论抽象思维能力智力水平早期发现因材施教数学人才数学教学利国利民客观存在开发利用

我国公共图书馆政府信息服务调查研究

2008年5月1日开始实施的《中华人民共和国政府信息公开条例》将公共图书馆纳入政府信息服务体系,这无疑是在政府信息公开工作中给了图书馆一个重要定位,赋予了图书馆一个新的

学位

图书馆学基础理论研究的力作:评

期刊

图书馆学基础理论研究

论小学生数学课学习习惯的培养

培根曾说：＂习惯是一种顽强的巨大的力量，它可以主宰人生＂。好的习惯如同在江河中游泳儿童随身携带的救生圈，可以协助儿童从知识的此岸游向知识的彼岸。而好的开始是成功的一半，学生

期刊

小学生数学课学习习惯自学能力培养学生综合能力组织知识学习目标学习方式数学教学课前准备教学秩序儿童救生圈教育界游泳人生培根江河

微博转基因舆情的社会网络分析

随着互联网时代的到来,网络舆情已成为反映社情民意的晴雨表。作为近年来非常热门的网络社交平台之一,微博以其传播的及时性、内容的自主性、互动的友好性等优势,不仅成为了

学位

微博舆情社会网络分析转基因技术意见领袖

提高数学课堂练习有效性的探究

新课程改革注重了时代发展对新的高素质人才规格培养的要求，提高课堂教学的有效性是新课程改革的关键环节和核心问题，对于数学课堂来说，只有提高了数学课堂练习的有效性，才能保证

期刊

数学课堂教学的有效性新课程改革课堂练习人才规格素质时代培养

要想发做日化水中求财

（1）学费：1000元。可函授，也可面授。函授有详尽的技术资料和教学光盘。　　（2）不锈钢成型模具380元。一次可做54块干洗皂。20分钟成型一次。　　（3）精美彩印包装盒1000套，（内外包装、带注册商标和条形码）共250元。　　（4）大包装箱10个，共50元。（每大箱装100盒干洗皂）。　　（5）可生产1000块干洗皂的4种化工原材料共计180元。　　以上共需1860元。收到以上全部技术资料和

期刊

化工原材料技术资料外包装注册商标教学光盘成型模具条形码箱装生产材料去污

机构规范文档元数据方案构建研究--以中文机构为例

以当前机构信息复杂紊乱的现状和用户在信息检索、学术统计、知识评价、机构合作等领域的需求为研究背景，通过对机构数据的特点、机构属性、机构关联关系等内容进行调研、分析

学位

机构信息规范化文档内容构建元数据方案

临床文本数据信息挖掘去识别技术研究

与本文相关的学术论文