临床文本数据信息挖掘去识别技术研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:xmyone1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:本研究针对临床文本患者隐私保护问题,构建高质量临床文本去识别方法,在保证数据价值的基础上,最大化保护病人隐私,从而有助于大数据的共享、融合和利用,我们旨在(1)描述中文临床文本中PHI的分布情况,(2)提出一种基于机器学习方法的中文临床文本去识别方法,以及(3)验证高效的机器学习算法在中文临床文本去识别研究中的有效性。  方法:基于从四川省雅安市的一个区域人口健康信息平台中随机抽取的14719条出院小结数据,我们构建了一个条件随机域(Conditional Random Fields,CRF)模型来识别临床文本的PHI,并针对样本中数量较少的PHI类别设计相应的正则表达式来优化综合识别结果。  结果:通过大量的人工标注,本研究构建了带有PHI标记的中文临床文本语料库,临床文本的描述性统计结果显示,在中文临床文本中PHI分布的广泛性和多样性。去识别模型评估结果显示,为分词工具添加临床概念外部词典提高了去识别模型的表现;在词汇特征基础上加入字典特征后,基于CRF的去标识模型的整体性能得到了显著改善,F值从97.73%增长到98.73%;在CRF模型基础上结合后处理规则后F值增加到0.9878。  结论:随着电子病历在卫生保健机构的迅速普及,迫切需要能够分析中文临床文本中患者特定信息的工具。本研究中CRF算法在临床文本去识别中的良好表现,显示出了该模型应用于中文临床文本去识别的潜力,为中文临床文本去识别研究提供了一个高效的解决方案。
其他文献
近年来,我馆采取多种措施,深化信息服务,满足读者的需求。1.提供最新期刊信息。每期期刊到馆后,我们及时复印有关学科的核心期刊目次,将综合性医学期刊目次加工成题录,并摘录
目前,县(市)图书馆文献资源建设存在不少问题,归纳起来主要有:上级领导部门重视不够,经费投入较少;文献入藏量少,质量不高;队伍不够稳定,业务素质亟待提高。针对这些问题,应
人的天赋差异是客观存在的,是不以人的意志为转移的。因材施教的内涵既应包括"补差",也应包括"拔尖"。数学人才的早期发现与培养无疑是利国利民之好事。  在数学教学中一般都很重
2008年5月1日开始实施的《中华人民共和国政府信息公开条例》将公共图书馆纳入政府信息服务体系,这无疑是在政府信息公开工作中给了图书馆一个重要定位,赋予了图书馆一个新的
学位
培根曾说:"习惯是一种顽强的巨大的力量,它可以主宰人生"。好的习惯如同在江河中游泳儿童随身携带的救生圈,可以协助儿童从知识的此岸游向知识的彼岸。而好的开始是成功的一半,学生
随着互联网时代的到来,网络舆情已成为反映社情民意的晴雨表。作为近年来非常热门的网络社交平台之一,微博以其传播的及时性、内容的自主性、互动的友好性等优势,不仅成为了
新课程改革注重了时代发展对新的高素质人才规格培养的要求,提高课堂教学的有效性是新课程改革的关键环节和核心问题,对于数学课堂来说,只有提高了数学课堂练习的有效性,才能保证
(1)学费:1000元。可函授,也可面授。函授有详尽的技术资料和教学光盘。  (2)不锈钢成型模具380元。一次可做54块干洗皂。20分钟成型一次。  (3)精美彩印包装盒1000套,(内外包装、带注册商标和条形码)共250元。  (4)大包装箱10个,共50元。(每大箱装100盒干洗皂)。  (5)可生产1000块干洗皂的4种化工原材料共计180元。  以上共需1860元。收到以上全部技术资料和
以当前机构信息复杂紊乱的现状和用户在信息检索、学术统计、知识评价、机构合作等领域的需求为研究背景,通过对机构数据的特点、机构属性、机构关联关系等内容进行调研、分析