临床数据中心建设及数据挖掘、关联应用

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:book_008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要: 临床数据中心通过汇聚医院临床系统中的数据,借助各类医疗信息标准,实现数据的分析和利用。采用信息汇集技术实现全院所有信息的统一采集,经过解析处理成为离散化为最小粒度的信息元素,并通过重构各类信息元素的内部关系,以患者为中心重新建模,建立临床数据中心(CDR),包括临床信息、管理信息、运营信息和科研信息等,并且与受控医学词汇(CMV)进行关联,以提高查询分析的效率。
  关键词:临床数据中心(CDR);数据挖掘;数据建模;受控医学词汇(CMV);数据分析;数据清洗
  中图分类号:TP319        文献标识码:A
  文章编号:1009-3044(2021)27-0030-03
  Abstract:The clinical data center realizes the analysis and utilization of data by aggregating the data in the hospital clinical system and using various medical information standards. All the information of the whole hospital is collected by information collection technology, which is decomposed into information elements with the smallest granularity. By reconstructing the internal relations of various information elements, the patient-centered model is re-established, and a clinical data center (CDR) is established, including clinical information, management information, operational information and scientific research information etc, which is associated with controlled medical vocabulary (CMV) to improve the efficiency of query analysis.
  Key words: clinical data center(CDR);  data mining;  data modeling;  controlled medical vocabulary(CMV);  data analysis; data cleaning
  随着医院信息平台建设的推进和国家卫健委对于互联互通评测的强制要求,越来越多的医院都开展了医院信息平台的建设。而在医院信息平台建设的系统工程中,临床数据中心的建设是重中之重。
  临床数据中心通过汇聚医院临床系统中的数据,借助各类医疗信息标准,实现数据的分析和利用。临床数据中心(CDR)平台是根据国家卫健委《电子病历基本架构与数据标准(试行)》《电子病历系统功能规范(试行)》《基于电子病历的医院信息平台建设技术解决方案(1.0版)》等医院信息集成平台相关标准与规范,以临床数据仓库(Clinical Data Repository, CDR)为核心构建全院数据共享平台,提升医院对现有数据资产的采集、聚合、处理与展现能力,确保获得适当授权的用户在任何时间与地点都能方便地访问临床、运营、质控与科研信息,开展数据挖掘和分析,以便更好地进行各项决策和业务。
  1 概要介绍
  临床数据仓库(Clinical Data Repository, CDR)是一个整合多个来源的临床数据,提供以患者为中心的统一视图的实时数据库。它通过受控医学词汇表(CMV)保证所有人对临床数据语义理解的一致,以提高 CDR 的数据质量。在CDR中,诊疗数据是围绕患者为中心进行组织的,临床用户可以从多个角度查询、浏览和分析数据,其中的诊疗数据一般包括:
  患者基本信息;
  历次就诊病史;
  门急诊和住院诊断;
  处方信息;
  检验结果;
  放射/超声/病理/内镜检查报告;
  医学影像;
  费用信息。
  整体上,CDR具有以下特征:
  Centralized:集中式数据存储和管理;
  Clinical:重點关注各类临床数据;
  Real-time:各类数据具备实时性;
  Life-long:各类数据具备长期性;
  Patient-centric:围绕个体患者组织所有数据。
  2 临床数据中心(CDR)的建设目标
  CDR可以帮助医院实现如下目标:
  深度利用临床数据支持探索性研究任务;
  临床医学领域的知识体系建立与知识发现;
  多维度多层次的病历数据分析;
  支持和实现跨院的信息共享;
  强化医疗质量监控和决策支持。
  3 临床数据中心(CDR)的建设内容及步骤
  3.1 数据采集
  3.1.1 采集范围
  采集范围主要包括以下信息:患者基本信息、历次就诊病史、门急诊和住院诊断、处方信息、检验结果、检查报告、医学影像、费用信息
  3.1.2 采集方式   采用ETL数据抽取工具对数据进行抽取与支持。该工具内置了大量数据采集、数据处理所需的控件,采用分布式部署,利用多主机集群同时并发处理大量数据采集和数据装载任务,将现有Oracle或Hbase的各类数据按数据标准进行清洗、转换,并加载到新的平台。按统一的代码标准,整合数据类别,形成数据齐全、标准化、规范化的数据集市。同时ETL支持各类常用数据库及MDB、XML、XLS、CSV、TXT等数据的全量与增量实时抽取,将各种源数据装载到Hadoop集群上的基础库中。
  3.2 数据处理
   ETL 数据抽取时若系统判定为脏数据,则需要进行数据清洗也就是脏数据处理。脏数据通过 WEB 界面展现出,由脏数据管理人员进行处理决定。分为两种情况:第一种是脏数据确实为脏数据,则维护该数据抽取相关MAPPING 的参数文件,将该脏数据排除。另一种为该代码为有效代码,此时需要在 ODS 库中相应的编码表中新建一个编码,并在代码映射表中插入相应的记录。
  3.3 数据镜像
  数据中心平台需要实时的从业务系统抽取数据,为了使业务系统在数据捕获的时候影响最小,采用对业务系统先进行数据库复制,然后在复制的数据库上启用变化的时间戳机制也就是数据镜像技术;从最佳实践来看,该方案可以最小化的业务系统影响,并支持实时数据捕获。在通过时间戳捕获业务系统的数据变化集后,需要实时高效的智能化加载工具加载数据变化集到CDR中,通过智能化数据载入工具,从应用业务系统到CDR的数据载入可以达到分钟级别,报表系统数据最大延迟一小时左右。对于实时监控数据,技术上可以做到秒级左右。
  3.4数据建模和数据挖掘
  目前国内大多数的医院数据中心建设的技术重点放到了收集数据,但仅仅是把大量原本分散的数据实现的物理的集中,而并不对这些集中后的数据进行整理和重构,那么这些未整理重构的数据是无法帮助这些信息的最终使用者(临床医生,医疗管理人员和决策人)作出明智的临床、行政、研究和财务决策的。虽然还存在着其他各种解决方案,如建立基于Web的门户网站,建立信息仓库,构建分析工具等。但是,使用各种各样支离破碎的办法,并不是最好的解决办法。建议尽量采用可以收集到所有信息并转化为新的重构的数据集的方式即数据建模的方式,同时尽量减少对原有系统的影响。
  数据建模包含三个层次:
  第一层建模即数据实体CDR:
  在临床数据中心(CDR)建设过程中将对医院业务系统进行数据分析,参考HL7 RIM模型把业务流程中的每一个活动事务所记录的信息及各种原始文档统一到数据实体CDR中,形成各领域内的数据模型,构成“第一层建模”,保证CDR数据的颗粒度足够细,用于支撑对医疗过程的精细化管理,集成业务流程中的每一个活动事务所记录的信息及各种原始文档记录全部集成到统一的数据库中。这比以临床为中心,以病人中心的结果数据粒度更细,第一层建模中汇聚了医疗活动中产生的所有过程性数据。下图示意数据实体CDR逻辑模型的构建过程,遵循HL7 V3 RIM模型并做适当裁剪与补充。
  通过这种构建方法,可以分别对临床的每一个活动进行建模。因每个领域的差异较大,可以参考HL7/IHE等标准及规范,单独构建每个领域的信息模型。一方面为了数据分析,另一方面也可为领域内的信息化建设提供参考。
  第二层建模是数据仓库层:
  由于医疗过程的数据与以病人为中心的数据是有差异的,医疗过程的信息不连续,一个领域的过程可能存在于不同系统中(譬如用药领域),所以需要基于第一层建模建立以病人为中心的数据模型。常见做法是以CDA/CCR标准为参考,结合卫健委的电子病历的数据标准,构成“第二层建模”。
  第三层建模为数据集市层:
  这一层主要从数据的聚合需要出发,针对不同领域中的主题,构建相应的數据集市。建成后的数据集市将是多维度的,支持各类型应用从不同的维度对数据进行分析和使用。
  4 临床数据中心(CDR)的相关应用
  4.1 信息模型
  信息模型是用来描述临床事件和其产生的结果及互相间的上下文关联。对整体医疗信息而言,由于信息交互具有形态多样、关系复杂以及随医疗领域知识更新动态变化等特性,最直接的结果是整体信息需求并不能完全确定,这是系统集成面临的最棘手问题,因此很难采用传统方法进行建模,即使通过各种映射匹配技术也只能在一定程度上实现有限集成。因此要从体系架构上提出彻底解决集成问题的方案,即参考核心数据模型HL7 RIM建模。
  4.2 医学受控术语
  为实现临床数据中心(CDR)的广泛集成,必须基于标准化的医学受控术语(如ICD、SNOMED、LONIC等)来构建核心数据结构,按照HL7 CDA L3规范定义数据集模板,形成标准化的临床文档信息,同时标准化将避免系统反复建设及系统间的信息难以交流。为适应未来信息类型不断增加,临床数据中心不仅要考虑到临床信息的当前需求,也要考虑未来动态需求和数据增长速度。
  临床数据中心(CDR)的体系结构需要通过对临床事件实例化,辅以相关的约束规则,定义医疗领域中的各种具体概念,力求所有从诊疗活动中采集的原始临床数据在生成之初就符合标准,减少或避免数据间转换,通过临床数据中心(CDR)实现信息的全面共享。
  4.3 HL7 CDA
  基于CDA(Clinical Document Architecture)的电子病历临床文档设计:CDA临床文档架构由标准文档组成,是由临床观察、临床服务等组成的文件,专门规定了临床文档内容的标准化,只规范文档内容表达,不涉及文档的交换机制。CDA的语义内容源于共享的参考信息模型RIM,为用于交换的临床文档详细描述结构和语义,CDA文档必须用可扩展标识语言(XML)编码, 并使用HL7 V3的数据类型。   4.4 临床数据仓库
  数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,临床数据通过数据仓库工具进行抽取、转化和整理后存储在数据仓库中用于支持临床管理决策及科研分析。建立临床数据仓库的目的是存放以主题方式组织的、经过二次加工的历史数据,成为临床数据中心特定的优化读取的性能模型。
  4.5 数据校验和质量保证工具
  CDR系统需要提供Data Validation工具可以对数据源和目标数据表之间的数据值进行验证,主要原理是通过对源表里不同数据通过视图或者SQL按照业务数据来进行分组聚合。
  4.6 临床信息检索工具
  临床信息检索能使用户对电子病历的检索操作更加方便、快捷,加速电子病历文档的检索过程,并且使所获得的搜索结果的相关性更好、精确度更高。从而有效地改善用户的搜索体验,促进电子病历利用率的提高。更好地发挥电子病历在临床医疗诊断、治疗和护理及科研方面的辅助作用。
  平台需支持基于语义的病人病历文书的综合模糊关键字搜索功能。对于数据平台已汇集的病历文书数据生成关键字索引,并提供统一的界面,使用类似Google或百度的关键字模糊检索对数据平台上的数据进行综合搜索,并通过病人综合数据浏览模块进行显示。
  平台需支持语义搜索引擎。语义搜索引擎是结合了自然语言处理(NLP)的新一代搜索引擎。它允许用户使用自然语言进行信息检索,能够根据用户请求,更加方便地从所搜索的数据资源中搜寻到对用户更确切的、更有价值的信息。具有智能化、人性化,便利化的特征。语义搜索引擎除了提供传统的快速检索、相关度排序等功能之外,还能为搜索用户提供诸如角色登记、用户兴趣自动识别、信息化过滤、关联信息推送和内容语义理解等功能。实现智能搜索的关键取决于如何有机结合电子病历文档库和搜索知识库,成功地分词,辨别、处理同义词,再根据知识库分析关键词,明确概念和语义,确定用户真实用意;然后对文档库进行知识(概念)层次的检索,提交搜索结果,对用户问题给出多方解答,并提示搜索相关问题;同时,在操作过程中不断对文档库进行分析、提取和概括,以实现知识库的扩充和自我增长。
  5 结语
  临床数据中心(CDR)的构建,将不同厂商异构数据进行以患者为中心的高度整合,以患者EMPI为主线组织患者临床数据,实现患者临床数据的模型化存储。医院基于临床数据中心平台,充分挖掘临床数据中心的医疗数据,重点面向临床应用和科研进行智能化应用的探索。随着患者诊疗数据和居民档案数据的积累,基于临床数据中心的医疗大数据应用将具有更加重要的意义和前景。通过建设临床数据中心,除了能够为临床提供全面的患者诊疗时序数据和临床知识库等作用外,其在临床决策支持、科研、患者远程就诊方面也将会有重要的意义。对于医疗机构管理而言,通过大数据分析可以更好地对医疗服务进行定价。同时,医疗大数据的使用可以改善公众健康监控。公共卫生部门可以通过覆盖全国的患者电子病历数据库,快速检测传染病,进行全面的疫情监测,并通过集成疾病监测和响应程序,快速进行响应。临床数据中心无论是对医院本身还是对全社會而言,其建设意义都极其重大,其建设方法和建设内容,需要我们不断去探索和总结。
  参考文献:
  [1] 国务院办公厅.关于促进“互联网+医疗健康”发展的意见[EB/OL]. http://www.gov.cn/zhengce/content/2018-04/28/content_5286645.htm?trs=1
  [2] 国家卫健委办公厅.全国医院信息化建设标准与规范(试行)[EB/OL].http://www.nhc.gov.cn/guihuaxxs/s10741/201804/5711872560ad4866a8f500814dcd7ddd.shtml
  [3] 国家卫健委医政医管局.关于进一步推进以电子病历为核心的医疗机构信息化建设工作的通知 [EB/OL].http://www.nhc.gov.cn/yzygj/s7659/201808/a924c197326440cdaaa0e563f5b11 1c2.shtml
  [4] GB/T 22239-2019,信息安全技术 网络安全等级保护技术要求[S].
  [5] WS 445-2013,电子病历基本数据集[S].
  [6] WS/T 447-2013,基于电子病历的医院信息平台技术规范[S].
  [7] WS/T 500-2016,电子病历共享文档规范[S].
  [8] WS/T 501-2016,电子病历与医院信息平台标准符合性测试规范[S].
  【通联编辑:王力】
其他文献
摘要:近年来,随着公共交通领域大数据、云计算、移动支付等新兴科技的应用,城市公交、轨道交通等公共交通行业都推出了二维码App实现了“刷手机”乘车。在为用户出行带来便捷的同时,出现了各App平台的信息数据不互联互通和二维码规范不一等问题。这给用户换乘交通工具时带来了不便,同时增加了交通部门的管理成本。本文基于HTTPS(Hyper Text Transfer Protocol over Secure
近年来,随着金融一体化进程的推进,保险公司经营与金融市场发展联系日益密切,在这种纷繁复杂的金融环境中,保险公司却屡屡出现“退保风潮”,“客户大规模挤兑退保”等许多群体事件.为探究其原因并得到有效的解决方案,现利用SPSS(“统计产品与服务解决方案”软件)对保险公司客户退保数据进行分析,探索各个指标之间是否存在关联及主要退保因素.通过类似的分析,保险公司可以在设置保险方案时综合考量各类险种的退保情况及退保影响因素,做出合理调整;也可以对具有典型特征的客户推荐符合其实际情况的险种,减少非正常原因的退保情况.
摘要:文本分类是自然语言领域一个重要的研究方向和技术核心,一直受到研究者的热切关注。在医学领域,中医源远流长,在人类历史发展中发挥着不可磨灭的作用。中医语言包含了大量中医领域术语,且多为表述严谨和富含辩证思维的古文,上下文词语关联性较强,且大多是结构化、半结构化或非结构化数据的形式,这些特点给中医病案的智能分析分类造成了很大地困难。该文基于注意力机制的深度学习模型Bert模型实现中医深层全局语义的
针对网络中传输任务动态变化的属性,对传统的最早截止期优先(EDF)调度策略进行优化,以任务变化的周期和执行时间为基准提出改进的EDF精确化调度策略.从可调度条件出发,利用任务的执行时间和周期的分布函数,结合精确化处理方法,对变化的时间进行合理的取值,从而得到精确的时间属性值并以此进行任务传输.克服了传统调度策略中优先级混乱导致传输性能下降的缺陷,且继承了传统策略的资源利用率高的优点.通过仿真证明改进的EDF调度策略有效提高了网络控制系统的调度性能.
传统的矩阵分解模型仅通过用户-项目的评分矩阵来对用户进行项目推荐,由于未能使用用户与项目的特征信息从而造成了信息损失,使得模型的评分预测误差较大.为了更加充分地满足个性化推荐的需求,利用因子分解机以及深度神经网络改进传统的矩阵分解模型,融入用户与项目的特征信息.对改进后的模型在数据集MovieLens-1M上检验模型的效果,采用RMSE作为评估指标,实验发现改进后模型的RMSE值降低,模型的评分预测误差减小,评分预测结果更加准确.
摘要:我国煤炭行业经过长期的发展,逐步形成了以煤炭贸易商链接上下游客户的煤炭供应链。煤炭交易数据反映着煤炭供应链上下游客户、产品的供求关系,对其进行数据分析及可视化表达对于煤炭贸易行业显得尤为重要。该文在对煤炭交易及相关数据进行深度分析的基础上,使用Vue框架及前后端分离开发技术,借助Echarts等开源可视化框架,通过各种形式的图表、地图等的可视化显示,从多个角度展示了煤炭交易的实时动态,并挖掘
摘要:该文主要研究内容是油料供应管理系统电子印章应用。针对当前油料供应管理系统在数据交换中出现的主要问题,论文从油料供应管理电子印章平台结构设计、安全设计和系统功能几个方面提出了具体的应用方案,构建基于应用层面的安全保障体系,为电子凭证合法、安全提供可靠保障,圆满解决了这些问题。本方案为电子印章在后勤领域其他业务系统的应用提供了很好的借鉴。  关键词:电子印章;油料供应;供应管理  中图分类号:T
摘要:中医领域知识主要是以文本的形式存在,具有无规律的语言特性,中医知识的有效挖掘对充分利用文本中蕴藏的经验知识具有重要作用,信息抽取任务是中医知识管理的重要子任务,而关系抽取又是信息抽取任务中的重要环节。针对单粒度信息关系抽取方法中存在的句意传递错误和文本语义丢失的问题,提出将句子中的多粒度信息应用于中医文本关系抽取任务,构建多粒度信息抽取模型,将词语级信息整合到字符序列中,多种粒度的文本信息可
目标检测作为计算机视觉领域的一个重要问题之一,近年来随着深度学习的不断发展,基于深度学习的目标检测算法越来越受到广泛的关注。在近年来较新的目标检测算法中,选用YOLOv3(You Only Look Once v3)算法,并在其基础上为进一步提高检测精度,再增加一个特征尺度,与其他特征尺度进行特征融合,并使用k-means聚类重新确定锚框,同时增加一定的网络层数。实验在PASCAL VOC数据集完
摘要:目前部分高校使用指纹点名系统、人脸识别系统这类成本较高的考勤系统,设备多且操作烦琐。该套软件的主要功能是将学生端先通过Wi-Fi Direct与教师端连接起来,然后将学生信息发送给教师端完成签到。学生端与教师端通信通过Socket套接字进行,定位方式使用百度定位SDK(软件开发工具包)服务,将SQLite数据库中的学生表的操作封装成一个模块传给教师端使用。同时增加多重校验功能,填写每位同学的