基于主题模型的急性心肌梗塞病症识别及变化趋势预测研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:yyy_chj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
【目的】本研究基于急性心肌梗塞的临床文本数据,利用数据分析挖掘技术构建急性心肌梗塞病症识别和病情变化治疗模式,发现目前电子病历临床文本数据存在的问题并提出建议,产生的模式能为临床诊断和治疗提供决策支持,推动医疗卫生大数据的挖掘利用,同时也为临床文本数据挖掘分析提供新的思路。【方法】基于从湖北省宜昌市的某区域卫生信息平台中抽取的急性心肌梗塞电子病历数据,将所获数据按照不同病程节点进行分类,考虑其整体数据结构是否标准来有针对性的进行去重、排序、jieba分词等文本预处理,同时对预处理过程中发现目前临床文本数据存在的问题并提出相应建议。然后利用主题模型LDA对电子病历中的临床文本进行主题生成,利用困惑度函数最小原则得到最佳主题产出结果。再将各病程节点的结果进行分析综合,按入院-住院-出院的时间脉络将结果整理形成急性心肌梗塞的病症识别与病情变化治疗模式,运用JS距离计算文本相似度来对病症进行识别预测。最后通过与标准诊断、临床路径、不同病种、分词工具调整结果与否与生成的模式对比,验证其准确性、合理性、可用性,用以对急性心肌梗塞进行病症识别诊断和病情发展变化及相关治疗措施预测建议。【结果】通过不断地实验,生成了较为有效的急性心肌梗塞病症识别与病情变化治疗模式。与标准病症诊断内容相比,研究生成的入院病症具有普适性与合理性,能较为有效地对实际病症文本进行匹配;与未进行添加外部词典的分词和未分病程节点的数据产出的结果相比,添加词典和分病程节点后产出的结果更具有可解释性,减少了歧义问题;利用急性心肌梗塞测试集数据对模式进行测试,准确率达89%,用陈旧性心肌梗塞和心肌梗塞恢复期、冠状动脉粥样硬化性心脏病两个病种数据测试模型的准确率分别为71%和68%,结果显示模式能对区分急性心肌梗塞和其他不同病种有较好性能;利用标准急性心肌梗塞临床路径与研究产生的病症识别与病情变化治疗模式相比,生成的模式具有合理性,且模式中包含了临床路径里未提及的主诉查体等方面内容,更为详尽。【结论】中文领域的临床文本数据挖掘分析仍处于起步阶段,非常迫切需求挖掘临床文本中高价值的数据信息。本研究利用主题模型生成对急性心肌梗塞进行病症识别与预测的模式在验证测试时有良好的表现,相较以往类似的研究来说,产出结果更为准确合理,但还有进步的空间,同时也为中文临床文本挖掘提供了新的思路。
其他文献
糖尿病患者手术时麻醉意外发生次数会有所增加,自身并发症的风险也会有所增加,不但会对患者糖尿病病情造成影响,也会对手术效果造成影响。因此,应重视围手术期糖尿病的有效处
以新鲜的核桃仁为原料 ,研究了在超临界状态下物料的粉碎度、萃取压力、萃取温度、萃取时间对核桃油萃取效果的影响。结果表明 ,超临界 CO2 流体萃取核桃油的最佳工艺条件为
<正>通讯社(News agency),亦称新闻社,是从事采集、加工和提供新闻信息,为其他新闻媒体和各类用户服务的新闻机构。世界上第一家通讯社,是法国人夏尔·哈瓦斯(Charles Havas,
运用实证研究方法对北京7所不同类型高校643名来京国际学生进行调研,探讨国际学生来京高校留学的动机,并从人口学视角剖析不同特征国际学生来京留学动机的差异性特征。研究显
目的观察纳洛酮对全身炎症反应综合征(Systemic in flammatory response syndrome,SIRS)血清白介素-6和肿瘤坏死因子-α水平的影响。方法随机将86例SIRS分为两组,A组42例,在治疗原
在低渗透油藏进行水力压裂是一种非常普遍的增产措施,但增产的效果很难达到预期,压裂后的裂缝导流能力不够理想,很难保持长时间的稳产。因此针对支撑剂粒径、连续铺置和不连
随着居民生活水平的逐步提升,人们也更多地开始重视居住环境的品质,更加关注室内设计方面的内容。而在资源开发的过程中,我们往往会忽视环境保护的重要性,就目前的情况而言,
采用文献资料法、录像分析法、数据统计法等方法对中国女子体操队在里约奥运会上的成绩进行分析。结论:中国女子体操队整体实力下滑,在团体、高低杠、平衡木项目上逐渐退出金
检测和消除命题逻辑公式中的冗余子句,是许多应用领域(包括人工智能)广泛研究的基本问题。基于已有的研究工作,本文主要探讨命题逻辑公式中的冗余子句及冗余文字。本文的主要
中温固体氧化物燃料电池(IT-SOFC)是一种工作温度在600℃-800℃的环保高效的全固态发电装置,是当今SOFC的主要发展趋势。温度的降低可以减小电池对材料的依赖和成本、延长电池