数据挖掘在中文病历中的应用

被引量 : 0次 | 上传用户:taobixianshi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘意味着在一些事实或观察数据的集合中寻找隐藏模式的决策支持过程。数据挖掘也被称为知识发现。文本数据库分类是数据挖掘中的一个重要内容。电子病历也是一类文本数据集。对这些数据集进行数据挖掘及分类是非常有必要的。本研究中,我们研究了一种新的基于短语的特征提取算法。并把这种算法应用到中文真实病历的分类中,取得较好的分类效果。具体处理过程是,首先采集了医院内科真实中文病历200份。然后进行数据清洗过程,因为数据是来源于医院的真实数据,所以存在着不完整的、含有噪声的和不一致的数据。之后对数据进行量化工作,特征提取,在我们的实验中采用的是一种新的特征提取方法即基于短语的特征提取方法;我们将这200份含有4种病种的病历进行3种组合,然后通过算法将他们分别进行分类。其中所用到的短语匹配算法可以归纳为如下的步骤:1)获得数据库中每对文档的匹配短语集合。2)创建一个包括步骤1所有集合的集合。去除这个集合中的匹配短语。3)把每个文档表示为一个向量,并归一化。4)用SOM创建一个对应于这个向量集合的分类器。5)可视化分类结果,找出和每一类相关的特征短语。通过实验得到了较好的效果。数据挖掘技术能自动从病历数据集中提取出主要的特征,对病历进行分类能很好地帮助医务工作人员诊断疾病,并且总结出不同病种间有哪些以前从未发现的不同的表现特征。尽管在我们的实验中所用到的数据集是医院的病历,但是这里提出的分类方法如果应用到其它类型的文本数据集也是适用的。
其他文献
蚯蚓粪是地球上第一劳动者——蚯蚓在自然界中生命活动的代谢产物,具有高效生物有机肥料的许多优点。它的施用对土壤的生态环境、根际营养、植物生长发育都会产生重要的影响
微穿孔板技术是21世纪绿色环保的无纤维吸声材料,它的发明为吸声材料的发展作出巨大贡献,解决了在很多恶劣条件,如高温、潮湿,粉尘污染等环境下的音质问题,也同时解决了多孔
有效的项目管理是公司降低经营成本、提高质量和服务水平,保持竞争优势的必备武器。对于中国冶金设备总公司这样一个以冶金设备承包项目为主的公司,项目管理直接关系着公司的经
经济学研究社会上存在的能够直接或间接满足人们物质或精神需要的东西(可以是劳动产出的,也可以是自然存在的)。虚拟价值是由资源的未来效用决定的买方为获得某资源愿意的最
在以知识和信息的生产、传播、应用为基础的知识经济社会中,以智力和信息为内容的无形信息产品被大量生产、大量消费,成为市场中新兴的交易客体。信息产品的使用亦呈科技化、
有关民主的反思和研究已历时几个世纪,在市场经济高度发展的今天,市场经济和民主成为政治学家和经济学家研究的热点。无可否认的是,市场经济对民主有积极的推动作用,民主的建立和
工业经济的发展,导致了人类科学技术的突飞猛进,科学在征服各个领域的过程中取得了巨大胜利,同时也使科学文化、科技理性的地位得到空前加强,科学文化成为审视、衡量对象世界,特别
Mailath及Postlewaite在其1990年的论文中证明了公共物品供给的渐进无效性,即随着经济中个体个数增加到无穷大,公共物品被提供的概率趋向于零(而此时公共物品应被提供的概率趋
作为公共经济学的核心问题之一,收入的分配问题受到了众多的关注,近年来的文献着重讨论的是收入分配与经济增长的关系。而最优的国家所有权安排问题是众多改革中的经济面临的问
金融产品创新业务越来越成为商业银行利润的主要增长点,面对外资银行的竞争,文章提出了金融产品创新的努力方向,并建议总行向下级授权,改善商业银行金融产品创新的外部产品市