论文部分内容阅读
伴随着生活节奏的加快,人们生活的压力不断增大,越来越多的经常出现在老年人群的慢性疾病也在青年人群出现,作为心脑血管疾病的主要危险因素,高血压疾病逐渐上升为医学研究的关键问题。随着信息时代的到来,互联网技术迅猛发展,网络上涌现出大量的信息资源,呈现几何形式的增长,万维网不断发展成全世界最主流的信息交流与共享平台,人们在互联网上发表信息资源、获取信息资源,互相学习,共同的交流。人们更加愿意在就医之前,通过互联网尽快了解到相关的医疗信息,从中迅速有效地获取所需要的关注点。不断膨胀发展的互联网信息中储存着大量的高血压文本信息,在进行高血压类文本信息的收集之后,获取的文本都是高血压类文本,这些文本仍具有数据量大、查询不方便的缺点。文本自动分类技术的应用,能够提高人们对信息的提取速度,快速实现文本类别的划分,目前关于文本分类大都是通用的文本分类器,专业领域的文本分类器还没有得到十分广泛的发展,也没有主要针对高血压信息的文本分类器。本文为了解决高血压患者在信息筛选时的选择困难,提出一种高血压文本分类器。文中首先阐述了文本分类系统常用的关键技术,包括中文分词、文本信息的表示、文本特征选择以及文本分类算法,重点研究了朴素贝叶斯算法分类原理。然后,针对高血压疾病,建立了高血压信息词典,将其应用在分类器的中文分词和文本降维的过程中,运用信息增益结合高血压信息词典的特征选择方式,充分考虑了高血压专业词汇的重要性;建立了高血压文本分类语料库,通过对互联网文本的搜集,建立高血压分类语料库。之后,详细分析了朴素贝叶斯分类算法原理,将其应用在高血压文本的分类过程中,通过实验研究朴素贝叶斯分类的效果;针对朴素贝叶斯分类的局限性,提出了改进后的加权朴素贝叶斯,将其应用在高血压文本分类中,经实验验证,分类效果显著提升。本文的工作目标是研究如何利用朴素贝叶斯算法来对高血压文本分类以及提高高血压文本分类的效率,属于研究性工作,可能存在不足之处有待改进。