基于朴素贝叶斯的高血压文本分类的研究

被引量 : 8次 | 上传用户:livebody
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着生活节奏的加快,人们生活的压力不断增大,越来越多的经常出现在老年人群的慢性疾病也在青年人群出现,作为心脑血管疾病的主要危险因素,高血压疾病逐渐上升为医学研究的关键问题。随着信息时代的到来,互联网技术迅猛发展,网络上涌现出大量的信息资源,呈现几何形式的增长,万维网不断发展成全世界最主流的信息交流与共享平台,人们在互联网上发表信息资源、获取信息资源,互相学习,共同的交流。人们更加愿意在就医之前,通过互联网尽快了解到相关的医疗信息,从中迅速有效地获取所需要的关注点。不断膨胀发展的互联网信息中储存着大量的高血压文本信息,在进行高血压类文本信息的收集之后,获取的文本都是高血压类文本,这些文本仍具有数据量大、查询不方便的缺点。文本自动分类技术的应用,能够提高人们对信息的提取速度,快速实现文本类别的划分,目前关于文本分类大都是通用的文本分类器,专业领域的文本分类器还没有得到十分广泛的发展,也没有主要针对高血压信息的文本分类器。本文为了解决高血压患者在信息筛选时的选择困难,提出一种高血压文本分类器。文中首先阐述了文本分类系统常用的关键技术,包括中文分词、文本信息的表示、文本特征选择以及文本分类算法,重点研究了朴素贝叶斯算法分类原理。然后,针对高血压疾病,建立了高血压信息词典,将其应用在分类器的中文分词和文本降维的过程中,运用信息增益结合高血压信息词典的特征选择方式,充分考虑了高血压专业词汇的重要性;建立了高血压文本分类语料库,通过对互联网文本的搜集,建立高血压分类语料库。之后,详细分析了朴素贝叶斯分类算法原理,将其应用在高血压文本的分类过程中,通过实验研究朴素贝叶斯分类的效果;针对朴素贝叶斯分类的局限性,提出了改进后的加权朴素贝叶斯,将其应用在高血压文本分类中,经实验验证,分类效果显著提升。本文的工作目标是研究如何利用朴素贝叶斯算法来对高血压文本分类以及提高高血压文本分类的效率,属于研究性工作,可能存在不足之处有待改进。
其他文献
烟草加工企业卷烟生产就是经烟草加工系统将烟叶加工成成品烟的过程,它包括烟叶初加工、打叶、切丝、烟丝膨胀、薄片加工及卷制等生产工艺。在此加工过程中,烟草粉尘也存在于
将花叶芋(Caladium biocolar)的无菌嫩叶切块,培养在补加有6-BA(1mg/L)、IAA,(0.2mg/L)和CH(500mg/L)的MS琼脂培养基中,20天后在切块的边缘及表面形成圆形淡黄色突起,转移到
社交媒体撼动了传统媒体在自上而下议程设置中的强势地位,赋予了网民“拇指话语权”,每一个网民都能在社交媒体上就某一网络舆情事件发表自己观点,网民参与主体当下所持的主
<正> 杜甫《茅屋为秋风所破歌》中的“寒士”究竟指什么人?自郭老解释为专指穷读书人以后(《李白与杜甫》)215页),近年来不少杜诗研究者的看法颇有分歧。我觉得,诗中的“寒士
农民专业合作社有利于提高农业生产的组织化和集约化程度,推进农业产业化进程;降低农户生产经营风险,提高农户的市场地位和交易谈判能力;在解决我国农业当前存在的小生产与大市
叶天士为清代著名医家,他阐明络病理论,开创络治法之先河,其重要学术思想对内伤杂病的论治具有重要意义,在瘿病防治中亦不例外。
随着党和国家加强牧区水利建设政策的深入落实,我国牧区发展出现了一系列新的变化,发展牧区应按照“小开发、大保护”的原则,坚持可持续发展的要求建立草原生态保护和牧区经
开发区作为地区经济发展的重要载体,在推动区域经济发展和提高城市化水平等方面具有重要意义。同时,开发区也是土地利用的重要方式,特别是在促进土地集约利用方面起到了良好的示
研究目的:观察补肾化瘀法结合克罗米芬治疗排卵障碍性不孕症肾虚血瘀证的临床疗效,以初步探讨补肾化瘀法治疗排卵障碍性不孕症的临床有效性,及其对临床症状改善情况、性激素(