【摘 要】
:
文本分类是指按照预先定义的主题类别,为文本集合中的每个文本确定一个类别。随着文本信息数量的快速增长,特别是互联网上海量文本信息的产生,自动文本分类技术已经成为组织
论文部分内容阅读
文本分类是指按照预先定义的主题类别,为文本集合中的每个文本确定一个类别。随着文本信息数量的快速增长,特别是互联网上海量文本信息的产生,自动文本分类技术已经成为组织和处理海量文本数据的关键技术,通过自动文本分类技术把文本进行归类,可以帮助人们更好地寻找所需要的信息和知识。本文针对海量文本信息分类处理的准确率需要提高的问题,研究了把“传统的文本特征项提取的贝叶斯网络文本分类”转换为“对文本的特征关联分析获取关联特征,再应用贝叶斯网络文本分类器进行分类”的方法应用,以达到提高大量文本信息分类的分类正确率。论文通过文本的预处理、文本的表示、特征的选取等,应用Apriori算法挖掘关联特征项,对多个同时在一个文本中频繁出现的单词集合,定义了“关联特征”的概念,在合适的支持度与置信度支持下,获取具有一定代表性质的关联特征,通过用原始的单个单词特征项结合关联特征项作为属性变量,建立了朴素贝叶斯网络文本分类器。论文借助建立的基于关联特征项的朴素贝叶斯网络文本分类器,在20_Newsgroups文本集中选了3个类别的数据做了分类器的性能测试实验,并比较了一般文本特征提取的文本分类过程,研究结果表明,把关联特征项应用到朴素贝叶斯网络文本分类中,使多特征项之间的关联信息也作为分类信息,有效地利用了特征项之间关联所包含的文本类别信息,从而了提高文本分类器的性能。
其他文献
统战部门服务非公经济发展不仅是促进我国经济行稳致远的重大经济问题,也是事关中国特色社会主义民主政治充满活力、永葆生机的重大政治问题。因此,统战部门要深刻领会习近平
对1880热轧1#加热炉烧嘴火焰长度进行研究,通过测定烧嘴火焰长度及温度曲线证实了1#炉板坯中间温度低的原因为烧嘴火焰过短。通过理论分析确定了增加烧嘴火焰长度的方案,并利
模具在工业发展中具有十分重要的作用。但制件与模具表面的粘附是影响产品质量和生产效率的主要原因之一。因此,降低制件与模具间的粘附力是提高产品质量和生产效率,降低生产
利用FLUENT磨损模型,模拟研究当固液混合流通过直管道时,不同的固相颗粒速度、粒度和固相浓度对管壁造成的影响。结果表明:管道磨损受速度和粒度的影响均呈非线性关系,受速度
尊敬的全州医务工作者朋友:$$值此第二个“中国医师节”来临之际,中共凉山州委、凉山州人民政府谨向奋战在全州医疗战线的广大医务工作者致以诚挚的问候和美好的祝愿!$$近年来,全
文章介绍了电影领域有关身份和性别学研究的最新角度,指出酷儿的特质是游移的身份、流动的欲望,其核心意义在于继承并发扬了女性主义、黑人运动、民族解放运动,男女同性恋运
土默川平原,孕育出了丰富的文化、旅游样态。包头市作为土默特平原上的一颗明珠,在充分发挥既有文旅资源的基础上,不断开拓创新,文旅产业进一步细分,文旅业态更加丰富,创意创
近年来,高效节能的新型焊接方法成为国际焊接领域研究的热门课题之一。目前对活性焊接方法的研究表明,对于碳钢、不锈钢等钢材而言,活性元素氧可改变钢材熔池表面张力温度系
王建中创作的《如梦令》《声声慢》是以李清照的词谱曲的现代作曲技法的艺术歌曲。文章将对这两首歌的词曲创作及演绎风格进行分析。正是基于中国现代作曲技法的艺术歌曲在新
目的:探讨中年及老年复发脑梗死的病因分布和其危险因素。方法:回顾性分析复发和初发脑梗死患者218例(年龄>45岁),经影像学和临床体征及其他病因学检查确定诊断的临床资料,依据