基于神经网络和决策树的文本分类及其应用研究

来源 :电子科技大学 | 被引量 : 18次 | 上传用户:lzt870702
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
万维网提供便捷的文档发布和获取机制,现已成为各类信息的聚集地。在万维网中,信息量以指数级别递增,如何从海量的文本信息中挖掘有用的模式或知识已经成为学者研究的热点。在数据挖掘中,为使读者快速地获取感兴趣的内容,研究文本分类,按照一定的分类模型自动归类文本数据。文本数据具有无结构化、主观性、高维度等特点,导致文本挖掘算法很难抽取出有效的易于理解的分类规则,且计算复杂度过高。因此,研究合适的文本特征选择方法进行降维和改进的文本挖掘算法获取分类规则具有很大的挑战。在此背景下,本学位论文主要研究文本预处理、特征选择方法、决策树优化的神经网络分类算法,并将该文本分类系统应用到西藏发展中。主要的工作如下:(1)数据预处理本论文在文本的数据预处理部分主要做如下改进:添加动态停用词表;优化TF-IDF算法,词频计算时将同义词和位置因素考虑在内;添加文档相似算法进行文档去重。(2)特征选择方法本论文提出新的特征选择方法,将样本偏差率和方差作为特征属性的评判标准,对特征属性的重要性进行排序,选取出最佳的特征属性子集。实验结果表明采用本文提出的基于样本偏差率和方差的特征选择方法,其分类精度高于传统的采用词频作为特征选择方法,由此证明本文提出的特征选择方法的可行性和优越性。(3)决策树优化神经网络的分类算法本论文设计一种决策树优化神经网络的分类算法,采用决策树优化神经网络的初始权重和结构。该算法极大降低传统神经网络初始值的随机性,提高隐藏层数目的合理性,有利于最优神经网络模型的生成。实验结果表明,本文提出的分类算法和传统的神经网络相比,分类速度提高11%,分类精度提高2.5%。(4)基于决策树优化神经网络分类算法的西藏发展应用使用本文提出的文本分类模型,自动归类西藏发展相关的文本集为政治、经济、文化和教育,并采用词云可视化技术展示西藏在政治、经济、文化、教育的发展情况,最后采用情感极性分析技术建立西藏发展相关的文本情感极性分类器。
其他文献
目的:探讨外倾人格倾向者的沙盘特征。方法:采用艾森克人格问卷为工具在某师范学院筛选出中间型27人,外倾倾向型26人,外倾型19人,合计72人参与沙盘游戏实验,并完成青少年生活
先后采用浸泡法和烟雾抽提吸附法分别对正常的中华牌香烟和有异味的中华牌香烟进行了测试,以寻找香烟异味的原因.实验结果表明,异味来自烟丝本身.由于卷烟烟气的化学成分非常
<正>所谓文化,从广义上讲,就是指一个民族在历史进程中创造的物质文明和精神文明的总和。而狭义的文化则主要界定于精神文明的范围。从秦汉以来,历代王朝为戍边卫国、维护国
为提高进口集装箱提取作业效率,制定合理的堆存策略和翻箱策略,考虑集装箱堆存作业与提取作业的关联性建立两阶段规划模型。从降低期望翻箱率的角度,优化进口集装箱的箱位分
<正> 紫果西蕃莲(Passiflora edulis Sims)属西蕃莲科,西蕃莲属,又名鸡蛋果、洋石榴,为多年生木质藤本植物,原产南美,巴西,在我国台湾、广东、福建、广西、云南、浙江等省均
地方高校由于受区域经济发展和自身发展的制约,在思政课教师高层次人才引进及师资队伍稳定上受到较大影响。构建一个科学合理的绩效分配制度既能使地方高校有限的资源得到优
在敏捷制造的背景下,以医疗器械制造企业为研究对象,运用工业工程改善思想,结合ERP、TOC计划与控制理论等相关知识,针对所研究公司延误交货、生产不均衡和资源利用率低等情况
对日本而言,在日本中部爱知县外海成功开采到可燃冰无疑具有重大意义。在此之前,日本不但本土未发现可开采的化石能源,2011年福岛核电事故之后日本关闭了境内全部的54座核电站,从
本文介绍了国内外土地储备的现状,针对目前技术研发与实例研究以及MIS系统弊端,提出利用空间数据库、GIS及Web技术,对土地储备管理信息系统进行设计与实现的技术路径,大大提高了管理水平与工作效率。
"一带一路"倡议的提出和实施为中医药的对外交流提供了新的契机。总结"一带一路"背景下中医药对外交流的现状,分析国外政策法规、国外对中医药技术的接纳、中西医形成背景、