基于神经网络的文本倾向性分类研究

来源 :内蒙古大学 | 被引量 : 1次 | 上传用户:wcbcni22
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网是随着时代发展产生的新型信息交流工具,如今已经进入了我们学习生活中的方方面面。与此同时网络上可交流的平台越来越多,在这些平台中各种各样的评论性文本也呈爆发式增长,对这些文本进行倾向分类,挖掘文本中潜在的价值具有十分重要的意义。各种平台的评论性文本包含着对时事、物品的正负评论等,对此类文本进行倾向性分类主要是以情感、舆论导向为主线进行分类。如今,这项工作越来越被关注同时吸引了大批学者。关于对文本进行倾向性分类主要有两类方法,一是借助于词典、语料库的方法。此方法在文本分类方面具有良好的效果,但是此方法过多依赖词典等外部元素,分类结果的好坏与词典等外部元素有直接关系,同时计算量较大。第二种方法是机器学习方法,该方法结合特征抽取技术,对文本用特殊的方式进行表示进而使用机器学习方法分类。不同的机器学习方法分类效果不同,且容易受到文本好坏的影响。本文以论坛评论性文本和电子商务网站评论性文本为载体,对文本进行倾向性分类。结合不同文本的特点,本文中人工采集了一组含噪声较多的论坛数据同时在网站采集了一组规范的电商评论数据。评论性文本结构复杂、语言风格多样,针对此类现象,首先对文本进行了处理,将文本格式等进行规范化,然后专门构造了分词词典并应用到了分词过程中去。结合文本向量表示方法及X 2统计量特征抽取方法构造了文本的向量矩阵。由于论坛和电商网站评论性文本存在噪声较多且特征多变,结合文本倾向分类的方式,本文选择利用文本预处理结合机器学习进行文本倾向性分类。在众多机器学习方法中,本文选用BP神经网络模型作为文本倾向性分类模型。本文中在文本分类模型训练过程中,构造了一层到两层的神经网络分类模型然后在不同的训练集上进行了比对实验,选出了最优模型进而对测试文本进行了测试实验。通过不同数据集对该模型的实验结果的分析,验证了 BP神经网络分类模型对含有噪声的文本的容错能力,分类效果较好。
其他文献
利用2006-2015年10年的FY2C/E卫星资料,采用多阈值法对江淮地区对流云进行识别和分类,并统计分析了其时空分布特征。结果显示,江淮地区对流云活动频率与地形具有较好的对应关
分税制改革以来,地方政府承担着不相匹配的财权和事权,与此同时,土地出让金收入占公共财政收入的比重从1999年的8.49%上升至2013年的60.86%,显示土地财政已经成为地方政府缓
随着体育旅游业的兴起繁荣,在相关国家和地方政策以及相关标准的推动下,旅游度假区开发体育旅游产品已成为度假业发展的大势所趋,体育旅游产品也正逐步成为旅游度假区的核心产品之一。基于此,对旅游度假区体育旅游产品进行深入研究非常有必要。目前,学术界对旅游度假区体育旅游产品的研究较少,这与旅游度假区体育旅游产品的良好发展态势不相适应。本文以国务院办公厅《关于促进全民健身和体育消费推动体育产业高质量发展的意见
学位
为了探讨冰晶核化对雷暴云闪电行为的影响,结合一次真实的雷暴云个例,通过已有的三维对流云起、放电模式探讨对比了三种冰晶核化方案,分别为原模式中的经验公式YS方案及与气
熊市遵循价值投资,而牛市忽视价值投资是对我国股市的一种普遍印象。这种不同市场行情对基金投资决策产生不同影响的市场印象由来已久,并未得到专门验证。本文从基金的投资行
三维可视媒体(图像与视频)因为其震撼的立体效果和极具冲击的感官体验正变得越来越受欢迎。面对当今各种各样的终端显示设备,当图像与视频的分辨率与显示屏不相符时,如何使之
多视点视频系统能够在解码端提供多个视角观看视频,给观看者带来真实感和沉浸感。由于传输带宽的限制,不可能采集密集视点的视频,因此需要虚拟视点绘制技术。在编码端传输少
在互联网快速发展和大数据的大背景下,大众的视觉体验效果得到了飞速的提升。3D视频会议系统、3D导航、3D医疗等先进技术给大众带来极大的便利同时,也不可避免地带来一些问题
多媒体信息技术的发展带动着三维视频、多视点视频、自由视点视频的应用。多视点彩色加深度(Mul-tiview Video plus Depth,MVD)的视频格式在实现自由视点视频的过程中被较为
当前高校贫困生工作在经济发展和制度创新的背景下不断变化发展,研究成果的理论性和系统性明显增强,但真正意义上的管理学研究成果不到10%的比例,并且还是在“教育理论和教育