基于文本分类技术的文本情感倾向性研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:snowlhj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本情感倾向性研究在近些年成为众多学者关注的热点,其应用领域也在不断的拓宽。从社会舆论监督到产品口碑检测都离不开文本情感倾向性研究。本文在传统的文本分类技术基础上提出一种基于规则与统计方法相结合的情感分析模型。并将该模型在两种有代表性的语料中做了实验。语料一:领域背景复杂且分布极不平衡的新闻文本语料;语料二:领域背景单一的股票领域的专家的股评语料。(1)分析新闻文本的情感倾向性,为新闻文本自动播报提供情感信息。本文提出一种中心句确定方法,并在提取的中心句的基础上运用统计方法提取潜在规则来对人工构建的规则库做补充,使规则库相对完备提高情感分析的效果。实验中采用支持向量机、贝叶斯分类器和K近邻分类器作为分类器与规则结合,并且使用多种特征提取方法和特征权重计算方法来进行对比实验。由于新闻语料自身的分布的极不平衡性,导致单纯的统计的方法在稀有类上的表现比较差,而规则与统计相结合的方法虽然没有能够完全解决这一难题,但却在一定程度上改善了实验效果。实验效果表明规则与统计方法相结合的情感分析模型相比于单纯的统计模型在效果上有了较明显的提高,表明规则结合统计的方法具有很好的普适性。(2)本研究是建立在股票领域的垂直搜索应用上的。该应用需要对股评专家对某支股票的评论做看多、看平、看空、不确定进行分类。在这部分实验中因为所用语料短小、领域性非常强、口语化比较严重,通用的分词软件不能很好的进行分词。本文提出一种简便的定位特征词的方法,不仅满足了实验需求且时间效率非常高,时间复杂度为0(n)。由于领域单一容易提取较完备的规则,在这部分实验中规则的平均准确率均在90%以上,且均优于统计的方法。本文提出的规则结合统计方法的分类模型在背景复杂的新闻文本语料中取得了很好的效果,较单纯的统计方法分类效果有了明显的提高,有效地改善了稀有类的分类效果。但是在背景单一的股票领域语料上并没有多大的提高,说明规则的方法较适用于背景单一的语料。
其他文献
传统的文本分类方法在类别数目较少时取得了很好的分类效果。然而,随着类别数目越来越大,如LookSmart、ODP等都有成千上万的类别,如果还利用扁平化方式组织这些类别,那么为一
连接操作是关系数据库系统中最基本、最昂贵的操作,对数据库的性能有着重要的影响。为满足高性能和低功耗的要求,工业界和学术界越来越多地利用新型非易失性内存读写速度快、
随着科学技术的飞速发展,计算机联锁系统已经取代了电气集中联锁系统,成为将来车站联锁系统的主要发展方向。计算机联锁软件是保障铁路车站列车或机车作业安全的关键软件,而
随着世界经济的快速发展和现代科学技术的进步,物流产业作为国民经济中一个重要的服务行业,逐渐成为国民经济发展的动脉和基础产业。车辆调度问题作为物流配送中的一个重要环节
学位
随着互联网在日常生活与工作的普及应用,面对眼前混杂有大量垃圾信息及无意义信息的海量数据,给我们带来了筛选出有效信息的巨大难题。为了解决信息过载问题,个性化推荐越来
流媒体已经成为推动未来宽带应用的主要动力。但流媒体对宽带资源要求高且服务时间长,在传统C/S模式下,服务器很容易成为系统瓶颈。对于这个问题,现有的解决办法主要是采用IP
随着信息化的快速发展,移动终端已应用于大数据、云计算和物联网等领域。同时,对存储性能、能耗、容量、可靠性和成本等提出更高要求。DRAM能耗和可缩性限制成为制约移动终端
语义Web是由Berners-Lee所提出的下一代Web,语义Web吸取人工智能、哲学和逻辑等学科的研究成果,希望对Web上信息的表示和获取方式进行重大改进,以解决目前使用Web时存在的问
21世纪是一个科技高速发展的信息化时代,数字图像作为最直观生动的载体,被普遍应用于各个领域中。因此,保护图像数据的安全性刻不容缓。图像数据具有自身独有的特点,单纯的传
SEO是搜索引擎的产物,确切的说是互联网的必然产物,它借助搜索引擎这个媒体顺势而生。SEO为了提升互联网质量,方便检索而存在。搜索引擎的快速发展,从简单到复杂,从单一到全面,逐步