基于机器学习的文本倾向性分析及产品评价信息挖掘

来源 :北京大学 | 被引量 : 0次 | 上传用户:typ172212
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本倾向性分析是自然语言处理一个十分重要的问题,在信息过滤,电子商务,观点搜索,自动问答等领域具有广泛的应用场景。 本文主要考察句子一级的观点自动抽取和倾向性自动识别。基于现有倾向性词典设计了词语驱动的方法自动识别观点和极性。还将统计机器学习方法如朴素贝叶斯,最大熵,支持向量机等应用于观点抽取和褒贬性识别。对中英文分别进行了实验,采取了严格条件、宽松条件下的评估,与现有方法详细比较,结果表明本文算法的优越性。 观点信息总与特定话题相关,本文采用了统计机器学习方法朴素贝叶斯、最大熵和支持向量机对话题识别,话题相关性判别进行了实验,最终话题识别达到了较高的精度,相关性判别性能也优于现有方法。 关于特定领域的评价信息如产品评价信息,本文深入考察如何在句子一级进行产品特征和观点词语的自动识别。考虑到产品特征和观点词语之间具有很强的上下文依赖性,设计和实现了交叉引导和交叉训练的方法,将产品特征的自动识别和观点词语的自动抽取集成到统一的框架中。两个分类任务相互指导,相互推进,以一种迭代的交叉学习的模式不断对已有小规模的标注语料进行扩充。 本文具有如下几个创新点: ◇设计了词语驱动的方法进行观点抽取和倾向性识别; ◇使用统计机器学习算法研究中文句子的观点识别和褒贬性判别,对特征选取进行了深入研究,取得了不错的效果; ◇设计了一种机器学习算法进行话题识别和话题相关性判别,为特定话题的观点抽取做好充分的准备; ◇提出了交叉引导和交叉训练的方法同时迭代学习产品特征和观点词语,并提出交叉学习的机器学习思想: ◇关于产品特征的自动抽取和观点词识别,提出一种全新的句子级别的评价方法; ◇提出一套行之有效的产品评论数据挖掘的框架,提出一种观点摘要的生成方式,为开发实际的产品评论系统做了一个铺垫。
其他文献
在开发大规模分布式应用的过程中,如何有效地集成和共享已有的软件和本地计算,提高系统的开发效率,降低系统的开发成本一直是分布式系统研究和关注的重点问题。为了解决这一问题
我国税务机关的个体税收征管,传统上是由税务人员主观评定纳税额。存在人为参与因素多、规范不细,不利于具体问题具体分析,规范的变化缓慢,不能适应市场经济发展的需要,严重制约着
Internet高速发展使人们越来越依赖于通过互联网获取各种信息,CNNIC的最新报告显示互联网第一入口是即时通信的比例是39.7%,看新闻则以20%居第二。新闻信息本身具有数量大、增长
随着经济活动的不断发展,人们对道路交通系统的依赖越来越强,交通拥堵(trafficcongestion)成为世界各大城市面临的严峻问题。近年来智能交通系统(IntelligentTrafficSystem,ITS)
细分曲面作为一种几何外形表示方法,具有交互直观、整体光滑、任意拓扑等优势,在影视特效、三维游戏和数字媒体内容创作等行业中得到了广泛的应用。细分曲面是递归定义的,这与当
如今,软件系统的复杂度越来越大,而对软件系统的可靠性、时效性的要求也越来越高。如何在保证软件产品质量的前提下有效控制产品的开发和维护成本,是企业提升市场竞争力的关键。
如今,随着计算机和互联网的蓬勃发展,给人类的生活带来了革命性的变化。而不论是计算机基础应用还是互联网,表示和查找已经成为大多数计算机应用的核心。BloomFilter是一种空间
近年来,随着传感器网络和RFID技术的发展,基于数据流的应用已经无所不在。数据流上的应用大多是监控型的,并且这些监控任务一般是简单事件的组合,但简单的数据流管理系统(DSMS)一
随着定位技术的普及和无线传输技术的发展,大量轨迹数据正以各种方式快速产生和收集起来,并被广泛用于基于位置的服务(LBS)、无人驾驶、动物行为研究、气象预测和城市规划等领
特征的表达和融合是计算机视觉算法中的两个重要部分。例如,在基于骨架的人体行为识别中,如何表达三维骨架的几何关系对于行为识别效果有至关重要的影响。然而很多现有的研究都