观点挖掘模型的研究与改进

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:liuw_ei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子商务和社交网络的蓬勃发展,越来越多的网民对各种产品、事件和人物发表自己的看法,网络评论信息的数量呈爆炸式增长。这些信息的收集和分析对个人、组织、社会乃至国家都有重要意义。面对如此庞大的数据量,人为分析显然不能满足需求,所以针对网络评论信息的观点挖掘成为一个重要的研究课题,也逐渐得到了广泛的关注和深入的研究。针对网络评论的观点挖掘研究主要集中在特征提取和情感分析两个方面。近年来,作为一个无监督机器学习模型,LDA主题模型在观点挖掘领域做出了巨大贡献。但是观点挖掘的研究也存在问题:基于LDA的模型需要预先设定主题个数,许多模型无法区分特征词和观点词,不能识别出特征相关的观点词以及过分依赖情感词典进行情感分析等。为解决这些问题,本文结合分层狄利克雷过程主题(HDP-LDA)模型和最大熵主题(MaxEnt-LDA)模型的优点,提出了一个分层狄利克雷过程和主题最大熵混合(HDP-ME-LDA)模型。HDP-ME-LDA模型主要有如下贡献:(1)该模型可以自动决定主题的数量而不需要人工干预。HDP自动聚类生成的主题数往往比人通过经验决定的主题数更符合文本内在的信息。(2)该模型不仅可以区分特征词和观点词,还可以区分全局特征词和局部特征词,全局观点词和特征相关的局部观点词,使得观点挖掘结果的粒度更细致,展示的信息更具体和实用。(3)该模型不仅可以提取出主题和观点,还可以分析观点的情感极性。模型没有使用情感词典,摆脱对情感词典的依赖,增强了情感分析的跨领域性。(4)该模型使用短句作为基本单位,相比其他基于LDA的模型,最大程度保留了文本的上下文信息本文实现了HDP-ME-LDA模型并在适当的数据集上完成了对照实验。实验结果表明,相比于JST、ASUM、MaxEnt-LDA和HDP-LDA等主流模型,HDP-ME-LDA的结果更加全面和具体,且在主题一致性、划分词语主观性的准确率、识别局部词语的准确率和情感分类准确率上均有更好的表现,它解决了本文提出的问题。
其他文献
2015年以来,随着人口、出口等红利的消失,我国经济增长开始疲软,政府出于“保增长”的需求,想要继续进行大规模的政府投资。但由于财政赤字是有限度的,政府投资不可能有一直
随着科技的迅速发展,新媒体时代的到来,各新媒体的出现和普及应用不但影响人们的生活,还改变着人们获取信息的渠道,思想及阅读习惯。新媒体环境下利用传统方式服务读者的图书
小栗子银多金属矿大地构造位置位于华北地台(Ⅰ级)北缘东段、辽东台隆(Ⅱ级)、太子河~浑江陷褶断束(Ⅲ级)、老岭断块(Ⅳ级)中段之南东翼多金属矿集区,成矿条件优越。研究区出
现代教学理论认为,教学过程是一个以心理活动为基础的情感过程和认知过程的统一。教学中,师生情感的参与有利于学生非智力因素的丌发,并直接影响着课堂效率。所谓情感教学,从
会议
矮牵牛(Petunia ×hybrida)为茄科碧冬茄属观赏植物,同时也是重要的模式植物。近年来研究发现蓝光受体隐花色素(Cryptochrome,CRY)在植物的分枝发育具有重要作用。为研究PhCRY1、PhCRY2的功能,我们从Petunia × hybrida cv Mitchell Diploid中克隆了矮牵牛PhCRY1,PhCRY2的全长序列和PhCRY1启动子序列,并对PhCRY1和
时至今日,开源软件早已经成为软件领域不可或缺的重要组成部分。在当今大数据的时代背景下,软件代码的规模也越来越庞大,这使得代码质量(可维护性、可阅读性等)的维护越来越
拉陵高里地区位于柴达木盆地西南缘、昆仑山北坡的东昆仑造山带中,该地区岩浆活动频繁,侵入岩分布面积较广,从新元古代-晚三叠世等不同时代的侵入岩在该区均有分布。近年来,
节约是一个古老的话题,也是一个世界性的话题。"构建节约型社会"是党中央提出的战略号召。我国资源消耗高、浪费大、环境污染严重等问题依然存在,因此,积极创建节约型城市、
会议
主要汇报深空探测VLBI测定轨技术及发展。包括我国首次火星探测VLBI测定轨技术分析、后续的小行星和木星探测VLBI测定轨关键技术。以及为了提高我国VLBI测定轨能力,建议后续
会议
文化身份是华裔美国文学中不可避免的话题,本文以当代华裔美国作家林露德的长篇传记小说《木鱼歌》(1995)为研究对象,结合相关文化身份理论展现其主要人物的多重文化身份,即