基于主题模型的无监督方面级观点挖掘算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:zhgjdy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
移动互联网的迅猛发展和智能手机的普及,为人们随时随地发表评论和意见提供了有利条件。在Tweet、微博等社交平台,在淘宝、亚马逊、京东等网购平台,人们可以对不同领域不同商品进行评价。有效的分析这些评价,能够辅助厂家进行销售、未来发展的决策,亦能帮助消费者筛选合乎自己期待的产品。但单纯对评论语句进行情感极性判断,不能提供有效的信息,还需要进一步确定情感词描述的对象。评论的方面级观点挖掘能够从评论中抽取方面级评论对象和评论范畴,有着重要的研究意义与价值。然而海量的评论涉及的商品种类繁多,方面级观点挖掘所需数据标注的过程繁琐,为所有领域的评论建立规范标注语料库将耗费大量的资源。依赖于标注数据集的有监督方法将很难应用于缺乏标注语料的评论领域。如何在少监督及无监督情况下提高模型的效果,并使模型具有领域适应性(包括不同领域、不同语言),是非常值得研究的课题。基于LDA(Latent Dirichlet Allocation)主题模型,本文提出用于方面级观点挖掘的无监督模型SLDA(SentiWordNet WordNet-Latent Dirichlet Allocation)和HMELDA(Hierarchical Clustering MaxEnt-Latent Dirichlet Allocation)。针对LDA主题模型的结果缺乏可读性的问题,设计了以种子词作为主题词且建立倒排索引的方案,增强结果的可读性。同时在LDA主题模型的基础上,引入新的指示变量以细化主题的分类,通过两种不通的策略实现方面级评论对象词和情感观点词的分类。为了提高分类效果,通过两种方式计算词与种子词的相似度,用来对标准LDA中定值参数进行偏置。基于SemEval2016ABSA数据集、Yelp数据集,设计基于不同大小训练集、不同种子词的对比实验。实验证明SLDA模型和HME-LDA模型在无标注训练集的情况下,有较好的表现性。
其他文献
通过对柏拉图思想的分析和诠释,从三个方面对其人格心理思想进行了阐述。首先从心理学角度论述了其人格心理思想的基础—理念论;其次,对柏拉图的人格结构论、理想人格、现实
猪血凝性脑脊髓炎病毒(Porcine hemagglutinating encephalomyelitis virus,PHEV)是一种典型的嗜神经性冠状病毒,其主要感染3周龄以内的哺乳仔猪,可引起脑脊髓炎,呈现明显抽
通过分析农产品产地初加工发展现状及形势,概括了“十二五”时期项目执行情况,论述了“十三五”时期应该采取的推进措施,为促进农业机械化发展和农产品加工业发展提供新思路。
本文通过说明电力输电线路的相关安全运行影响因素,详细介绍了电路输电路线故障原因,并针对故障问题提出了安全稳定运行的保障措施,期望能给相关研究提供参考借鉴。
存在即合理,大学的存在自有其客观依据。大学的逻辑,即大学存在与发展的合理性在于大学的社会价值。大学教师的逻辑取决于大学的逻辑,当代大学的社会价值决定了大学的使命,从
“新人类”因其具体的思想观念和生活方式的不同,可以概括为以下几种类型:(1)物质上并不富足,更注重精神上的自由和自己独立思想及个体价值体现的“纯粹主义者”。(2)易飞士,
进入21世纪以来,一方面,随着改革开放的深化,社会逐步进入转型期,社会经济体制不断变革,国内国际间利益冲突不断,经济全球化的推进促进各国价值观的交流,促进群众价值取向多
目的探讨急性脑卒中临床救治采用急诊护理快速通道在缩短救治时间、提高治疗效果中的作用。方法以2016年3月~2018年3月我院急诊救治的52例急性脑卒中患者为例,分为实验组26例
中低年级需要着重培养学生的计算能力和基本的逻辑思维能力.国家在学校开设数学这门学科具有一定的合理性,要求教师要将提升学生数学素养作为工作重点,围绕这一重点开展各项
中枢炎症是多种中枢神经系统(Central nervous system,CNS)疾病共同的病理生理通路,可导致突触损伤、神经元结构功能丧失和CNS疾病恶化。脑内胶质细胞的过度激活、促炎因子的