基于NLP的产品中文评论特征词识别与语义倾向分析

来源 :南开大学 | 被引量 : 0次 | 上传用户:nastar
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络上的产品评论对消费者和生产厂商都有重要意义。随着国内网络用户的增多,产品评论数量激增,但因缺乏合理的组织方式,导致信息获取困难。本文针对产品中文评论,使用自然语言处理相关的方法和技术,设计了探测用户对产品特征主观倾向的系统方法,实现了产品评论中特征词、观点词的识别和用户针对特征词的主观倾向分析。本文主要研究内容包括:   1.结合句法规则和主题相关度度量,对评论中的特征词进行识别。在产品特征词识别方面,目前广为使用的方法是:人工定义和自动提取。人工定义特征词词典的方法移植性、适应性差。自动提取中使用关联规则对名词频繁项进行挖掘,覆盖率较低。针对这些缺点,本文提出首先使用语法规则对候选特征词进行提取,然后使用主题相关度算法,计算候选特征词与评论主题的相关度,实现特征词过滤。   2.<特征词,观点词>关联对的识别。本文认为,评论中最有价值的信息是:用户对产品的哪些特征做了什么评价,而<特征词,观点词>正能体现这一点。在<特征词,观点词>关联对的识别中,广为使用的有两类方法:一类是先识别特征词(观点词),然后在最近距离内根据词性选取观点词(特征词);另一类是基于监督学习的方法,学习关联对的出现模式,通过训练模型对新的评论进行关联对识别。前者方法简单,但极易引入错误匹配;后者通用性好,但是需要大量标注数据的支持,而标注数据的获得代价较大。本文基于识别出的观点词,结合依存关系,对评论语句中的关联对进行抽取。   3.基于似然率测试方法的观点词语义倾向判断。广为使用的是基于WordNet等语义词典的方法。这类方法实现简单、快速,但有两个严重的缺点:①仅能识别词典中的形容词,而实际的观点词包含动词;②完全依靠词典,对上下文依赖的观点词将判断失误。本文使用似然率测试的方法,通过计算观点词与种子词的语义关联度得到观点词的语义极性。该方法对观点词的词性没有要求,并且由于是基于统计的方法,对于种子词集合以外的词同样适用。
其他文献
Ad hoc网络是一个由具有无线通信功能的节点组成的多跳无线网络,由于其独有的自组织特性,使得Ad hoc网络适合需要临时架构网络的场所,在军事和民用等领域具有很大发展前景。  
求解2个给定的系统发生树的最大一致森林问题在计算生物学上是一个非常重要的NP-难问题。系统发生树包括了有根和无根2种情况。本文主要研究无根多叉系统发生树。生物方面:最
延迟容忍网络(DTN)是一种端到端之间缺乏持续可靠连接、低数据率、链路高延迟的网络,同时也是一种资源受限型网络。节点以“存储—携带—转发”的形式转发数据,数据在网络中
随着开放获取在科研领域的发展,科研工作者们越来越习惯通过网络来进行文献获取和学术交流。如何在科研文献数量呈现爆炸式增长的情况下,为用户提供方便快捷的论文获取方式,
在大规模的无线传感器网络中,节点基本上采用无源节点并使用电池供电。因此,节点自身能量的有限性与通信距离的局限性将直接影响到整个网络的生命周期。路由协议作为无线传感器
粗糙集理论是一种能够很好处理不确定信息的数学工具。近年来,粗糙集理论在数据挖掘领域得到了越来越多的应用。聚类与属性约简一直是数据挖掘技术中的重点与难点,如何进一步地
Petri网凭借其描述异步并发和图形表示的突出能力成为了系统建模、行为分析的一个有力的工具,其应用也日趋广泛。然而,由其节点过多而引致的“状态空间爆炸”问题则一直是阻碍Petri网发展的瓶颈,尤其是在面对复杂而庞大的系统时,系统分析将会变得非常复杂。源于此,Petri网学者的工作重点之一就是要对Petri网进行有效化简,将Petri网分解为若干相对简单的子网。电网故障诊断是电力系统自动化的重要内容
随着技术的发展和网络规模不断扩大,各种复杂、隐蔽的攻击技术不断出现,这使得现有的入侵检测系统往往显得力不从心。对于大规模的网络数据和复杂的入侵行为,一种比较可行的
近年来,癌症(恶性肿瘤)的发病率和死亡率都不断上升,并成为威胁人类健康的主要疾病。放射治疗是治疗肿瘤的主要手段之一。随着科技的发展,放疗已从二维的立体定向放疗发展到三维适
如今,伴随着数据量地快速增长,海量数据成为困扰企业发展的因素之一。如何有效处理数据,减小数据访问的并发压力,成为大数据解决方案不断发展的动力。MapReduce是分布式计算