面向情感分析的特征抽取技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:gf930
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络上各种论坛、BBS、虚拟社区有着丰富而又繁杂的用户评论,如何从这些评论文本中挖掘对于产品性能的意见信息,越来越受到国内外研究者的关注。从网络评论中挖掘评价意见,不仅可以为潜在的产品购买者提供参考意见,还可以方便商家跟踪产品使用者的反馈。本文研究的目的是改进特征抽取算法和意见挖掘算法,使之适用于中文处理,并最终实现一个产品的网络评价分析原型系统。本文在对意见挖掘方向现有的研究成果、算法、思想进行分析和总结的基础上,结合中文语言本身的特点,提出了基于关联规则的产品特征抽取算法和基于句法分析的意见分析算法,并设计一个基于Google API的网络评论分析系统,通过实践分析和总结这两个算法在应用中可能存在的问题。本文的主要研究工作和创新点如下:首先,针对产品特征在用户评论中表现为评论对象,并且与领域术语一样具有领域相关的特点,应用关联规则的方法从评论数据库中自动抽取产品特征。这种方法在英文语言的处理中,已经被证明是可行的和有效的,本文通过改进之后用于中文处理。其次,针对产品特征本身的特点,本文应用了多种特征过滤算法。根据产品特征与领域相关的特点,设计领域相关度过滤算法,可过滤不准确的单名词;根据产品特征在文本中以词组的形式出现的特点,设计非短语过滤算法,剔除特征候选中不能构成名词短语的名词模式。再次,针对评论语句中主观情感表达和句法表达复杂的情况,提出利用句法分析器剖析句子结构,以识别极性词与修饰副词的依存关系,以及极性词与产品特征的依存关系。基于这个方法,本文设计了极性词的上下文极性分析算法和极性词与产品特征配对分析算法,并将算法用于分析评论句子的意见极性和强度。最后,本文设计了一个基于Google API自动分析产品的网络评价的原型系统,通过限定查询式中的关键词准确找到相关的意见型主观文本。本文通过原型系统构建的实践,分析特征抽取算法和意见分析算法在具体应用中出现的问题,发现算法的不足之处和改进方向。
其他文献
随着计算机技术及医学技术的进步,当前医学相关的数据正在呈“爆炸”式增长。大量的医学数据以文本的形式被记载在各种医学文献中并存储于数据库,如中医药文献库和MEDLINE数
乐器识别是音频检索的一个重要领域,它既涉及声源的声学属性,也涉及到人耳对音频的感知心理,是深入研究音频检索的基础。乐器识别在科学研究和实际应用中有着重要意义。本文
Web服务(Web Services)实现了跨平台、操作系统和编程环境的互操作,成了当前流行的应用开发平台,进而导致国际互联网络上出现了大量功能相同或相似的Web服务,如何从可能的服
作为一种新型的群体智能算法,微粒群算法源于群居生物行为的启发,具有收敛速度快、搜索效率高的特点,已成功应用于多种优化问题的研究。群机器人是典型的群体智能系统,用于目
在现代社会中,图像检索系统的发展越来越快,系统中所包含的图像越来越多。当今的图像检索特征提取算法主要包括颜色直方图、基于图像的纹理和形状等特征进行提取。颜色和形状
目前已经进入大数据的时代,每天都在产生巨量的数据。对于大数据的处理,滤过分析是对数据的通常处理办法,同时为了得到结果需要进行相应的操作,其中相应的最基本操作即为代数操作
确定事件发生的位置或获取信息的节点的位置是传感器网络最基本的功能之一。随着无线传感器网络研究的深入,其应用愈加广泛,固定的网络结构已无法满足新增应用的需要,移动节
在对社会网的研究中,影响传播问题的研究占有重要地位,一直是人们研究的重点问题。然而现有的大部分研究忽略了一个重要的事实,即地理位置信息对于社会网的影响传播问题是至
随着嵌入式技术、网络技术和通信技术的发展,安防监控系统正在向小型化、移动化、主动化的方向发展,于是主动式的远程家居视频监控将会慢慢流行起来,成为一种趋势。本文采用
由于互联网行业的不断发展,随之而来的是大量的数据,因此如何在这些大量数据中获得有价值的知识成为了人们关注的焦点。在所有的数据挖掘算法中,可以利用kNN算法进行数据分类