基于Web的评论文本倾向性分析技术研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:xyhai110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web的迅猛发展,网络已经成为完美交流意见、发表观点和展现个性的平台。当今大量用户在微博、论坛、购物网等平台上表达自己的观点和意见,具有强烈的情感倾向性。如何更为高效的挖掘出这些观点,并识别出这些观点的倾向性是目前自然语言领域研究的重点和热点。文本倾向性分析作为解决这一问题的关键技术,主要是指针对用户对某个事物的态度、看法、评论进行文本的挖掘,从而得到该看法或评论是属于对该事物的积极或消极、正面或反面意见。文本倾向性分析在市场预测分析、民意调查、智能导购、大众评论、影视评价等诸多领域有着广阔的应用空间和发展前景。本文总结了最近几年的国内外研究进展状况,分析了目前文本倾向性分析所面临的问题并提出了本文的研究思路。在研究的过程中,对其中涉及到的关键技术做了详细的介绍,并基于这些技术针对评论文本的倾向性分析做了如下工作:第一,评价搭配识别研究。本文首先阐明了评价搭配的概念,即评价词语所修饰的评价对象之间的关系,具体表现为二元对<评价对象,评价短语>。其次,利用最大熵方法进行了评价搭配的抽取,在构造最大熵模板过程中,构建了评价词表,表中利用《同义词词典》对评价词进行了同义词归类,用评价词类别填充模板,实验结果表明,本文的方法在识别性能上和准确率上均有提高。第二,对极性词典的构建做了详细论述。本文利用统计、机器学习等方法基于大规模语料库进行了挖掘,利用搜狗实验室提供的互联网词库以及《知网》提供的正负面评价短语、正负面情感词语、《同义词词典》、《汉语褒贬义用法词典》中的提供的褒贬义词语作为参考资源构建极性词典。本文构建的词典包括基础词典、领域极性词词典、领域属性词词典、网络词典和修饰词典。本文构建的词典相对比较全面,为评论文本倾向性分析提奠定了基础。第三,提出极性计算公式。本文主要以短语级极性计算为基本计算单元,进而计算句子级的倾向性,其中包括了极性强度的计算和句子褒贬义的判断。借助于本文构建的极性词典,构建了评价短语的极性值计算公式,并且以评价短语为基本单位结合评价对象构造了句子级的极性计算。本文利用第三届文本倾向性评测大会提供的语料、谭松波提供的语料以及从网络上抓取的语料进行实验,利用三种方法进行了对比实验,结果表明本文提出的方法从准确率上均高于其他两种方法,达到了预期的效果。
其他文献
随着Internet和嵌入式技术的迅速发展,许多基于嵌入式技术的设备都在开始接入Internet,并且基于USB(Universal Serial Bus)接口的数据存储技术,是近年来IT行业的热点。数据交换
随着互联网技术的不断发展,基于网络的应用趋向于多元化发展,互联网的应用需求不断井喷,随之而来的一个问题是网络拥塞。解决拥塞,防范大于未然。近年来,对主动队列管理算法的研究
随着网络及信息技术的飞速发展,在线购物、社交网络等在线社会网络已成为人们生活中必不可少的一部分.然而网络中的信息呈现出爆炸性增长,信息的数量大大超出了人们的处理能
数据隐私保护技术在现实中具有重要的作用和意义。其中,动态数据集重发布中的隐私保护在现实中得到了越来越广泛的应用,随之相应的隐私保护模型的研究也得到了进一步发展。但是
网络的快速发展使得网络的规模变得越来越大,也越来越复杂。在已有的网络关系中寻找未知的链接,从而得到人们想去了解和认知的东西。这方面的研究受到许多学者的关注。网络中的
喷墨打印技术在各种新型的工业中都有广泛的应用,例如:细胞打印、3D打印、电子封装、制作DNA材料等等。正是由于喷墨打印技术的普及应用,现在越来越多的人们对该技术进行研究
在对无线传感器网络的研究中,路由技术的研究占有重要地位,一直是人们研究的重点问题。为此,本文研究了Multi-Radio Multi-Power传感器网络中基于虚拟坐标的路由选择、机会路由
随着计算机技术的快速发展,软件功能越来越强,但软件中漏洞的数量也越来越多,对用户资料的安全造成威胁。大多数攻击试图改变程序的运行或者通过程序控制目标机器,代码注入是早期
随着互联网规模的不断扩大及其应用的多元化发展,迫切需要对网络的流量进行实时、在线的监控和管理。因此研究网络流量特征,对网络管理、规划和发展都有重要意义。其中,网络
信息检索、会话系统已经得到广泛研究和应用,例如常用的检索系统有百度、谷歌,会话系统小冰和Siri,以及服务行业的自动应答系统等等。随着智慧旅游热度的提升,人们越来越希望