基于Web的评论文本倾向性分析技术研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户：xyhai110

【摘要】

：

随着Web的迅猛发展，网络已经成为完美交流意见、发表观点和展现个性的平台。当今大量用户在微博、论坛、购物网等平台上表达自己的观点和意见，具有强烈的情感倾向性。如何更为

【作者】

：

方明

【机构】

：

山东师范大学

【出处】

：

山东师范大学

【发表日期】

：

2012年期

【关键词】

：

自然语言处理文本倾向性分析评价搭配极性词典极性计算

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Web的迅猛发展，网络已经成为完美交流意见、发表观点和展现个性的平台。当今大量用户在微博、论坛、购物网等平台上表达自己的观点和意见，具有强烈的情感倾向性。如何更为高效的挖掘出这些观点，并识别出这些观点的倾向性是目前自然语言领域研究的重点和热点。文本倾向性分析作为解决这一问题的关键技术，主要是指针对用户对某个事物的态度、看法、评论进行文本的挖掘，从而得到该看法或评论是属于对该事物的积极或消极、正面或反面意见。文本倾向性分析在市场预测分析、民意调查、智能导购、大众评论、影视评价等诸多领域有着广阔的应用空间和发展前景。本文总结了最近几年的国内外研究进展状况，分析了目前文本倾向性分析所面临的问题并提出了本文的研究思路。在研究的过程中，对其中涉及到的关键技术做了详细的介绍，并基于这些技术针对评论文本的倾向性分析做了如下工作：第一，评价搭配识别研究。本文首先阐明了评价搭配的概念，即评价词语所修饰的评价对象之间的关系，具体表现为二元对<评价对象，评价短语>。其次，利用最大熵方法进行了评价搭配的抽取，在构造最大熵模板过程中，构建了评价词表，表中利用《同义词词典》对评价词进行了同义词归类，用评价词类别填充模板，实验结果表明，本文的方法在识别性能上和准确率上均有提高。第二，对极性词典的构建做了详细论述。本文利用统计、机器学习等方法基于大规模语料库进行了挖掘，利用搜狗实验室提供的互联网词库以及《知网》提供的正负面评价短语、正负面情感词语、《同义词词典》、《汉语褒贬义用法词典》中的提供的褒贬义词语作为参考资源构建极性词典。本文构建的词典包括基础词典、领域极性词词典、领域属性词词典、网络词典和修饰词典。本文构建的词典相对比较全面，为评论文本倾向性分析提奠定了基础。第三，提出极性计算公式。本文主要以短语级极性计算为基本计算单元，进而计算句子级的倾向性，其中包括了极性强度的计算和句子褒贬义的判断。借助于本文构建的极性词典，构建了评价短语的极性值计算公式，并且以评价短语为基本单位结合评价对象构造了句子级的极性计算。本文利用第三届文本倾向性评测大会提供的语料、谭松波提供的语料以及从网络上抓取的语料进行实验，利用三种方法进行了对比实验，结果表明本文提出的方法从准确率上均高于其他两种方法，达到了预期的效果。

其他文献

基于嵌入式的数据存储与通信模块的设计

随着Internet和嵌入式技术的迅速发展，许多基于嵌入式技术的设备都在开始接入Internet，并且基于USB(Universal Serial Bus)接口的数据存储技术，是近年来IT行业的热点。数据交换

学位

嵌入式系统USB主机大容量存储技术TCP/IP协议栈

基于反馈的区分服务网络拥塞管理方案研究

随着互联网技术的不断发展，基于网络的应用趋向于多元化发展，互联网的应用需求不断井喷，随之而来的一个问题是网络拥塞。解决拥塞，防范大于未然。近年来，对主动队列管理算法的研究

学位

拥塞管理早期随机检测早期拥塞指示公平性优先级早期随机检测

在线社会网络挖掘及个性化推荐研究

随着网络及信息技术的飞速发展,在线购物、社交网络等在线社会网络已成为人们生活中必不可少的一部分.然而网络中的信息呈现出爆炸性增长,信息的数量大大超出了人们的处理能

学位

在线社会网络网络挖掘个性化推荐社团发现

动态数据集重发布中的隐私保护模型研究

数据隐私保护技术在现实中具有重要的作用和意义。其中，动态数据集重发布中的隐私保护在现实中得到了越来越广泛的应用，随之相应的隐私保护模型的研究也得到了进一步发展。但是

学位

动态数据集重发布M-Distinct模型匿名化版本QI-Group

动态多维社会网络中链路预测方法研究

网络的快速发展使得网络的规模变得越来越大，也越来越复杂。在已有的网络关系中寻找未知的链接，从而得到人们想去了解和认知的东西。这方面的研究受到许多学者的关注。网络中的

学位

链路预测动态多维社会网络相似性复杂网络

用多相流晶格Boltzmann方法研究喷墨打印技术

喷墨打印技术在各种新型的工业中都有广泛的应用,例如:细胞打印、3D打印、电子封装、制作DNA材料等等。正是由于喷墨打印技术的普及应用,现在越来越多的人们对该技术进行研究

学位

喷墨打印数值模拟润湿性表面张力喷墨打印质量多相流晶格Boltzmann方法

Multi-Radio Multi-Power传感器网络中路由协议的关键技术研究

在对无线传感器网络的研究中，路由技术的研究占有重要地位，一直是人们研究的重点问题。为此，本文研究了Multi-Radio Multi-Power传感器网络中基于虚拟坐标的路由选择、机会路由

学位

无线传感器网络虚拟坐标机会路由跨层

基于动态二进制翻译框架的代码复用攻击检测与防御

随着计算机技术的快速发展，软件功能越来越强，但软件中漏洞的数量也越来越多，对用户资料的安全造成威胁。大多数攻击试图改变程序的运行或者通过程序控制目标机器，代码注入是早期

学位

缓冲区溢出代码复用攻击二进制翻译影子栈控制流检测

基于流量特性的校园网网络性能分析与研究

随着互联网规模的不断扩大及其应用的多元化发展,迫切需要对网络的流量进行实时、在线的监控和管理。因此研究网络流量特征,对网络管理、规划和发展都有重要意义。其中,网络

学位

网络测量流量监测HHT算法Hurst参数

历史人物本体构建及其查询推理研究

信息检索、会话系统已经得到广泛研究和应用,例如常用的检索系统有百度、谷歌,会话系统小冰和Siri,以及服务行业的自动应答系统等等。随着智慧旅游热度的提升,人们越来越希望

学位

历史人物领域本体构建规则库本体推理

基于Web的评论文本倾向性分析技术研究

与本文相关的学术论文