WEB观点挖掘中关键问题的研究

来源 :北京邮电大学 | 被引量 : 6次 | 上传用户：chener

【摘要】

：

随着互联网的广泛普及和应用,网络已经成为众多网民生活的一部分。海量用户通过网络发布信息,使得带有观点的文本呈爆炸式增长。同时,用户也希望通过网络获取新的资讯和了解

【作者】

：

李思

【出处】

：

北京邮电大学

【发表日期】

：

2012年01期

【关键词】

：

观点挖掘文本情感倾向性产品比较深入分析型博客精选

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的广泛普及和应用,网络已经成为众多网民生活的一部分。海量用户通过网络发布信息,使得带有观点的文本呈爆炸式增长。同时,用户也希望通过网络获取新的资讯和了解其他人的观点。然而,由于网络中的数据规模异常庞大,用户的这项需求面临重重挑战。因此,针对Web观点挖掘的研究应运而生,以帮助用户自动获取感兴趣的网络观点。本文分别从下述四方面展开对观点挖掘的创新性研究：(1)基于合并模型的篇章情感识别。传统的情感识别算法往往只考虑利用单一粒度的文本,诸如词语、句子、篇章等。然而,网络中篇章的表达并不规范,有些篇章仅包含少量词语,有些篇章却由大量长句组成。在这种情况下,基于单一粒度的传统文本处理方法并不适用。由于不同粒度的文本情感分析算法均有各自的优点,本文提出基于合并模型的文本情感识别算法,将基于词语级的篇章情感分析和基于句子级的篇章情感分析相结合。同时,本文也对不同粒度的文本情感分析的互补性进行了探讨。实验结果表明,相对于基于词语级的篇章情感分析和基于句子级的篇章情感分析单一粒度的分析方法,基于合并模型的篇章情感分析取得了更好的结果。(2)基于对比关系的产品比较。产品比较系统通过对网络中现有产品观点的整合,实现不同产品之间的优劣比较,以此来帮助消费者了解产品和进行决策。然而,对于特定产品,网络中的用户观点错综复杂,很难获得一致。这使得观点整合极具挑战性。本文提出对比观点整合算法,从众多产品相关评论网站和社区问答系统获取用户观点,利用对比观点整合图模型,不仅解决了用户观点中所存在的闭环关系,同时也将不同来源的用户观点综合到一起。针对电子产品的实验表明,对比关系整合算法可以对所有有关候选产品的观点进行有效整合,提供较为可靠的最终比较结果。(3)基于属性层级结构的产品比较。与产品相关的比较句中包含了丰富的产品比较信息,可以较直观的帮助消费者制定购买计划。然而,在真实网络数据环境中,对比句仅占很小的比例,使得用户难以直接利用对比句进行产品比较。本文提出了一种基于产品属性层级结构的产品比较系统,采用基于类别序列规则的最近邻算法,仅利用少许比较句先验知识即可实现对比句自动识别。该系统采用基于结构的模型将用户观点重新分配,解决了在某些属性节点下观点数据稀疏的问题,并利用贪婪排序算法依据重新分配后的用户观点实现了对产品的排序。针对电子产品的实验结果表明,基于产品层级属性结构的产品比较算法可以有效反映出原始语料中的观点趋势,所提供的排序结果与人工排序结果较为接近。(4)深入分析型文本的识别。利用博客语料,对博客的书写质量进行评估,抽取出对于给定查询进行深入分析描述的博客,即精选出深入分析型博客。本文首先利用学习式查询扩展LQE (Learning Query Expansion)模型和博文平均算法进行查询相关博客的抽取,然后利用L-Qtf (Length-Query term frequency,长度-查询词词频)系数作为文本描述程度的考察系数,将博文分为深入分析型博文和肤浅型博文,最后,利用博客中所含有两种类型博文的比例,对博客的质量进行分析。实验结果显示,基于L-Qtf系数的深入分析型博客精选结果优于TREC Blog Track2009中的排名第一名的结果,验证了本文的博客精选系统的有效性

其他文献

可扩展、高性能Web服务器系统的研究

目前,Web服务器系统面临两个显著变化:⑴随着网络速度的提高,越来越多的本地任务处理将依赖远程服务,因此最终用户所能感知的任务处理速度也越来越受限于远端服务器的处理能

学位

ASPEDHTTP Splicing请求路由机制请求调度算法

民以食为天

<正>中国有句古话,“民以食为天”,饮食对人的重要性不言而喻。从传统医学的角度来讲,人在生命活动过程中,体内的精气不断被消耗,贮藏于五脏中的阴精需要不断得到补充,这需要

期刊

饮食文化饮食养生烹饪技术

论党内监督40年

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

期刊

党内监督党内民主监督制度权力

车载自组网隐私保护关键技术研究

车载自组网(Vehicular ad hoc network,VANET)是由车辆节点和路旁节点(Roadside Units,RSU)构成的一种超大规模新型移动自组织网络,在被寄予厚望改善交通管理和道路安全的同

学位

车载自组网隐私保护身份隐私位置隐私匿名认证Mix-zone车载Internet接入

分布环境下身份认证和授权管理的研究

随着分布式网络应用的增加，通过远程服务器进行身份认证和访问控制就变得很重要。人们提出了多种身份认证方案和访问控制的模型。本文从用户身份认证和访问控制两方面展开分布

学位

身份认证指纹单点登录授权基于角色的访问控制用户层次

基于可信计算的分布式访问控制研究

分布式环境下数据不可避免的要在大量分散节点间分发与流动,而在这种跨平台甚至跨域的分布式交互中,节点的可信性是分布式访问控制最重要的安全需求之一。可信计算技术以可信

学位

可信计算可信平台模块分布式访问控制使用控制模型信任评估行为证明

深圳:创新城市规划决策体制

期刊

城市规划决策权威性城市规划委员会制度城市规划条例法定图则

影响旋流微泡浮选柱工作因素的探讨

分析了旋流微泡浮选柱的工作原理以及影响浮选柱工作的各个因素;正交试验考察了入料浓度、循环压力和柱体高度三因素对浮选精煤灰分、产率及浮选完善指标影响的显著性;试验结

期刊

细粒煤浮选柱影响因素正交试验

中国建材协会粉体技术分会成立

2006年12月23日，中国建筑材料工业协会粉体技术分会成立大会在清华大学举行。国资委行业协会办公室主任张涛，中国建筑材料工业协会副会长叶向阳、徐永模，副秘书长齐子刚，人事部主

期刊

粉体技术中国建材协会中国建筑材料工业协会清华大学成立大会行业协会秘书长办公室

《临床护理工作规范指导丛书》诚征订户

期刊

WEB观点挖掘中关键问题的研究

与本文相关的学术论文