文本倾向性分析中的情感词典构建技术研究

被引量 : 0次 | 上传用户：zzdlily_4000

【摘要】

：

随着计算机与网络技术的迅猛发展,Internet已经成为现代主要的信息载体,网络在线文档也成为人们日常生活中不可或缺的主要信息来源。而随着互联网进入Web2.0时代,Internet又

【作者】

：

杜伟夫

【发表日期】

：

2010年期

【关键词】

：

情感分析情感词典函数优化聚团性信息瓶颈迭代增强

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机与网络技术的迅猛发展,Internet已经成为现代主要的信息载体,网络在线文档也成为人们日常生活中不可或缺的主要信息来源。而随着互联网进入Web2.0时代,Internet又逐步地从静态的信息载体变成人们表达意见、交流情感的平台,人们通过各种途径,以各种方式表达自身对于各种事物的意见、看法:新闻评论、产品评论、情感博客等。这些观点性内容对于网络电子商务、网络社区发现、网络信息安全、网络信息检索等多方面都具有重要的意义和实用价值。面对如此海量的富含情感信息的文本,亟待找到一种快速的自动分析方法对这些网络文本进行处理。对网络文本观点性内容的自动情感分析成为近期web信息处理的一个研究热点,而其中的核心技术就是文本倾向性分析。情感词典构建是文本倾向性分析的基础。本文以高质量的情感词典构建算法作为研究目标,着重对以下几个方面进行了深入的研究:首先,介绍了文本倾向性分析研究的背景,分析了文本倾向性分析及情感词典构建所面临的挑战;然后分析了当前文本倾向性分析及情感词典构建技术的研究现状;最后进一步明确了研究情感词典构建算法的意义和必要性。为了减少通用情感词典构建算法对于基准词的依赖,提出了基于函数优化的通用词典构建方法。目前多数通用情感词典构建方法根据语气待定词语与之前人工进行语气标注的基准词之间的局部信息来确定语气待定词语的语气倾向。这样导致了两方面的问题:①由于对于语气待定词语与测试集中所有词语之间的全局信息利用不充分,致使算法准确率仍存在提高空间;②该方法对领域专家的依赖较强,对基准词的选择和数量较为敏感。针对该问题,本文从图划分的角度提出基于函数优化的通用情感词典构建方法,该方法将通用情感词典构建问题转化为函数优化问题,并利用模拟退火算法进行求解。为了解决基于图划分方法在某些应用场景中易于陷入局部极值的问题,提出了基于词语聚团性的通用词典构建方法。在利用函数优化求解图分解问题的算法中,多数以“最小切分”作为切分的目标。但当子图大小和数目不固定时,采用“最小切分”策略的目标函数在求解过程易于陷入局部极值:即倾向于把所有节点划入一个子图,而使的另外的子图中的节点数目为零。针对该问题,本文采用复杂网络社区发现中的基于Modularity优化的方法来构建通用情感词典。本文对于传统Modularity方法的改进在于,只比较所有二分情况下的Modularity值并进行优化,这样既使得Modularity方法能够适用于本问题,又极大的降低了运算量。为了解决情感词典的领域移植问题,提出了基于扩展信息瓶颈的领域词典构建方法。领域情感词典被广泛应用于细粒度的文本倾向性分析中,自动构建领域情感词典文本倾向性分析研究中一个重要且基础的工作。现有的构建算法只考虑了新旧领域之间词语的关系,算法准确率仍存在提升空间。针对该问题,本文对传统信息瓶颈聚类方法进行改进,通过充分利用源领域与目标领域的情感词与文档之间的相互关系,来建立目标领域的领域情感词典。最后,设计并实现了一个细粒度的产品属性挖掘系统。在该系统中,通过利用产品属性和评论语气词之间的互相推荐,可以实现同时对商品属性词类别和评论语气词类别进行构建,并将相关的产品属性类别与评论词类别进行关联;进而通过情感词典的引入,实现了基于属性的产品比较和推荐。

其他文献

篮球后仰跳投技术训练的实验研究

后仰跳投技术由于起跳后身体有后仰的动作,使防守的难度加大,所以进攻效率比较高,在比赛当中被越来越多的运动员所运用。在查阅了大量文献资料后,没有发现关于后仰跳投技术动

学位

篮球后仰跳投影响因素

宁夏杞农走上“红宝”致富路

<正>外形小巧的枸杞在宁夏被人们俗称为"红宝",原因在于随着宁夏红等品牌企业不断对其深耕细作,研发形成多种系列产品,把当地200万名杞农带到了枸杞产业的致富路上。宁夏枸杞

期刊

宁夏红宁夏枸杞枸杞产业

毛皮动物伪狂犬疾病的防控方案

毛皮动物(水貂、狐狸、貉子)伪狂犬疾病近几年出现逐年上升的趋势,由于目前没有针对于毛皮动物伪狂犬疾病的有效治疗措施,所以毛皮动物一旦感染上伪狂犬疾病会迅速发病并有较

期刊

伪狂犬毛皮动物防控方案

2030年可持续发展议程与G20机制转型

联合国2030年可持续发展议程为G20实现从危机应对向长效治理的机制转型带来了战略机遇，体现在中长期目标设定、政治合法性以及执行机构支撑等三个方面。而G20要提高在落实2030

期刊

G202030年议程机制转型工作组协调主流化

HPLC法测定芩斛利咽合剂中芍药苷的含量

目的建立HPLC法测定芩斛利咽合剂中芍药苷含量的方法。方法采用Eclipse XDB-C18色谱柱,乙腈-0.1%磷酸溶液(14∶86)为流动相;流速1.0ml·min-1;检测波长230nm。结果芍药苷在0.

期刊

芍药苷高效液相色谱法含量测定

论心理因素对声乐演唱的影响及对策初探

心理因素是运动、变化着的心理过程,在声乐演唱中,起着十分重要地控制、引导作用。演唱者要想在音乐会中圆满完成作品,不仅要有良好的嗓音条件和演唱技术,而且要正确面对演唱

学位

不良心理因素声乐演唱影响

大气污染治理刻不容缓

空气污染是大气中污染物浓度达到有害程度,超过了环境质量标准和破坏生态系统和人类正常生活条件,对人和物造成危害的现象。凡是能使空气质量变坏的物质都是空气污染物。目前

期刊

空气污染现状经济建设可持续发展

用可变径篮圈对提高跳投训练效果的实验研究

跳投是篮球运动最常用的得分手段,它以出手快、出手点高在篮球运动中显得尤为重要。而跳投技术动作复杂、要求高、受各方面影响较多,难以掌握,所以对于篮球跳投技术的研究也

学位

可变径篮圈跳投感知觉效果实验研究

配电网工程全寿命周期管理的研究与分析

随着电网建设规模的不断增大,先进技术和设备投入的不断增多,配电网的投资规模也迅速增加,如何提高电网的投资效益,确保电网企业的良好持续发展是电网工程项目建设的重点工作

期刊

配电网全生命周期工程管理

ABC烟草公司内部审计问题研究

随着世界范围内一系列财务丑闻的曝光,内部审计问题成为世界关注的焦点。当前我国又正处在进一步完善和巩固现代企业制度、公司治理结构的关键时期,加强内部审计建设势在必行

学位

烟草商业企业内部审计内部控制公司治理

文本倾向性分析中的情感词典构建技术研究

与本文相关的学术论文