面向网络评论的观点分析技术

被引量 : 0次 | 上传用户：shijiatiedaoxueyuan

【摘要】

：

随着网络技术的快速发展与普及,越来越多用户喜欢在网络上通过评论的方式表达自己的观点。这些评论数据由于包含丰富的用户观点,使其在网络环境中的重要性也日益凸显,特别对

【作者】

：

林煜明

【发表日期】

：

2013年期

【关键词】

：

网络评论观点分析特征表示集成学习组合优化垃圾评论检测

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着网络技术的快速发展与普及,越来越多用户喜欢在网络上通过评论的方式表达自己的观点。这些评论数据由于包含丰富的用户观点,使其在网络环境中的重要性也日益凸显,特别对很多新型的Web应用而言,它们的价值更为重要,例如电子商务/政务智能系统、网络舆情分析、个性化的推荐服务等。这类应用的成功与否和能否正确识别用户的观点具有密切的关系。因此,在海量用户共同评论的环境下,自动对用户的观点进行分析成为亟需解决的问题,从而受到越来越多研究人员关注。相对于传统的文本分析,用户观点表达的多样性和复杂性使得观点分析更加困难,特别是在公共开放的网络环境中,用户评论书写的随意性和数据量巨大的特点又带来了更多新的挑战。另一方面,观点分析包括了更多的研究内容,它涉及了观点文本的质量控制、观点信息的抽取、观点识别、观点总结和检索多方面的内容,这些内容贯穿了从数据收集整理到向用户或下级应用提供分析结果的整个过程。在此过程中,观点文本的质量控制为后续的应用和研究提供可靠的数据来源,而观点识别为观点总结和检索提供关键的处理数据。因此,本文针对网络评论围绕这两部分重要的研究内容展开探讨,主要贡献包括以下几个方面：1.提出一个整合了词项情感信息和词项贡献的特征函数,形成了一种新的特征表示方法,打破了传统文本分类方法中由于特征函数并未考虑特征情感信息而导致在观点分类问题中效果不佳的局限。该方法首先通过词项与情感标签的互信息(mutual information)捕获词项的情感倾向；然后将词项的情感信息结合它对文档的贡献度确定词项的特征值。多个评论领域上进行的实验结果表明,在该方法的基础上进行观点分类比使用现有的特征函数具有更高的分类准确度。2.设计了一个面向观点分析的三阶段多分类器集成学习框架,在该框架中系统自动选择一组最优的分类器,通过集成学习的方法将多个分类器的预测结果进行整合,从而提高了观点识别的准确度。在此框架中,首先提出了一种综合考虑了分类器准确度和多样性的分类器组合质量评估策略,然后利用该策略选择一组质量最高的分类器进行训练,最后提出了一种基于stacking技术的多分类器集成学习算法以实现多分类器预测结果的整合,从而使最终的观点识别准确度比传统单分类器方法的效果有较大的提升。3.设计了一个分类器组合选择的的贪心算法,解决了分类器组合选择时面临的组合爆炸问题。首先,本文将分类器组合选择问题转化为最优化问题；然后在此基础上设计了一个分类器组合选择的贪心算法,并证明该算法是2-近似的,保证了选择得到的分类器组合具有高的质量；最后分析了该贪心算法的时间复杂度为O(n),其中n为备选分类器的数量,因此大大提高了三阶段多分类器集成学习框架的可用性。4.提出了六种基于评论内容和评论人行为建模的垃圾评论识别特征,并设计了有监督的和无监督的两种垃圾评论在线检测算法,解决了现有的垃圾评论检测技术不能及时发现垃圾评论的缺点。文中提出的两种在线检测算法对垃圾评论的识别都具有较高的准确度和查全率,特别是无监督的方法在不需要标注样本的情况下也能达到较好的识别效果。综上所述,本文重点研究了针对观点分析的特征表示方法、面向观点分析的多分类器集成学习、分类器组合的优化选择和垃圾观点在线检测四个问题。这四个问题的研究具有连贯性和可持续性,形成一个相对完整的整体。本文的工作建立在对已有理论、技术和方法进行详尽分析和大量实验的基础上。理论分析和真实数据集上进行的大量实验都表明,本文中针对以上四个问题提出的解决方法都具有好的效果。

其他文献

跑步人生——培养中小学生耐久跑可持续性兴趣的新思考

<正>耐久跑是人体在氧气供应充足情况下长时间跑步的能力。练习耐久跑能使心脏收缩力加强,提高心脏供血能力,促进心脏、肺、血液循环系统的发展,提高有氧代谢能力,还有助于降

期刊

耐久跑教学健身跑知识技能新思考体育与健康课程义务教育阶段定时跑可持续性

廉价政府理论在社会主义革命和建设中的实践

一、法国巴黎公社的探索历史上不少学者如路德、加尔文、萨伊、圣西门、斯密、李嘉图等都曾对廉价政府问题做过研究，但概念都不明确。斯密设计的廉价政府模式，司法和公共工程费

期刊

廉价政府马克思社会主义革命和建设

二碲酸根合银(Ⅲ)钾氧化还原引发自由基聚合反应的研究

本文主要研究内容为：二碲酸根合银（Ⅲ）钾氧化还原引发自由基聚合反应的研究。全文共分为四个部分。第一章，对二碲酸根合银（Ⅲ）钾（DTA）的发展及研究现状以及纤维素和海藻酸钠的接

学位

二磅酸根合银(ln)钾氧化还原引发自由基聚合丙烯酞胺丙烯酸

实施精准定位打造高职品牌——高职院校品牌定位流程与内容研究

由于缺乏明确精准的品牌定位,严重制约了高职院校品牌的建立和塑造。根据品牌定位的关联性、差异性和一致性原则要求以及服务品牌定位理论,高职院校品牌定位应当采取科学而可

期刊

高职院校品牌定位

基于需求分析的天津市长期照护保险制度建设研究

随着天津市失能老人数量大幅增加,其照护问题受到社会各界的广泛关注。本文在结合天津市老龄委对失能老人的调研并实地走访专业养老护理机构的基础上,分析失能老人的照护需求

期刊

长期照护照护需求长期照护保险政府

中美军民融合发展的企业属性差异辨析

军民融合作为一项国家战略,事关国家安全和经济发展。我国军民融合发展可以参考和借鉴国外发达国家的先进经验和发展模式。其中,美国的一些典型做法最具有参考价值。然而,需

期刊

军民融合发展企业属性军工企业差异辨析

张咏诗研究

张咏是宋初一位较有影响的政治家，尤以治蜀著称；亦是宋初诗坛的代表人物，诗歌风貌独具特色。张咏一生政绩斐然，其政治上的成就大大掩盖了其文学上的造诣，因此学术界对他的文学创作

学位

张咏诗歌内容风格影响

加深对资产负债表重要性的认识

<正> 资产负债在是分收财务报告的重要组成部分,是反映企业财务状的主要书面文件之一,也是企业的所有者、经营者及主要债权人极为关心的第一张报表.资产负债表有着十分丰富的

期刊

所有者权益出资者税后利润公司登记机关流动资产

辽宁省猫岭金矿地质特征及成矿模式

猫岭金矿发现于20个世纪80年代,是辽吉裂谷内一处特大型金矿,具有多阶段性、低品位、储量大等特点。矿区内出露的地层主要为古元古代辽河群盖县组且为容矿围岩,中生代卧龙泉

期刊

地质特征地球化学特征含矿热液成矿模式

墨脱县基础教育发展现状与对策研究

民族教育是个世界范围内广泛讨论的热点,对西藏而言,如何引进先进的现代教育理念并且保持自身的传统教育更是一个需要重点解决的问题,而基础教育的落实与否对其有深刻的影响

学位

墨脱县基础教育管理

面向网络评论的观点分析技术

与本文相关的学术论文