面向大规模互联网数据的细粒度观点挖掘方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:Carlower
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网的迅速扩张,网络购物大大地提升了人们的生活质量。在此背景下,许多电子商务网站提供了产品评价平台,以方便用户分享产品使用经验以及对产品的满意程度作出评价。这些评价语无论对于消费者还是企业都有重要参考价值。然而,由于评价语规模庞大,使得人工阅读方式面临许多困难。因此,自动观点挖掘系统应运而生。  观点挖掘,主要研究自动分析产品评价文本的方法,总结用户对产品各个功能的观点倾向。本文需要挖掘的观点信息,主要包括评价词(表达用户观点倾向的词)和评价对象(通常是产品的功能或属性)两部分。传统观点挖掘方法主要依靠依存句法分析,通过捕捉评价词和评价对象之间的修饰关系,抽取用户表达的观点信息。然而,基于句法的观点挖掘方法存在许多问题。本文主要针对现有基于句法分析的方法的缺点,研究面向大规模互联网评价文本的自动评价词和评价对象抽取方法,具体研究内容与成果如下:  (1)本文提出一个两步走的算法,改进传统基于句法分析的观点挖掘方法的部分缺点。传统观点挖掘方法常依赖许多句法模板,由于不同模板准确度不同,导致部分低质量模板容易引入许多噪声词。针对该问题,本文在算法的第一步,提出将句法模板融入到一个评价关系图,并为每一个模板估算一个置信度,使得低质量的模板得到低置信度。另一方面,传统方法倾向于使用词频对候选词排序,其缺点是无法过滤高频噪音词,且容易丢失低频词。针对该问题,本文在算法的第二步,使用一个半监督二元分类器对评价对象列表进行过滤,从而使算法不依赖于词频。实验证明,本文提出的第一步方法有效提升了准确率,第二步方法有效降低了词频的不良影响。  (2)本文提出使用单语词对齐模型取代句法分析工具。现有句法分析工具在处理复杂的互联网评价语时,其准确度往往不能令人满意。针对该问题,本文提出使用单语词对齐模型,通过无监督词共现统计方式,模拟评价词与评价对象之间的评价修饰关系。相比于基于句法的方法,词对齐模型可有效减少分析口语语料时的错误修饰关系,同时有效提升系统的召回率。但是,无监督词对齐模型容易受到训练数据规模不足的影响。据此,本文进一步提出一个基于半监督词对齐模型的观点挖掘算法,将部分可靠依存句法关系与词对齐模型融合。实验证明该方法有效提升了模型在处理小规模语料时的效果。  (3)本文提出利用词向量学习方法取代句法分析工具。现有基于句法的方法将词看作离散的变量,这样的方式易出现数据稀疏性问题。针对该问题,本文引入词向量学习方法取代句法分析捕捉上下文语义。由于语义相似的词拥有相似的词向量,因此可以有效地降低数据稀疏性问题带来的不良影响。同时,本文还引入词向量距离衡量词之间的语义相似度关系,取代传统基于图的方法中的模板-词共现关系。实验证明,在产品属性词抽取过程中,词向量距离显著优于模板-词共现关系。
其他文献
随着工业自动化技术的发展,安全仪表系统广泛应用于保障设备安全运行、避免安全危险事故发生。作为安全仪表系统的重要组成部分,仪器仪表的安全性成为保障系统高可靠性的一个重
随着多媒体技术与互联网技术的高速发展,海量增长的图像、视频等可视媒体数据正极大地充实着现代人的生活。各种图像、视频的显示播放设备层出不穷,从传统的个人电脑、数字电视
激光惯性约束核聚变能量密度高、反应高效,可提供丰富、经济和安全的能源,已成为解决未来能源危机的有效途径之一。束靶耦合是激光惯性约束核聚变的关键技术之一。在核聚变之前
睡眠是人体恢复体力与自我修复的重要过程。通过对脑电信号等生物电信号的特征进行判读,用若干睡眠分期来表征整夜睡眠状态的变化,是评价睡眠质量和诊断睡眠问题的有力依据。计
HART智能设备以其兼容(4-20)mA模拟信号且具备数字通信功能的优势获得广泛的应用。数字通信的功能使其能够实现在线的监测、诊断、校验等。构建HART数字通信网络,实现HART设
随着高清摄像机在智能交通系统中的推广应用和图像处理技术的发展,基于图像的检测技术已成为最重要的车辆检测方法之一,并得到广泛的研究,在车辆检测准确率上不断提高。但是在城
脑作为人类神经系统的中枢,是一个精细、复杂和高效的系统,控制着人类的情感、思维和行为。探索脑的结构和功能、揭示脑的工作机制,是重大的科学前沿。现代影像技术的发展为人类
近年来,层次短语翻译系统逐渐成为实用的统计翻译系统之一。通过引入形式化的句法结构,层次短语翻译系统能够有效处理短语翻译系统所面临的长距离调序、规则泛化等问题。由于层
学位
随着互联网技术的快速发展,多样、异构、稀疏、海量的数据呈指数级快速增长。如何有效地表示和深入理解这些大数据已经越来越受到人们的重视,甚至已经成为当前的重要研究课题。