面向大规模互联网数据的细粒度观点挖掘方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：Carlower

【摘要】

：

随着移动互联网的迅速扩张，网络购物大大地提升了人们的生活质量。在此背景下，许多电子商务网站提供了产品评价平台，以方便用户分享产品使用经验以及对产品的满意程度作出评价。

【作者】

：

徐立恒

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2014年期

【关键词】

：

互联网数据自动观点挖掘系统句法分析单语词对齐模型词向量学习法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着移动互联网的迅速扩张，网络购物大大地提升了人们的生活质量。在此背景下，许多电子商务网站提供了产品评价平台，以方便用户分享产品使用经验以及对产品的满意程度作出评价。这些评价语无论对于消费者还是企业都有重要参考价值。然而，由于评价语规模庞大，使得人工阅读方式面临许多困难。因此，自动观点挖掘系统应运而生。　　观点挖掘，主要研究自动分析产品评价文本的方法，总结用户对产品各个功能的观点倾向。本文需要挖掘的观点信息，主要包括评价词（表达用户观点倾向的词）和评价对象（通常是产品的功能或属性）两部分。传统观点挖掘方法主要依靠依存句法分析，通过捕捉评价词和评价对象之间的修饰关系，抽取用户表达的观点信息。然而，基于句法的观点挖掘方法存在许多问题。本文主要针对现有基于句法分析的方法的缺点，研究面向大规模互联网评价文本的自动评价词和评价对象抽取方法，具体研究内容与成果如下:　　(1)本文提出一个两步走的算法，改进传统基于句法分析的观点挖掘方法的部分缺点。传统观点挖掘方法常依赖许多句法模板，由于不同模板准确度不同，导致部分低质量模板容易引入许多噪声词。针对该问题，本文在算法的第一步，提出将句法模板融入到一个评价关系图，并为每一个模板估算一个置信度，使得低质量的模板得到低置信度。另一方面，传统方法倾向于使用词频对候选词排序，其缺点是无法过滤高频噪音词，且容易丢失低频词。针对该问题，本文在算法的第二步，使用一个半监督二元分类器对评价对象列表进行过滤，从而使算法不依赖于词频。实验证明，本文提出的第一步方法有效提升了准确率，第二步方法有效降低了词频的不良影响。　　(2)本文提出使用单语词对齐模型取代句法分析工具。现有句法分析工具在处理复杂的互联网评价语时，其准确度往往不能令人满意。针对该问题，本文提出使用单语词对齐模型，通过无监督词共现统计方式，模拟评价词与评价对象之间的评价修饰关系。相比于基于句法的方法，词对齐模型可有效减少分析口语语料时的错误修饰关系，同时有效提升系统的召回率。但是，无监督词对齐模型容易受到训练数据规模不足的影响。据此，本文进一步提出一个基于半监督词对齐模型的观点挖掘算法，将部分可靠依存句法关系与词对齐模型融合。实验证明该方法有效提升了模型在处理小规模语料时的效果。　　(3)本文提出利用词向量学习方法取代句法分析工具。现有基于句法的方法将词看作离散的变量，这样的方式易出现数据稀疏性问题。针对该问题，本文引入词向量学习方法取代句法分析捕捉上下文语义。由于语义相似的词拥有相似的词向量，因此可以有效地降低数据稀疏性问题带来的不良影响。同时，本文还引入词向量距离衡量词之间的语义相似度关系，取代传统基于图的方法中的模板-词共现关系。实验证明，在产品属性词抽取过程中，词向量距离显著优于模板-词共现关系。

其他文献

安全仪表功能安全软件开发与验证

随着工业自动化技术的发展，安全仪表系统广泛应用于保障设备安全运行、避免安全危险事故发生。作为安全仪表系统的重要组成部分，仪器仪表的安全性成为保障系统高可靠性的一个重

学位

安全仪表压力变送器数据处理软件设计

图像和视频画面显示自适应技术研究

随着多媒体技术与互联网技术的高速发展，海量增长的图像、视频等可视媒体数据正极大地充实着现代人的生活。各种图像、视频的显示播放设备层出不穷，从传统的个人电脑、数字电视

学位

图像画面显示视频自适应显著性检测凸规划视觉效果

基于视觉的靶精密定位与多光束引导技术研究

激光惯性约束核聚变能量密度高、反应高效，可提供丰富、经济和安全的能源，已成为解决未来能源危机的有效途径之一。束靶耦合是激光惯性约束核聚变的关键技术之一。在核聚变之前

学位

靶精密定位多光束引导视觉控制算法核聚变

睡眠判读中的特征提取和分类识别方法研究

睡眠是人体恢复体力与自我修复的重要过程。通过对脑电信号等生物电信号的特征进行判读，用若干睡眠分期来表征整夜睡眠状态的变化，是评价睡眠质量和诊断睡眠问题的有力依据。计

学位

睡眠判读脑电信号特征提取分类识别

HART多路复用器研究及其硬件系统设计

HART智能设备以其兼容(4-20)mA模拟信号且具备数字通信功能的优势获得广泛的应用。数字通信的功能使其能够实现在线的监测、诊断、校验等。构建HART数字通信网络,实现HART设

学位

控制仪表多路开关HART采样

城市交通场景下基于与或图模型的车辆检测方法研究

随着高清摄像机在智能交通系统中的推广应用和图像处理技术的发展，基于图像的检测技术已成为最重要的车辆检测方法之一，并得到广泛的研究，在车辆检测准确率上不断提高。但是在城

学位

城市交通场景车辆检测与或图模型混合图像模板概率模型

磁共振脑图像分割和配准中的若干问题研究

脑作为人类神经系统的中枢，是一个精细、复杂和高效的系统，控制着人类的情感、思维和行为。探索脑的结构和功能、揭示脑的工作机制，是重大的科学前沿。现代影像技术的发展为人类

学位

脑图像分割精度功能配准算法

面向大规模双语语料的层次短语统计机器翻译技术研究

近年来，层次短语翻译系统逐渐成为实用的统计翻译系统之一。通过引入形式化的句法结构，层次短语翻译系统能够有效处理短语翻译系统所面临的长距离调序、规则泛化等问题。由于层

学位

层次短语翻译系统双语语料模型模拟

多零件微装配系统视觉测量与控制技术研究

学位

不同结构数据的图模型机器学习研究

随着互联网技术的快速发展，多样、异构、稀疏、海量的数据呈指数级快速增长。如何有效地表示和深入理解这些大数据已经越来越受到人们的重视，甚至已经成为当前的重要研究课题。

学位

数据处理图模型结构分析机器学习算法优化

面向大规模互联网数据的细粒度观点挖掘方法研究

与本文相关的学术论文