基于句法分析和主题建模的细粒度观点挖掘模型研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:li2008shuai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,网络评论呈现出爆炸式增长的趋势,已经成为挖掘消费者对产品或服务情感倾向的一个极具价值的资源。网络评论中的观点表达存在很大的灵活性和复杂性,而传统的观点挖掘方法则普遍存在挖掘粒度过大、无法有效地理解自然语言等不足。针对这些问题,提出两个基于句法分析和主题建模的细粒度观点挖掘模型,用于自动地从网络评论中挖掘领域特征词和观点词。首先,提出一种基于依存分析(Dependency analysis)的无监督方法来自动抽取评论中的评价表达模式(Appraisal Expression Pattern, AEP)。AEP用于表示领域特征词和观点词之间的语义关联,它是一种语言表达层面的与领域无关的语义信息,具有良好的领域适用性。其次,提出一种基于AEP的改进潜在狄利克雷分配(Latent Dirichlet Allocation, LDA)模型DLDA。DLDA模型是一个句子级别的概率产生式模型,它假设评论数据集由多个一一对应的领域主题和情感主题以及一个背景词主题组成。DLDA充分利用了AEP信息,实现了对领域特征词和观点词同步且高准确率地挖掘。然而,DLDA模型仅能够使用AEP信息,无法充分利用其他特征维度,因此具有较弱的特征可扩展性。最终,提出了基于最大熵模型(Maximum entropy)的改进DLDA模型,MLDA。MLDA是一个有监督的概率产生式模型,利用最大熵模型它可以融合多个句法特征,具有较强的特征可扩展性,但MLDA模型需要手工标注数据。论文在酒店、餐馆、MP3、数码相机领域进行了实验与对比分析。实验表明,DLDA在领域特征词提取、观点词提取、领域适用性方面均优于对比的无监督主题模型算法。而作为有监督的MLDA模型,在领域特征词抽取上亦优于经典的有监督算法0
其他文献
随着社会信息化的发展,网络化的短信平台建设已进入了一个崭新阶段即短信平台服务化。从应用上说,短信平台功能不再仅满足于简单的信息交流,而是作为社会、媒体服务的工具之
监控视频中异常事件检测是智能视频监控系统的重要组成部分,近年来在图像处理、机器学习和视频数据挖掘等领域得到越来越多的关注,具有重要的理论研究意义和实际应用价值。异
自动导航运输车是一类通过传感器探测地形,实现在物理空间中定向移动的自动机器人车辆。AGV避障为该领域的研究重点之一,其主要内容是在实际的生产环境中,AGV能够按照特定的
随着经济的发展和科技的进步,媒体播放设备已经成为人们日常生活和工作中不可缺少的一部分,但媒体播放设备的资源文件具有数据量大、更新速度快等特点,仅靠这些设备本身的存
集装箱运输是现代贸易发展的重要方向,其装卸作业是全球运输界最先进的生产力,实现装卸作业的自动化是提高装卸效率的重要手段之一。在集装箱自动化装卸作业中,计算机视觉技
在个人信息安全愈加重要的当今社会,如何安全有效地进行身份识别已经成为一个重要话题。基于脑电信号的身份识别(脑纹识别)因此受到了越来越多的关注。区别于传统身份识别特
虚拟现实技术是模拟真实环境,使人有身临其境的感觉。随着技术发展,模拟场景的绘制显示越来越逼真,这对场景文件的要求也越来越高。场景文件中模型更为精细,合成场景的数据模
大数据时代的来临,为数据的实时处理技术带来了巨大的变革和挑战,在这个背景下,D-Stream作为D-Ocean非结构化数据管理系统的流式处理子系统,为基于海量数据实时处理的应用提
图像融合是将相同目标源的多张图像融合成一张图像的过程,融合的图像能够获得比单一图像更加全面、准确的信息。随着传感器技术、计算机技术和信息处理技术的发展,图像融合在军
道路场景分割是机器人环境理解中十分关键的部分,传统的道路场景分割算法对于不同的场景可能会产生误分割的情况。如何能减少道路场景分割中的误分割率,是道路场景分割所面临的