面向产品评论的汉语意见文摘生成方法研究

来源 :黑龙江大学 | 被引量 : 0次 | 上传用户:crazymouse
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
意见文摘作为自然语言处理和意见挖掘领域的一个研究热点,其目标是将散落在不同意见文本中的各种意见信息聚集在一起,进而产生精简的文本摘要。意见文摘不仅在问答系统、意见信息检索等意见挖掘系统中扮演着重要的角色,而且在商业智能和推荐系统中也有着广泛的应用前景。本文面向汉语产品评论,探索意见文摘中的一些关键问题,主要包括解释性意见抽取、意见聚类和意见文本摘要生成等问题。具体地讲,本文将从以下三个方面展开研究:(1)多粒度的汉语解释性意见信息抽取。解释性的意见挖掘是意见挖掘中的一个新兴领域,其目标是发现意见表达的根本原因。为了获取解释性意见信息,本文分别从句子和短语两个粒度探讨了解释性意见抽取问题。具体地,我们将词向量作为特征整合到支持向量机中进行解释性意见句识别,并且进一步采用了一种弱监督的语义模式匹配算法来识别解释性意见句中具有解释性的文本片段。在手机和汽车两个领域的实验结果显示,本文提出的方法好于目前的state-of-the-art方法。(2)意见聚集及其在情感极性分类中的应用。意见聚集指将产品评论按某种属性聚集在一起。为了完成这个任务,本文首先从三个语言层面考虑相似度特征,即字面相似度、语义相似度和上下文相似度等。随后针对汉语意见聚集,本文又提出了一种两阶段的层次聚类算法。进一步地,为了避免情感分类在短文本中的数据稀疏问题,本文将之前聚集的属性簇用于情感极性分类,在支持向量机框架下,提出了一种基于属性簇的汉语情感极性分类框架。实验结果显示整合多种的相似度特征和属性簇的引入分别对意见聚集和情感极性分类都有很大作用。(3)汉语意见文摘生成。在解释性意见抽取和意见聚集的基础上,本文最后探讨了汉语产品评论中意见文摘生成问题。特别地,本文首先利用图排序算法在对属性簇内的意见句进行排序,然后通过最大间隔相关算法去除多余意见信息。最后,我们通过定义一些摘要模板,进而生成文本摘要。实验结果显示本文的方法可以生成可读性和概括性都较好的文摘。
其他文献
人脸检测问题研究具有很重要的意义,可以应用到人脸识别、新一代的人机界面、安全访问和视觉监控以及基于内容的检索等领域。视频信号是人类接触的最主要媒体,人类接受的外界
在逆向工程应用中,由于样件局部遮挡或者测量手段的限制,通过测量所获得的原始点云数据往往存在数据缺失而形成孔洞。因而在孔洞点云数据的曲面重构中,需要对孔洞进行修补以
随着互联网的飞速发展及企业信息化水平的提高,数据的产生量和积累量呈指数增长,如何利用好、管理好海量数据,已成为影响企业决策,驱动价值增长的重要环节。MapReduce模型作为大
RFID(Radio Frequency Identification)射频识别技术,是一种非接触式的自动识别技术,它通过射频信号自动识别目标物体并获取目标数据信息,识别工作无须人工干预,可在各种恶劣
中文命名实体的语义关系抽取是关系抽取的一个重要研究方向。由于中文文本具有不同于英文文本的一些特有的语法特点,中文命名实体的语义关系抽取研究发展一直较为缓慢。中文
维基百科,作为最著名的Web 2.0应用之一,在大批志愿者的协作编辑下,逐渐成为世界上最大的免费在线百科全书。维基百科中的内容和文章组织方式使其成为一个方便的在线知识门户
频域分析又称谱分析,主要研究信号在频率域中的各种特征。而功率谱的分析与估计在许多工程应用中是十分重要的。本论文探究了几个概率性能和稳定分布重尾的指数评估,这是定期变
核酸序列分析是生物信息学应用中的一个重要方面。生物信息绝大部分以基因的形式贮存在DNA分子中,这些信息以不同的核苷酸排列顺序编码在DNA分子上,如果核苷酸的排列顺序发生改
高层体系结构HLA是目前分布交互仿真领域最新的通用技术框架,有关HLA的研究和应用是目前分布交互仿真的主流。HLA解决了仿真领域的两个关键问题:仿真应用之间的互操作性和模
信息安全是信息科学领域的基础,数字签名技术是信息安全领域的重要技术。数字签名技术能够保证信息的可认证性、完整性和不可否认性,在电子商务和在线交易繁荣发展的今天已经