论文部分内容阅读
随着互联网技术的迅猛发展,网络上的评论文本数据信息急剧增长,评论文本中通常含有大量的情感信息,但这些情感信息却是以杂乱无章毫无头绪的形式存在的为使人们免受大量冗余信息的困扰,并解决评论文本全局情感倾向性的问题,本文应用情感摘要技术对网络上的评论文本信息进行分析处理与整合,最终呈现给用户直观的情感摘要本文首先对处理评论文本信息时所涉及到的一些关键技术进行研究与探讨,然后借助隐马尔可夫模型的标注功能识别出评论文本中的主观句,最后将潜在狄利克雷分布(LDA)模型应用在句子级别并生成情感摘要本文所做的工作主要包含以下三个方面:1)研究情感分析中的主观句识别,提出一种基于隐马尔可夫模型的主观句识别方法文本情感分析技术通常是将带有主观性信息的文本作为研究对象,因此在进行情感分析之前我们需要进行主观性文本识别在充分考虑主客观文本的特征之间的语法与语义关系,以及特征之间的上下文相关性基础上,提出了一种基于隐马尔可夫模型的主观句识别方法该方法首先融合信息增益与卡方统计分层次作用于主客观文本,提取出既有区分力度又能代表主客观句类型的主客观特征集合,然后借鉴隐马尔可夫模型在词性标注方面的应用,引入隐马尔可夫模型将待分类的主客观句子集合进行特征角色标注,并依据标注的结果计算句子的权重,最终识别出主观句实验结果显示该方法可以有效的识别评论文本中的主观句2)研究情感文本表示模型及文档情感摘要方法,提出一种基于LDA模型的文档情感摘要方法在生成情感摘要之前,首先要做的是对主观性的文本进行文档建模由于LDA主题模型可以避免传统的向量空间模型高维性与稀疏性的问题,并且具有语义特征,因此引入LDA主题模型,并将其应用到句子级别,提出一种基于LDA模型的文档情感摘要方法该方法首先应用LDA模型对已得到的主观情感句进行建模,挖掘文本集合中存在的潜在主题,然后使用Gibbs抽样算法估计LDA模型的参数,最后根据句子的权重大小应用最大边缘相关的消除冗余算法得到文档的情感摘要实验表明本文方法生成的情感摘要与专家摘要更匹配3)设计并实现了基于LDA模型的文档情感摘要原型系统在分析网络评论文本情感摘要生成过程的基础上,针对每个过程设计了相应的功能模块,并最终实现了基于LDA模型的文档情感摘要原型系统该原型系统可以有效地对网络中存在的评论文本进行抓取分析与处理,并最终提供给用户直观的情感摘要生成的情感摘要既能够把握评论文本的全局情感倾向又能表达文本主旨内容