论文部分内容阅读
网络资源的极大丰富使人们能够方便快捷的获取各类新闻信息,其中就包含了大量带有情感的新闻文本,这些积极的或者消极的情感信息潜移默化地改变着人们对时事动态的态度,直接或间接地左右了新闻舆论的发展态势。然而,在这些海量数据中大部分数据对用户来说是无用的、没有意义的。因此,如何能从海量数据中自动化整理和分析并通过浓缩、提炼,生成文档核心内容的情感摘要,以帮助人们快速高效的获取文本的主要信息和文本所表达情感、观点,了解最新社会动态及舆论舆情的最新发展和走势并减轻信息过载给用户造成的浏览负担,成为人们迫切需要解决的问题。同时也能使舆情监管部门能够采取积极有效的措施,合理地引导公众的关注点,减少网络中负面新闻的传播。因此,本文通过融合句子情感和主题相似性对中文新闻文本情感摘要进行研究分析。方法往往考虑主题及句子特征等因素,无法获取带有情感意见的文本摘要。针对这一问题及在参加NLPCC2015新闻摘要任务所使用的综合基于图排序模型和句子特征方法的基础上,本文提出了融合句子情感和主题相似性的中文新闻文本情感摘要方法。本文分析了国内、外文本情感摘要的现状。同时,对测试数据集进行分词、分句、去停用词和句子过滤等预处理。与普通文本摘要相比,本文综合了句子情感和句子主题相关性两个方面进行研究。首先,为了融入情感信息,本文组建了一部组合情感词典并用其对新闻中的句子进行情感标注,构建了句子情感特征向量。在深入分析Lex Rank图模型算法上,通过情感信息的融入改进了模型中节点间关系的建立和边权重的计算,获得了融入了情感的句子情感权重。其次,通过统计和分析新闻文本的特点,选取能够代表新闻主题的主题句并计算新闻中句子的主题相似性。最后,通过综合句子情感和主题相关性等因素,利用加权参数进行权衡,获得融合了句子情感和主题相似性的句子权重,最终获取新闻文本的情感摘要。本文方法是在本文作者参加的NLPCC2015新闻摘要任务中所使用方法的基础上,通过综合句子情感和主题相似性提出的新闻文本情感摘要方法。通过实验,本文对影响情感摘要的情感特征权重和不同因素的加权参数进行了比较、分析,获得了各参数的相对最优值。然后与基于统计原理的传统方法、基于图模型的Lex Rank方法和基于主题概率的LDA方法进行实验对比。通过分析对比实验表明,本文方法在评测指标上均有所提升,对于抽取新闻文本的情感摘要取得了一定的效果,能够得到更有观点代表性的总结摘要。