论文部分内容阅读
信息技术的发展,为新闻的传播带来了极大便利,但同时也将越来越多的新闻倾向性披露在公众的面前,直接或间接地影响了新闻的舆论导向,对舆情监测提出了新的挑战。准确高效的新闻倾向性分析有助于公众了解最新社会动态,获悉时事热点;也有助于监管部门及时了解舆论舆情的最新发展和走势,积极有效地采取应对措施,减少负面新闻在网络中的传播,合理地引导公众的关注视线,共创和谐网络文化环境。新闻文本中情感表达较为隐晦,涉及内容更是方方面面,加上目前尚缺乏行之有效的篇章级分析理论与工具,给新闻文本的倾向性分析带来了不便。考虑到并不是所有新闻句子都包含情感倾向,而且有的句子与新闻内容关联不大,因此直接对整篇新闻文本进行倾向分析可能有失偏颇。利用新闻文本的结构特点,本文首先构建了多特征融合的主题句抽取模型,然后讨论了新闻句子倾向性的分析方法,最后将二者结合完成新闻文本倾向性分析的任务。另外,针对一些新闻事实为负面的突发性新闻形成的专题,探讨了新闻专题阶段性摘要的生成。本文的研究工作主要包括以下几个方面:(1)提出了多特征融合的新闻主题句抽取模型。深入研究了新闻文本中高频词的发现算法,并根据高频词出现位置的不同,分析了新闻高频词特征对新闻句子重要性的加权;详细探讨了新闻标题特征对新闻内容表达的作用,定量计算了新闻标题与新闻句子的相似程度;根据新闻的“倒金字塔”式的文本结构,分析了新闻的句子位置特征;收集整理了新闻中具有情感导向的倾向性线索词,用于挖掘新闻中可能存在的倾向句。最后根据上述四种特征,完成多特征融合的主题句抽取模型的构建。(2)讨论了新闻句子的倾向性分析方法。一是基于情感词典的分析方法,构建了一部21175个普通情感词汇和1438个新闻情感词汇组成的情感词典,并收集了新闻引述性词汇,然后根据三种词汇的优先级不同设计了基于情感词典的新闻句子倾向性分析方法,该方法与第(1)部分的新闻主题句抽取模型相结合,在COAE2014的相应评测任务上取得了较好的成绩。二是机器学习的方法,分析比较了情感词特征、unigram特征以及二者结合的方法。三是对第一种和第二种方法的改进,采用情感词典+unigram特征相结合的句子倾向性分析方法,用于对新闻主观句进行情感分类。(3)探讨了新闻文本的倾向性分析方法。对新闻文本倾向性分析的过程进行了规范化描述,将其分解为新闻主题句的抽取和新闻句子的倾向性分析两个子任务,并探讨了该做法的可行性,然后借助新闻主题句抽取模型和情感词典+unigram特征的句子倾向性分析方法,完成了新闻文本倾向性分析的任务。(4)提出了新闻专题阶段性摘要的生成算法。针对一些事实为负面倾向的突发性新闻形成的专题,分析了话题的形成、延续、消亡与阶段性摘要内容的对应关系,利用话题检测与追踪技术详细介绍了基于时间流的话题双向聚类和话题交集的再聚类算法,以此生成新闻专题的阶段性摘要,并通过实验说明了该算法具有较好的召回率。