中文新闻文本倾向性分析研究

被引量 : 2次 | 上传用户:yuezhiyaodao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的发展,为新闻的传播带来了极大便利,但同时也将越来越多的新闻倾向性披露在公众的面前,直接或间接地影响了新闻的舆论导向,对舆情监测提出了新的挑战。准确高效的新闻倾向性分析有助于公众了解最新社会动态,获悉时事热点;也有助于监管部门及时了解舆论舆情的最新发展和走势,积极有效地采取应对措施,减少负面新闻在网络中的传播,合理地引导公众的关注视线,共创和谐网络文化环境。新闻文本中情感表达较为隐晦,涉及内容更是方方面面,加上目前尚缺乏行之有效的篇章级分析理论与工具,给新闻文本的倾向性分析带来了不便。考虑到并不是所有新闻句子都包含情感倾向,而且有的句子与新闻内容关联不大,因此直接对整篇新闻文本进行倾向分析可能有失偏颇。利用新闻文本的结构特点,本文首先构建了多特征融合的主题句抽取模型,然后讨论了新闻句子倾向性的分析方法,最后将二者结合完成新闻文本倾向性分析的任务。另外,针对一些新闻事实为负面的突发性新闻形成的专题,探讨了新闻专题阶段性摘要的生成。本文的研究工作主要包括以下几个方面:(1)提出了多特征融合的新闻主题句抽取模型。深入研究了新闻文本中高频词的发现算法,并根据高频词出现位置的不同,分析了新闻高频词特征对新闻句子重要性的加权;详细探讨了新闻标题特征对新闻内容表达的作用,定量计算了新闻标题与新闻句子的相似程度;根据新闻的“倒金字塔”式的文本结构,分析了新闻的句子位置特征;收集整理了新闻中具有情感导向的倾向性线索词,用于挖掘新闻中可能存在的倾向句。最后根据上述四种特征,完成多特征融合的主题句抽取模型的构建。(2)讨论了新闻句子的倾向性分析方法。一是基于情感词典的分析方法,构建了一部21175个普通情感词汇和1438个新闻情感词汇组成的情感词典,并收集了新闻引述性词汇,然后根据三种词汇的优先级不同设计了基于情感词典的新闻句子倾向性分析方法,该方法与第(1)部分的新闻主题句抽取模型相结合,在COAE2014的相应评测任务上取得了较好的成绩。二是机器学习的方法,分析比较了情感词特征、unigram特征以及二者结合的方法。三是对第一种和第二种方法的改进,采用情感词典+unigram特征相结合的句子倾向性分析方法,用于对新闻主观句进行情感分类。(3)探讨了新闻文本的倾向性分析方法。对新闻文本倾向性分析的过程进行了规范化描述,将其分解为新闻主题句的抽取和新闻句子的倾向性分析两个子任务,并探讨了该做法的可行性,然后借助新闻主题句抽取模型和情感词典+unigram特征的句子倾向性分析方法,完成了新闻文本倾向性分析的任务。(4)提出了新闻专题阶段性摘要的生成算法。针对一些事实为负面倾向的突发性新闻形成的专题,分析了话题的形成、延续、消亡与阶段性摘要内容的对应关系,利用话题检测与追踪技术详细介绍了基于时间流的话题双向聚类和话题交集的再聚类算法,以此生成新闻专题的阶段性摘要,并通过实验说明了该算法具有较好的召回率。
其他文献
<正>进入新媒体时代,中国的传媒业态正发生着深刻的变化,伴随着传统电视媒介的传播方式及功能的改变,新一轮的改革势在必行。作为电视媒介的先进传播手段,以及电视媒介提高媒
二氧化钛纳米材料用于多相催化体系的优势在于其具有较大的比表面积和孔容、优良的光电化学效应以及较强的氧化能力,因此可用于以光催化降解有机污染物、汽车尾气处理以及一氧
将微波辅助提取技术应用于芦荟中水溶性多糖的提取,寻求最佳提取工艺。采用单因素和正交试验,分别考察了微波辐照时间、微波功率、液料比、提取pH四个因素对芦荟多糖提取率的
"发球"是排球比赛的开始,也是排球比赛的重要进攻手段,更是一项主动性较强的技术。随着排球比赛规则的修改,有攻击性的发球可以使本队直接得分和破坏对方的战术组合,减轻本方
近年来,大量的英语影视作品进入中国,在人们的文化生活中有着越来越重要的影响。其字幕翻译也得到了广泛的关注。好的字幕翻译往往能使影视作品更为观众所接受。本文拟从功能
数学课堂是完善和发展人的教育活动的重要阵地,教师只是数学学习的组织者、引导者和合作者,要引导学生在现实、生动、具体的情境下,去体验和理解数学知识的发生、发展的过程.
<正> 明代茶法系统在体制结构上的严整性与成熟化、在发展运行上的变通性及其纵向演变所呈现出的马鞍形发展曲线,是明代茶法的基本特点。 首先:明朝处于中国封建社会后期,是
生理学研究显示重症肌无力是一种神经肌肉传递障碍性疾病。免疫学研究提示重症肌无力是一种自身免疫性疾病。识别抗乙酰胆碱受体抗体拉开了重症肌无力现代研究的序幕。免疫方