面向学术领域的舆情分析关键技术研究

来源 :东南大学 | 被引量 : 6次 | 上传用户:wumujiayou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,我国的舆情研究大多都是围绕一般网络舆情展开,主要包括网络舆情的特点、管理、控制与引导、信息收集与分析、监测、预警等方面。近几年也出现了关于主题方面的舆情分析研究,但是大多还是针对于互联网上BBS、电商评论、微博、新闻报道等大众业余网络空间的舆情分析,对于学术领域方面的舆情分析还很少。研究人员在从事科研之前需要阅读大量的学术文献,以便了解目前这一学术领域的最新研究热点。然而面对海量的学术文献,搜索引擎只能帮助用户筛选出符合检索条件的文章列表,科研人员仍然需要通过大量阅读来获得需要的研究热点信息,这需要付出很多时间和精力。本文针对学术专业领域舆情分析缺失和中文专业主题内容挖掘不深的问题,研究面向学术领域的舆情分析关键技术,提出一个新型的面向学术领域的舆情分析算法。首先,根据用户需求,对海量文献进行基于学术特征的检索,获取相关文档集合。然后,本文提出一种基于主题模型的多文档自动摘要算法,通过LDA主题模型获取文档集合中每一篇文档的主题概率分布和每个主题对应的词语概率分布。同时根据主题分布的概率值,选取与文档相关的前几个主题来挖掘文本的浅层语义。然后将主题信息应用到选取摘要候选句的工作中,提出一种基于句子生成概率和文章结构的方法来计算句子的权重。进一步根据LDA得到的词语生成概率,对句子进行概率计算,并针对学术文献不同部分重要度不同,提出改进文档句子权重的方法,从而得到摘要候选句。由于学术文献相似且重要的句子很多,仅仅考虑句子权重得到摘要是不够的,还需要考虑摘要冗余的问题。本文又提出了一种基于最大边缘相关法MMR并结合学术领域特征的冗余控制算法,通过对大量的学术文献进行语料训练,使用学术领域特征的相似度计算对摘要候选句进行多方面的计算评分来选取摘要,最终得到包含各个主题、内容简洁、冗余度低的舆情简报展现给用户。最后,本文开展了验证实验,并与已有的摘要算法进行比较。实验结果表明,该算法可以较好提取学术特征信息,发现主题,去除冗余,提高舆情摘要的准确性和全面性。
其他文献
数学知识内容始终处于一个不断运动发展的过程中,因此,想要完整全面地把握住数学学习的脉搏,就要采取一个动态的思维与形式来对之进行处理.具体至高中阶段的数学教学,想要在
高中数学新课程标准指出:数学不仅仅是一门学科,更是一种文化,其思想、内容和方法是数学学习的基本素养,是现代文明必须的素养.数学文化包括数学思想、数学方法、数学思维、
尽管科技在以惊人的速度发展,但并不能把灾难全部准确及时地预测出来。地震、海啸、火灾等自然灾难仍在肆虐地吞噬着无数生灵。灾难过后如何高速、有效的救灾也成为了近来人
在电信运营商领域,离网预测是企业决策者用来发现潜在离网用户(即停用运营商服务)的主要手段。目前,离网预测都是基于特征工程和传统机器学习算法,例如逻辑回归、决策树、神经网络
H.264标准是由国际电信联盟ITU和国际标准化组织ISO共同制定的新一代视频编码标准。与以往的标准相比,H.264的编码效率有了显著地提高。与此同时,H.264性能上的改进也带来了
圆锥曲线题目的灵活性高、综合性强,往往一道题目中包含了多种数学知识,对学生数学能力的要求很高,是历年来高考数学的热门考点.因此,制定有效的教学方法来提高学生解题能力
“学习迁移”是学生学习过程中最为基本的学习现象,学生学习迁移能力的提升是高中数学的教育目标之一,值得我们每一个教师认真对待.本文选择该话题结合笔者的教学实践谈几点
随着科技的进步和人类社会文明程度的不断提高,人们需要处理的数据量越来越大。在数据量如此丰富的信息时代,如何从如此浩瀚的数据中挖掘出我们所需要的知识和信息成为一个十
在学院艺术教学中,近年来,那些长期一贯从事教学的、经过了系统化培养的国家级老艺术家、教育家们纷纷开始退居二线,坚守第一线的老教师的科学教学思维近乎在被边缘化和被忽
2015年江苏省数学高考题与往年相比,难度并没有提高,这是参加今年高考的高中生普遍的想法.然而这意味着今年的高中生可以轻易地做对高考数学题吗?从结果来讲,并非如此.从今年