基于语义聚类和加权TextRank的新闻关键词提取方法的研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:hubingguixuejing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的迅猛发展,信息传播和流通的速度越来越快,每天都有无数的时事新闻在互联网中快速传播,网络上的资源越来越丰富,也越来越繁杂。在时间和精力都有限的情况下,人们难以准确地从海量的数据中把握目标内容。因此迫切需要一种手段,用以快速阅览新闻概要并掌握当下热点,从而省去筛选新闻和通篇阅读的麻烦,这不仅有利于读者,也是有助于新闻工作。作为对一篇文章的主题进行简要概括的一系列词语,关键词不仅对于表述文章的中心主旨有非常实用的意义,还能够帮助我们快速理解文本的中心思想。所以,需要一种有效的关键词分析技术来获取有效信息。目前已有一些成熟的关键词提取算法,但都存在着准确率较低、对于词的特征考虑不全面等弊端。故本文在TextRank算法思想的基础上,使用最新的深度学习模型来突出表现词的语义特征,研究出了一种高效且准确的关键词提取方法,基于此算法设计并实现了一个基于关键词分析的新闻推送系统。此系统包含了新闻获取、文本处理、关键词提取、热点分析和新闻推送等主要功能,在研究中,本文在系统的设计与实现中所做的主要工作如下:(1)研究了网络爬虫和获取新闻网站实时新闻的方法,在此基础上实现了系统中用于得到数据来源的模块。这一模块能够定时启动,获取各大主流新闻网站中最新新闻,并进行准确网页解析,从中提取出新闻数据并存储,给系统中后续的处理提供了有效的数据来源。(2)研究了一种可行的关键词提取方法,并将其作为系统的核心功能。在工作中,首先研究了 TextRank和TF-IDF等已有算法。其中TextRank源自于PageRank算法,基本原理是利用词图模型来传播词的权重,对最终权重排序后得到关键词。TextRank算法中关键词权重传播的倾向性只在于词的出现频率,为了改善这一情况并提高算法效果,本文提出了基于语义和统计特征的TextRank关键词提取算法。首先研究并比较了各种词向量模型,选取了深度学习模型生成的词向量进行k-means聚类来表示语义的聚类特征,并利用词的TF-IDF值来表示候选词语相对于文本库的统计特征,最后再结合上词在文本中的位置特征,构建出一个新的TextRank权重转移概率矩阵。最后利用这一矩阵进行词图的迭代计算和关键词的提取。经过实验仿真,相比于传统的TextRank算法和TF-IDF算法,本文提出的算法在准确率、召回率和F1值上均有较为明显的提高。从而本算法可以用于系统中关键词提取的核心功能。(3)在前面工作的基础上,本文利用Spring Boot框架实现了基于关键词分析的新闻推荐系统。这一系统提供了文本处理和关键词提取等基本特色功能,它不仅能展示最新的新闻及其关键词,还能够根据近期新闻关键词的频率分析出新闻热点,并根据这些新闻热点有针对性的给用户推送新闻,满足以词为出发点来筛选相关或相似内容新闻的需求。
其他文献
在课堂教学过程中,师生互动是非常重要的教学行为.优质的课堂师生互动可使学生的学习兴趣与教师的教学技能得到同步提升.本课题依托于弗兰德斯互动分析系统对广播电视编导专业课堂师生互动情况进行测析,挖掘出目前广播电视编导专业课堂教学中师生互动方面存在的问题,提出切实有效的建议,以期助力于编导专业教师教学技能的提升.
近年,网络综艺的火热为青年亚文化提供了展示的舞台,嘻哈、街舞、摇滚纷纷走出地下,甚至登上主流平台抛头露面.而对于青年亚文化的研究,从伯明翰学派起到现在已持续几十年,其中青年亚文化的“妥协”与“斗争”更是经典话题.本文立足于已有研究,通过对《乐队的夏天》做内容分析,发现《乐队的夏天》上的歌曲呈现出过度关注自我,缺乏对现实的关注、批判性减少、关注个体情绪,忽视集体诉求等倾向.由此,笔者认为《乐队的夏天》上所呈现的青年亚文化具备一定的妥协性.
随着新媒体的强势崛起,原有的媒体环境和格局被打破.同时受众的试听需求也产生了巨大的变化,所以主持人即兴口语表达能力的培养不能沿用面向传统媒体时的方法.同时在当今的媒体环境下,即兴口语表达能力成为衡量主持人专业能力的重要标尺,这已经是媒介工作者的共识.因此,本文根据当下受众试听需求,结合即兴口语表达的课程特点,在教学中尝试融入表演元素并将二者有机融合,探索出培养新时期主持人即兴口语表达能力的新方法.
课程思政是当前高校贯彻落实立德树人根本任务,培养德、智、体、美、劳全面发展的社会主义事业建设者和接班人的必然选择.在专业课程教学实践中,要充分挖掘专业课程所蕴含的思政元素和德育功能,有意识地将能力培养、知识传授与价值引领相结合,把大学生思想价值引导贯穿于专业教学过程之中,实现课程育人.结合课程思政教学改革,本文主要从应用型高校影视传媒类专业课程教学理念、内容、方法、评价等方面,对课程思政教学改革实践进行研究.
结构测试中,不可达路径会浪费大量测试成本,极大降低测试用例的生成效率。若能提前确定路径可达性,则能将有限测试资源充分用于可达路径用例求解。传统的不可达路径判定方法有静态法、动态法和混合法。静态法与编程语言耦合,路径求解代价昂贵;动态法依赖测试数据生成,执行效率低;混合法虽然提高了求解效率,但仍受传统方法的限制。当前没有一种高效且通用的不可达路径判定方法。尤其对大规模程序而言,路径可达性求解难度极大
脉冲激光测距目前应用极为广泛,可用于环境检测、卫星观测、无人驾驶、农业林业等多个方面,并且测距过程中的抗干扰能力非常重要。较差的天气条件、复杂的环境干扰等容易引起虚警、漏检等问题。为了更好的提高测量精度,在不增加硬件电路设计难度的基础上,本文采用数字信号处理的方法提高激光脉冲回波信号的信噪比。通过采用多脉冲动态累加算法以及小波阈值去噪算法增强测距系统的抗干扰能力,优化回波信号质量,提高测量精度。本
随着社会的快速发展,当代的媒介已经走上了融合的发展道路.根据时代的发展变化,播音主持教学需要做好积极的应对,不断增强教学的专业性和时代性,注重提升播音主持人的综合素质和专业素养,使得他们能够在新的历史发展背景下不断满足行业发展的高要求,在信息传播过程中发挥更重要的作用,推动传媒行业在优化和创新中不断走向更快发展.
微信系统的舆情信息传播过程中,朋友圈、公众号、微信群等各场域均参与其中.三大场域分别有不同的舆情传播特征,同时多场域交互的微信舆情也存在不同主体间的相互影响.微信舆情的非线性传播、多层级分化、熟人化社交和私密性设置给舆情治理带来挑战.促进微信舆情的良好发展,社会治理部门需要将工具理性和价值理性共同推进.关注舆情节点的各个部分,为舆情预警、舆情回应,舆情反馈等提供制度支撑.
现代媒体行业的快速发展,新媒体技术应运而生,技术水平也不断提高,将其应用到新闻栏目的包装设计中,在节目效果、画面质感、色彩和清晰度等各方面,实现了改进和优化的目标,突破传统节目制作模式的限制,提高了新闻栏目包装设计的水平.本文分析了新媒体对新闻栏目包装设计的重要性,对基于新媒体视域的新闻栏目包装设计策略进行了探讨.
信息化时代背景下,新媒体平台逐步呈现出多元化.传统纸媒面临着前所未有的发展机遇与挑战.新时代背景下,传统纸媒需加大创新力度,结合时代背景,不断创新与优化传播形式,丰富传播内容,方可以顺应时代发展趋势,并推动报纸传媒稳步、持续性发展.本文结合工作实践,分析了媒体背景下报纸编辑理念创新对策.望能够起到抛砖引玉作用.