基于Biterm主题模型的新闻线索生成方法

来源 :云南大学 | 被引量 : 0次 | 上传用户:caiwupim
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网新闻媒体平台的快速发展与普及,新闻数据呈爆炸式增长。对新闻数据进行分析和挖掘,提取新闻事件中的新闻线索,有助于人们快速准确地了解新闻事件的来龙去脉和演化方向。因此研究新闻事件的演化与追踪技术可以为新闻传播领域奠定良好的基础,对数据压缩、用户兴趣发现、舆情追踪等领域的发展也具有一定的研究意义,并且从新闻数据中提取新闻线索对人们的生活同样具有较好的现实意义。主题模型被广泛用于抽取和分析新闻文本中的隐含信息,并基于隐含信息实现新闻事件的演化和跟踪等应用。由于互联网上的新闻既包含长文本新闻、也包含短文本新闻,传统的主题模型很难同时兼顾在这两者上抽取主题的效果,进而影响生成新闻线索的质量。此外,新闻数据源源不断,每天都有新的新闻在各个媒体平台发布。因此,如何解决同时在长文本和短文本上抽取主题效果不佳的问题,如何抽取增量的新闻数据,以及如何生成易于理解的新闻线索,成为本文需要解决的主要问题。本文研究新闻线索的生成,主要研究内容包括以下四个方面:1、本文在IBTM(Incremental Biterm Topic Model)基础上,通过减小二元词组提取的范围,提出了既适合长文本新闻也适合短文本新闻上主题抽取的主题模型——News-IBTM模型。2、本文引入增量式吉布斯采样算法,基于News-IBTM模型从新闻数据中增量地估计主题分布和主题-词分布;3、本文利用增量式吉布斯采样估计得到的主题分布和主题-词分布,推断文档-主题分布,再利用JS散度来度量文档-主题分布的差异,提出了面向新闻事件的线索生成方法。其次,建立在人民网新闻和微博新闻数据之上的实验结果表明,无论是长文本新闻还是短文本新闻,News-IBTM在困惑度、准确率及效率上都优于现有的经典主题模型。4、基于本文提出的新闻线索生成方法,设计开发了一个Web网页版的“新闻线索生成原型系统”,该系统有文件载入、文本分词、主题建模、主题展示、主题分布展示以及新闻线索可视化功能。并且拥有跨终端、实时更新等特性。
其他文献
心脏听诊是检查心脏健康最简单有效的手段,但需要听诊医生拥有丰富的听诊经验和过硬的专业技能,基层医生往往不具备此项条件。因此通过采集心音,利用数字信号处理和深度学习等技术手段对心音进行分析,判断心脏健康状态,以辅助基层医生进行心脏听诊。本文借鉴远程医疗平台与边缘计算的特点,结合Android平台,数字信号处理与深度学习技术,实现心音的本地化分析。根据当前心音采集分析的流程,本文针对当前移动端心音分析
学位
素数是构成整数的基本因子,它在编码理论特别是近代密码学中有重要应用,因此判定一个大整数是否为素数是素数应用中最基本的问题。已有的方法通常是单纯的利用+1的分解或-1的分解来判定的素性,未将这两种分解充分利用起来,比如没有同时利用它们的分解。不仅如此,已有方法对算法实现的效率普遍不高,到目前为止,最大的已知素数尚未达到三千万位,越往上难度越大,其中不仅有算法本身的问题,还有计算机运行或运行模式方面的
学位
石墨烯是具有单层六角结构的高迁移率材料,具有良好的光学、热学、机械力学等特性,且在室温下具有较高的电子迁移率。良好的导电性能与作为二维材料的特性使其在探测器,传感器,催化,储能等方面具有极佳的应用潜力。光电探测器在军事通信,半导体制造,激光器,及民用火焰探测,环境监测等领域具有极为重要的应用。目前新型半导体材料的主要研究热点为:1.非制冷红外探测器2.第三代宽禁带半导体器件。窄带隙材料In As
学位
课程思政是新时代背景下高校推进思想政治教育的新理念、新方法,有助于落实立德树人根本任务。当前,我国高校课程思政工作稳步开展,试点高校已取得令人欣喜的成果,但就普遍的实施效果层面,各高校在课程思政具体推进中仍存在诸多问题亟需解决。本文围绕“新时代高校课程思政推进机制”这一主题,从课程思政的理论内涵出发,遵循课程思政内在机理,选取三所高校为对象进行实地调查,同时以当前学术界已有研究作为借鉴,综合考察了
学位
共形对称性在场论中一直扮演着重要的角色。例如,在研究黑洞视界附近的非热平衡霍金辐射时,为避免锥形奇异性所用到的热核展开方法,共形对称性可以大大简化其中的重整化过程。本文关注的问题是,能否将共形对称性运用到基于Bellini联络的引力场和标量场模型上,以及运用之后所产生的效应。为此,我们将从Bellini联络入手,研究共形不变性对宇宙早期,黑洞周围物质的运动情况,标量场的生成泛函,以及对标量粒子质量
学位
教育的发展伴随着教育与生活二者之间关系的思考,到了19世纪,由于科学技术的发展、理性主义的膨胀,中西方教育与生活都曾在一段时期里出现了短暂的分离。在经济、政治、文化迅猛发展之中,思想政治教育作为一门学科逐步走向规范,但与此同时,思想政治教育过多的关注人们思想道德认知水平的提高,而忽视了具体的生活情景,由此产生了一系列问题。随着认识的进一步加深,人们逐渐认识到生活才是思想政治教育行之有效的沃土。在这
学位
“层序”在碳酸盐地层研究中具有重要的科学与生产意义,华北北部地区奥陶系大部分岩石地层单位与三级层序的划分存在不一致性。本文试图从露头、牙形石、钻测井、地震层序角度并结合全岩碳同位素分析等进行综合研究,来深入探讨华北地区奥陶系三级层序划分问题,将华北北部地区奥陶系划分为6个三级层序,即:层序OSQ1(下奥陶统冶里组)、层序OSQ2(下奥陶统亮甲山组)、层序OSQ3(中奥陶统下马家沟组下部)、层序OS
学位
自锂离子电池(LIBs)问世以来,就获得了快速的发展并广泛占领电池应用市场,但锂资源有限,价格昂贵,对LIBs未来长期的发展直接造成了限制。钠离子电池(SIBs)是一种低成本的碱金属离子电池,其中钠资源不仅丰富且成本较低,作为锂离子电池的一种可能性的替代产品,近年来SIBs受到了研究人员的热切关注。SIBs在大规模电网储能及对体积或质量能量密度要求不高的领域具有很大吸引力,但Na+半径大,其在电极
学位
高性能计算、人工智能等应用推动芯片的技术节点不断向前迈进,导致设计、制造的难度和成本问题凸显,针对这一问题,Chiplet技术应运而生。Chiplet技术是将复杂的系统级芯片按IP功能切分成能够复用的“小芯片(芯粒)”,然后将执行存储和处理等功能的小芯片以超高密度扇出型封装、2.5D和3D高端性能封装进行重新组装,以实现高性能计算对高带宽、高性能的要求。介绍了上述封装的多样化形式和通信协议,分析其
期刊
众包作为群智协同计算的一种模式,实现了工作者的智力资源与互联网技术的协调发展,但在该技术中仍然有许多亟待解决的问题。其中,不少工作者因个人情况不愿参与众包任务,或者在参与协同任务时存在能力不足、不尽力或者欺骗等行为,导致结果质量下降。因此,如何设计一个合理有效的激励机制来吸引工作者参与,并提高任务的结果质量,是目前该领域的一个研究热点和难点。而传统激励机制的设计多以给予工作者金钱奖励等外在物质需求
学位