基于Biterm主题模型的新闻线索生成方法

来源 :数据分析与知识发现 | 被引量 : 0次 | 上传用户:lvyuxuan3652008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
[目的]为解决生成新闻线索时抽取新闻主题及度量子事件相关性困难的问题,通过动态滑动窗口的方法改进主题模型,提高长文本和短文本新闻主题抽取的质量,并基于抽取出的新闻主题,提出面向新闻事件的新闻线索生成方法.[方法]在主题模型IBTM(Incremental Biterm Topic Model)的基础上,通过动态滑动窗口减小二元词组的提取范围,提出既适合在长文本新闻也适合在短文本新闻上抽取主题的News-IBTM模型,进而基于该模型从新闻数据中抽取主题分布和主题-词分布、推断文档-主题分布,再利用JS散度来度量文档-主题分布的差异,从而生成新闻线索.[结果]在人民网新闻和微博新闻数据上的实验结果表明,无论是长文本新闻还是短文本新闻,News-IBTM在困惑度、准确率及效率上都优于现有的经典主题模型.[局限]News-IBTM以及其他新闻线索生成方法的准确率都不高,还可以进一步提升.[结论]本文方法适合应对长文本和短文本新闻主题抽取的质量问题,并能从新闻事件中获取新闻线索.
其他文献
[目的]解决传统的空间co-location模式挖掘方法在研究类似污染源与癌症病例这两大类特征之间的关系时,会挖掘出大量用户不感兴趣的模式且只考虑模式的频繁性等问题.[方法]首
[目的]对社交网络进行有效的监管,在一定程度上把控和干预舆情的传播和发展变化.[方法]提出一种综合拓扑势网红度、传播力和关注度的意见领袖挖掘模型OLMT,由此可以从更多的
罗杰·赫姆斯特雷(Roger Hiemstra),1938年9月15日出生于美国密西根州。1970年在美国密西根大学获成人社区教育博士学位。其职业经历是:道格拉斯飞机制造公司计算机数据处理
[目的/意义]目前学界对科学家学术谱系繁衍的研究仍处于探索阶段,仅有少量文献尝试从外部环境角度对其影响因素进行分析.本研究构建了科学家学术谱系繁衍的影响因素模型,有助
[目的]提出一种划分模型解决微博热点话题下用户群体分类问题.[方法]从情感分析的角度入手,采用情感词典的方法计算用户文本情感值,并将文本情感值与用户文本向量表达相结合
[目的]从更具专指性和表征能力的短语语义表示角度,设计基于短语表示学习的主题识别及其表征词抽取方法.[方法]基于依存句法分析抽取短语构建短语序列,并将短语序列视作词序
[目的]以基本科学指标(ESI)Top1%高被引论文为对象,研究中国国家自然科学基金资助论文的高被引率变化情况.[方法]对比分析中国国家自然科学基金与美国主要基金、国内其他基金
[摘 要] 专业是高职院校人才培养的基本单元,课程是专业内涵建设的核心,课堂教学是课程实施的主阵地,是人才培养质量生成的教学一线。专业、课程、课堂三者之间具有内在逻辑关系,合理构建三者的联动机制,可使人才培养方案、课程标准、教案环环相扣,提高人才培养质量。  [关 键 词] 专业;课程;课堂;联动机制  [中图分类号] G712 [文献标志码] A [
医药类高校“课程思政”建设对于高校落实“立德树人”的根本任务,培养德才兼备的医药学人才有着非常重要的意义.医药类高校应在课程教学中充分挖掘思想政治教育资源,将专业
[目的]基于眼动实验分析在线健康信息可读性对用户认知负荷和信息加工绩效的影响.[方法]构建具有高/低可读性的两组健康信息网页作为实验刺激材料,检验在线健康信息可读性对