网络话题的检测与表示研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:wanghua035871
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和社交平台的迅猛发展,人们获取信息的方式越来越便捷,自我表达的手段也越来越多。正是由于这种用户产生式的信息传播方式,使得网络上数据量激增,导致用户难以快速获取自身感兴趣的内容。因此,建立准确的网络话题检测模型,寻找有效的网络话题表示方法成为了帮助用户从海量数据中获取热门信息的有效途径。本文针对网络话题进行了三个方面的研究:网络话题的检测、网络话题的表示以及一种网络话题检测的后处理优化方法。首先,本文提出了一种网络话题检测算法。在网络话题检测的过程中,本文发现网络话题内部相似度能够反映话题内网页之间的关系,从而构造了具有稀疏约束的网络话题内部相似度。随后,基于泊松反卷积算法对原始混合相似度进行拟合重构,进而降低了话题中错误检测网页所带来的不良影响,得到每个候选话题的重要程度。通过对候选话题重要程度的排序,完成网络话题检测任务。其次,本文提出一种网络话题表示方法。为了解决使用不连续的关键词在进行话题描述时带来的歧义,同时多角度且全面地给用户呈现网络话题的内容,本文提出原型网页表示法。根据原型应具有代表性和多样性,本文建立了原型网页学习算法模型。通过学习网络话题内网页之间不同的关系,模型能够从中学习得到具有代表性和多样性的原型网页集合。用户通过直接浏览原型网页集合,达到快速、准确且全面地了解热门网络话题的目的。最后,针对网络话题检测中存在的不足,本文提出一种后处理优化方法。我们发现在候选话题的排序中,存在大量不准确或无意义的话题。如果合理的处理这些话题,则自然能够提升网络话题检测性能。本文通过对排序后的候选话题进行吸收、移除、重组和重排序的一系列操作,有效地去除了无意义的候选话题,提高了网络话题检测的性能。并在两个公开数据集上进行的多种算法的对比实验证明了该后处理方法的有效性和鲁棒性。
其他文献
随着互联网技术的迅速发展和数据量的激增,能够有效解决信息过载现象的推荐系统应运而生。协同过滤推荐算法是推荐系统中应用最广泛、发展最快的一种算法。由于只利用了用户和项目的交互信息,它的发展受到了数据稀疏性和冷启动问题的严重影响,这导致算法的准确率受到了限制。研究表明,引入辅助信息可以有效缓解协同过滤算法的冷启动、数据稀疏问题,但浅层模型具有特征提取效果不佳的缺点。近年来,将深度学习模型应用于推荐系统
板球系统作为一个多变量、强耦合的复杂非线性系统,对它的研究成果可以推广到诸如工业机器人与卫星定位等实际非线性系统中,因此板球系统的跟踪控制问题一直受到广大学者的关
在实际工程问题中,由于输入输出甚至系统本身的状态受到很多不确定因素的干扰,大多数的系统状态并不能直接由确定性常微分方程描述。因此,我们引入随机微分方程来描述带有随
文化是城市的"灵魂",是城市发展的支点。音乐节是城市文化发展的必然产物,是城市的文化标志。音乐节对于提升城市文化"魅力值",促进城市文化产业发展,提升城市文化软实力,提
对于多细胞真核生物来说,细胞的特异性功能是十分重要的。这就要求在相同遗传物质的基础上,细胞能够通过不同的基因表达模式来适应环境的变化。基因表达调控的因素有很多,近
研究目的本研究通过收集和分析2015年4月至2016年02月江苏省肿瘤医院放疗科住院部给予胸部放射治疗的食管癌病例,探讨雷火灸对食管癌患者接受胸部放射治疗后放射性肺炎发生率
近年来,二维材料因其独特的物理、化学、电子等性能,受到越来越多的关注。尤其是石墨烯的成功制备和深度的发展,在自旋电子学、材料学、半导体领域和微纳米技术领域对二维纳米材料的研究已经成倍增长。正是由于独特的性能,石墨烯可应用在电子、光、能量储存和生物医学等多种应用场景。氧化石墨烯是石墨烯研究的重要分支之一,因为在石墨烯的结构上出现了官能团,氧化官能团影响其物理和电学性质,由此引伸出众多实际的应用场景。
在两个不同方向上具有周期性结构的二维光栅,在光谱分析、激光技术、集成光学、精密测量等技术领域具有重要的科学研究和工程应用价值。二维光栅的微结构参数决定了其衍射特性,如果能找到二维光栅微结构的控制方法和技术途径,将可以实现对其微结构的有效控制,大大提高光栅的制作技术水平,拓宽其应用领域。本文以二维全息光刻胶光栅为研究对象,开展了二维全息光刻胶光栅微结构成形的工艺研究,主要工作如下:1、基于一种新的实
悬浮体系粒子光散射过程中的偏振信息对散射体的形态、结构、折射率、粒径等散射体的固有属性敏感。因此,基于偏振光散射的颗粒物识别技术在大气监测、海洋生物监测、生物细
赤拟谷盗Tribolium castaneum(Herbst)是粮仓及加工厂的主要储粮害虫之一。近60年来,赤拟谷盗已从我国东南沿海个别省(区)扩散到了大部分省(区)内,分布范围进一步扩展,给我国粮食行业,尤其是加工企业带来了较大的经济损失。本论文针对赤拟谷盗成虫的飞行能力进行了全面的研究,有利于揭示该虫飞行能力与外界相关环境因素(温度、湿度、食物)和自身生理条件(日龄、饥饿时间、交配)之间的关系