短文本流中主题模型及其应用研究

来源 :山东大学 | 被引量 : 0次 | 上传用户：ppaann850729

【摘要】

：

快速获取文档主题对于文本内容挖掘和语义理解有非常重要的作用。随着计算机的快速发展和人工智能时代的来临,人类对于机器理解自然语言的语义有着更深层次的需求,文档主题建

【作者】

：

赵玉琨

【出处】

：

山东大学

【发表日期】

：

2017年期

【关键词】

：

主题模型短文本流主题模型短文本流个性化推荐用户聚类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

快速获取文档主题对于文本内容挖掘和语义理解有非常重要的作用。随着计算机的快速发展和人工智能时代的来临,人类对于机器理解自然语言的语义有着更深层次的需求,文档主题建模或者称作主题挖掘在信息检索、人工智能、自然语言理解、数据挖掘领域占据比较重要的地位。经典的狄利克雷主题模型主要针对相对较长的文本,这些经典的模型能够方便的获得文档的主题和潜在的语义,但是在短文本流中并不能取得很好的效果。本文主要针对短文本流中的主题建模进行研究。随着社交媒体的快速发展,有数以亿计的用户活跃在发布短文本的社交平台上,包括脸书网,Twitter,新浪微博,微信等。这些平台上每天都产生亿级的短文本消息,我们通过分析挖掘这些短文本内容可以获得大众的兴趣,舆论导向和个性化的用户兴趣。这项研究对于个性化的服务包括个性化推荐、搜索、精准广告投放等有重要意义。本文的工作包括:结合外部知识的狄利克雷主题模型,该方法考虑改进经典的基于长文本内容的隐含语义模型,通过引入自媒体发布的内容,丰富短文本中词与词之间的共现,以提高性能。其中,引入的自媒体内容则是用户关注的一类高质量博主所发布的高质量内容,该方法的本质是给潜在语义模型提供了更多高质量的共现词对,从而提高主题建模的质量。本文将该主题模型应用于短文本环境中用户的兴趣建模,并结合微博平台的特征提出了个性化微博再排序框架。即通过分析用户在某个时间段发布的文本内容来推断用户兴趣,同时考虑用户和微博发布者之间的互动信息及微博发布者的特征,将用户一个时间段内接收到的微博根据用户兴趣进行再排序最终推送给用户。实验证明,结合外部知识的主题模型可以很好的挖掘用户的兴趣,推荐更多用户感兴趣的微博给用户。动态狄利克雷多项混合用户主题模型,考虑用户兴趣随时间变化的特性和短文本本身的内容特征,本文进行用户层面的动态主题建模。根据用户当前时间段发布的短文本内容和上一时间段用户的兴趣,来追踪用户动态变化的兴趣,其中用户的兴趣表示为混合主题多项分布。在短文本环境下为了更好的推断的主题分布,针对短文本词与词之间共现的稀疏特性,改进狄利克雷生成模型及其吉布斯采样过程。通过该模型,可以通过用户在不同时间段的兴趣分布(主题分布)。同时本文将该改进的主题模型应用于动态用户聚类,使得用户聚类的结果具有可解释性。实验结果表明,在短文本流中,我们的模型可以更好的推断用户随时间变化的兴趣,同时给出更合理动态变化的用户群组结果。

其他文献

基于双因素理论的战略性薪酬管理探析

战略性薪酬管理本身就是一种如何将薪酬管理得更好的一种理论。将双因素理论应用于战略性薪酬管理之中,会使得战略性薪酬管理体系的构建更为细致、清晰。区别保健因素与激励

期刊

双因素理论战略性薪酬薪酬管理

机械设计制造中液压机械传动控制系统的应用

科学技术的发展使得技术水平不断得到提升,出现了一些大功率大容量的技术设备,促进了机械设计制造的发展,液压机械传动作为一种新型的技术在机械设计制造中不断得到应用,对机

期刊

机械设计制造液压传动控制系统应用

道路沥青混凝土配合比设计

介绍了某道路沥青混合料配合比设计要求及配合比设计过程，总结出当驼峰骨料给目标配合比带来困难而工程区附近又没有其他可供选择的料源时，可以考虑通过改装拌和楼来改善骨料级

期刊

骨料驼峰沥青混合料水损害aggregate hump-type of aggregate asphalt mixture moisture damage

《金匮》百合病理论研究综述

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

会议

《金匮》百合病百脉阴虚失和治从心肺

无芒雀麦人工草地初级生产力动态的研究

以无芒雀麦人工草地为研究对象，对其生物量的季节及垂动态进行连续４ａ的研究。为促进无芒雀麦草地在河南省的高产丰收提供基础资料及其理论依据。

期刊

无芒雀麦初级生产人工草地Bromus inermis primary production artificial grassland

向喜爱哲学的朋友推荐《萧前文集》

今年7月，是我国著名的马克思主义哲学家、我的老师萧前教授的八十华诞，我的母校中国人民大学专门举行了《马克思主义哲学的当代发展研讨会暨萧前教授80华诞纪念会》，会前出版了

期刊

母校老师出版文集中国人民大学教授中国马克思主义哲学哲学界实在

湖北广电联手百度书写融合新篇章

<正>7月16日,湖北广电发布公告,公司与百度正式签署了《战略合作框架协议》。双方将在战略、资本、业务、技术、平台等各层面上开展全方位战略合作,打造互联网业务本地化运营

期刊

广电湖北书写

克拉美丽气田火山岩气藏试采特征

期刊

火山岩气藏试井特征试采特征

会议通知第22届中国内镜医师大会暨恩德思医学科学技术奖颁奖大会恩德思世界医疗器械药品博览会

为促进我国内镜微创医学健康发展，加强学术交流，开精品会议，规范内镜微创医学培训教学。由国家卫生部医管司、国际合作司、国家科技部国际合作司、世界内镜医师协会、国家卫生部

期刊

中国医师协会内镜医师分会国际会议中心科学技术奖医学健康医疗器械博览会世界药品

国外空间系统网络拓扑结构的发展研究分析

介绍了国外空间系统网络的拓扑结构及其对应的典型空间系统的发展现状，对国外空间系统网络拓扑结构的主要类型进行了分类，针对不同网络拓扑结构的空间系统的基本情况及主要工作

期刊

空间系统网络空间系统网络拓扑结构转型通信体系结构(TCA)全球信息网格(GIG)Space System Network Space System Ne

短文本流中主题模型及其应用研究

与本文相关的学术论文