基于分层狄利克雷过程的访问内容序列分析

来源 :汕头大学 | 被引量 : 0次 | 上传用户:ericwu8756
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术发展,通过访问内容去审查用户网络访问行为的应用问题逐渐成为备受关注的一项数据建模应用问题。现有的主题模型能够从长度和规模不定的数据中抽取每个数据实例的主题特征,进行内容建模;而在序列分析方面,隐马尔可夫模型是一种广泛使用的序列数据概率生成模型。将这些现有概率模型应用到访问内容的序列建模时,需要事先选择固定的概率模型混合成分数量,这在本文的有关应用场景中是一个亟待解决的问题。  本文引入了分层狄利克雷过程这一随机过程,其能有效解决概率模型中的混合成分数量如何确定的模型选择问题。通过将分层狄利克雷过程应用到文本主题提取以及隐马尔可夫模型参数学习中,本文提出了一套形式规范的概率生成模型方法,使用变分推断的参数学习方法从访问序列中高效率地提取出隐马尔可夫模型参数组,以表征用户的访问模式,并且创新地提出HDP-HMM-多元正态分布的变分求解迭代公式,从而解决网络用户数据访问行为建模的应用问题。本文还对所提出的方法展开了一系列基于真实局域网收集数据的实验,以验证方法的有效性;实验结果表明,分狄利克雷过程相关模型能够有效提取参数组,为不同用户确定似然度高的隐状态数量。最后,本文还讨论了诸如在线更新算法等进一步提高计算效率的方法。
其他文献
数列求和问题历来都是高考命题的热点,也是高中数学教学的重点.求解这类问题的关键是抓住数列通项的结构特征,联系基本数列的求和技巧构造性解题.本文通过一些典型的范例,对
期刊
随着大数据时代的来临,海量信息充斥网络,面对如此复杂而庞大的数据,快速且准确地获得关键信息,变得尤为重要。在文本领域,每天都会有海量数据产生,比如网页新闻、论文文献、
随着工业现场自动化系统集成度的不断提高,工业自动化系统软件取得了很大的发展。然而,在煤矿企业的生产销售工作中,汽车衡、轨道衡、核子称等称重衡器大多单独运行,完成简单
题目对于具有相同定义域D的函数f(x)和g(x),若存在函数h(x)=kx+b(k,b为常数),对任给的正数m,存在相应的x0∈D,使得当x∈D且x>x0时,总有0
期刊
随着网络带宽的增加和信息处理技术的进步,人们对多媒体业务的需求越来越广泛。视频编码技术作为多媒体技术中重要的组成部分,早已经成为国内外研究和工业应用的热点之一。国
随着互联网的迅猛发展,基于互联网的各种应用也日益受到人们的重视,特别是现代远程教育得到了巨大的发展。基于web的考试系统正是在这种形势下应运而生的。尽管传统的考试形
学位
2018年12月12日,由河北省工笔画学会、唐山市政协教科文卫体委员会、唐山市文广新局、唐山市文联等共同主办的“庆祝改革开放40周年和唐山解放70周年唐山名家美术作品展”在
期刊
今年入春以来,由于阴雨多,阳光少,气温高,湿度大,在一些基肥中氮肥过多、插秧较密的稻田,发生禾苗过早封行,禾叶铺雾下垂的现象。下面两个方法,是我 Since the spring of t
按照不完全双列杂交试验方式,以20个甘蓝型油菜品种为母本与3个芥菜型油菜品种杂交,配制了60个组合。分析结果表明,母本甘蓝型油菜在种间可交配能力上存在着较大的遗传变异。
我们大队山高,水冷,日照短,霜期长,土层浅薄,生产条件差。全大队耕地面积1320亩,历年来种植水稻,产量不高。从1975年开始改种甘蔗,是一个新蔗区。1977年种植甘蔗704亩,总产5