【摘 要】
:
主题追踪因可以有效地汇集和组织分散在不同时间、地点的信息,并从主题层次的角度对某个主题相关事件的时效性、动态演化关系等得到比较全面的把握,成为当前数据挖掘领域的重
【基金项目】
:
国家自然科学基金(61272258,61170124,61170020,61301299)资助~~
论文部分内容阅读
主题追踪因可以有效地汇集和组织分散在不同时间、地点的信息,并从主题层次的角度对某个主题相关事件的时效性、动态演化关系等得到比较全面的把握,成为当前数据挖掘领域的重要研究方向.现有基于概率主题模型的主题追踪方法主要以潜在狄利克雷分布(Latent Dirichlet allocation,LDA)模型为基础,采用在线吉布斯采样(Online Gibbs Sampling,OGS)和在线变分贝叶斯(Online Variational Bayesian,OVB)算法进行参数估计.OGS和OVB算法尽管解决了LDA模型中使用传统离线近似推理方法所需内存空间的大小随数据集的增长而不断增加,无法训练海量数据集以及数据流数据的问题,但训练的精度和速度均有待提高.该文基于LDA模型的改进因子图提出了一种在线消息传递(Online Belief Propagation,OBP)的主题追踪算法.该算法借助因子图中消息传递(Belief Propagation,BP)算法的推理,通过切分海量数据集为段,并用前一段数据集训练后的参数计算当前段的梯度下降,使得主题追踪更加快速和准确.四组大规模文本数据集的实验对比表明,LDA模型中OBP算法在速度和精度上均优越于OGS和OVB算法,文中也从理论上进一步验证了OBP算法的收敛性,并给出了主题追踪的具体应用.
其他文献
对平均值标准偏差的理解是分析化学教学中的一个难点,本文通过对平均值标准偏差计算公式的推导,解答了如何正确理解平均值标准偏差的概念以及它的计算方法。
<正>对于取消P.C32.5水泥的问题,业界市场上的意见并不统一,但中国水泥协会及2014中国国际水泥峰会多位专家表态,取消P.C32.5水泥已成定局。中国水泥协会孔祥忠秘书长强调,取
通过用户端和客户端的两次握手解决了水印图像网络传输的安全性,抵抗了重放攻击,提高了自动指纹识别系统的可信度。提出基于人眼视觉系统和小波多尺度分解原理,使合法用户指
为用户推荐朋友是在线社交网络的重要个性化服务.社交网站通过用户之间是否有相同属性信息或公共邻居判断他们能否成为朋友,但由于用户注册信息不完善和对公共邻居之间关系的
结合能源经济学理论、区域发展理论及统计模型分析方法,根据研究目的选择了Laspeyres模型和SSA模型,并对这些模型进行了计算性扩展和应用创新。在Laspeyres模型中定义了传统
以柯诺洛夫规则为例,引导学生去探索该规则背后蕴藏的物理图像,即气液相图。从理想溶液和稀溶液气液相图开始,进一步探讨和分析了非理想溶液气液相图中总蒸气压与气液相中A组
由于通信业务系统通常具有系统结构复杂、项目投资大、时间进度要求严格、涉及相关部门多等特点,导致项目管理的实施难度增大、项目的风险高等问题。双号通业务平台项目就是
桥环化合物系统命名法中的环数是指其形成开链骨架时开环的最少次数。在空间几何上将不全在同一条直线上的线段首尾相接围成的几何圈形称为环(几何环)。系统命名法中的环数与
我国人寿保险行业发展速度惊人,但密度和深度与经济发展水平较高的国家相比,可谓霄壤之别。虽说基于人口大国的优势,潜在市场大,但实际对寿险的消费情况却不及预期。因此,我
<正>万载兔俗称火兔(黑色)或木兔(麻色),为原产于江西省万载县的小型皮肉兼用兔。万载兔具有耐粗饲、抗病力强、胎产仔数多,对我国南方亚热带温湿气候适应性强,被毛毛色多样