正则化潜在语义索引:一种新型大规模话题建模方法

来源 :北京大学 | 被引量 : 0次 | 上传用户：hunterring1

【摘要】

：

话题建模旨在于挖掘出文本资料中的潜在话题,并利用这些话题对文本进行表示。作为一种更深层次的文本理解方法和更富有表现力的文本表示方式,话题建模在文本分类、文本聚类、

【作者】

：

王泉

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2013年期

【关键词】

：

数理统计正则解析矩阵分解数学模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

话题建模旨在于挖掘出文本资料中的潜在话题,并利用这些话题对文本进行表示。作为一种更深层次的文本理解方法和更富有表现力的文本表示方式,话题建模在文本分类、文本聚类、信息检索等文本挖掘任务得到了广泛的应用。然而,随着文本数据规模的飞速攀升,传统话题建模方法计算复杂度高、内存消耗大这一缺陷已成为制约它们在实际问题中发挥作用的瓶颈。对传统话题建模方法进行并行或分布式处理成为了一个热门的研究方向。但是现有的并行或分布式话题建模方法并不能从根本上解决话题建模过程中内存消耗过大这一问题,在应用于实际大规模问题时往往需要借助一些过于严厉的预处理手段,例如极大程度缩减文档集合所对应的词表规模。如何在大规模数据上有效并且高效地实现话题建模仍然是当前话题建模方法研究中亟待解决的问题,同时也是最大的挑战。　　本文研究大规模文本数据上的话题建模方法。具体地,本文提出了三个完全可分的大规模话题建模方法,包括正则化潜在语义索引(RLSI)、在线正则化潜在语义索引(Online RLSI)和分组正则化潜在语义索引(Group RLSI)。RLSI以矩阵分解作为话题建模方法主体,同时加上特定正则化因子以满足不同建模需求并控制模型复杂度。RLSI的优点在于它以矩阵分解作为模型主体,从而自然地继承了矩阵分解方法完全可分、高度易并行的特性,极易实现并行或分布式处理。实验表明,RLSI的话题建模效果与现有话题建模方法相当,但是经过简单的分布式处理之后,RLSI能够比现有分布式话题建模方法更加高效地处理更大规模的数据,真正意义上实现大规模数据上的话题建模。Online RLSI是RLSI的在线学习拓展,其核心思想是按照时间顺序对文本进行分批处理。在线学习使得在整个处理过程中只有少部分数据需要载入内存进行运算与分析,从而达到进一步降低RLSI内存消耗的目的。同时,在线学习能够敏感地捕捉文本内容随着时间的变化情况,提取出的话题也具有相应的动态特征。实验表明,在内存有限的情况下,Online RLSI能够比RLSI扩展到更大规模的数据。同时Online RLSI能够敏感地捕捉到话题随着时间的变化情况,有效实现动态话题建模。Group RLSI是RLSI的又一拓展,其核心思想是利用文本既有的类标签信息对文本进行分组,组与组之间尽量独立进行处理。这种分组处理方式可以将原始RLSI中的大规模问题拆解成一系列小规模问题独立求解,从而达到进一步提升RLSI计算效率的目的。同时,分组处理使得提取出的话题粒度更小,能够更加细致地反映文本的局部特征。实验表明,在同等数据规模下,Group RLSI的计算效率远高于RLSI,并且随着话题总数的增加,这种优势越发明显。同时,Group RLSI提取出的话题能够更加细致地刻画文本的局部特征,是一种更加准确的话题建模方法。

其他文献

布尔函数的密码学性质分析与应用

在密码学的研究中，密码算法无疑是最核心的部分。布尔函数广泛应用于各类密码算法，在密码系统的安全性要求方面扮演者十分重要的角色。为了抵抗现有和潜在的技术对密码系统的攻

学位

布尔函数代数免疫度代数攻击弹性函数MAI函数构造密码学性质

多因子HJM模型在中国国债收益率曲线研究中的应用

在每一个金融活动中，利率都扮演着一种基础性的作用。因此实施一个简单且可靠的利率模型极其重要。远期利率与即期利率均可以表示收益率曲线，本文在HJM的框架下通过为远期利率

学位

远期利率多因子HJM模型主成分分析收益率曲线中国国债

生物荧光断层成像的重建算法研究

生物荧光断层成像(Bioluminescence Tomography，简称BLT)是一种新兴的可用于观测和定量评价小动物体内生理和病理过程的光学分子成像技术。相比于传统的层析成像技术，BLT具有无

学位

生物测定荧光成像重建算法近似方程

基于精确匹配的RNA-seq序列拼装

转录本的高通量测序(RNA-seq)为转录组的分析提供了一种有力的手段。目前已有很多拼装软件去处理RNA-seq的数据。按方法大致可分为基于参考序列和不基于参考序列(de novo)的

学位

RNA-seq序列拼装精确匹配人工伙伴数据处理拼装算法

分数阶偏微分方程的高阶数值算法研究

学位

“情境”之中学英语

随着教学的深入,由于缺少语言环境,大部分学生对英语学习逐渐失去兴趣。初中英语教学要体现交际性,要结合学生的年龄特点和生活实际创设交际情境,通过大量的语言实践,使学生

期刊

培养学生初中英语教学语言知识语言实践语言技能语言环境英语学习英语交际学习英语生活实际情境教学年龄特点交际性运用兴趣能力极性方法

文件透明加解密系统的设计与实现

随着我国信息化进程的推进，信息安全建设逐步成为重中之重。存储于各种设备上的机密数据，不可避免的遭受来自内部和外部的安全威胁，各种泄露途径防不胜防。因此，基于防止数据泄露

学位

信息安全过滤驱动文件透明加解密系统设计公钥体制

波动率衍生品的定价研究与分析

本文主题分为三个思路。对波动率互换和方差互换的无风险套利定价方法进行了描述。对波动率互换和方差互换在不同模型下的无风险套利敲定价进行了推导。对方差互换可以通过一

学位

波动率互换方差互换Stein&Stein模型Heston模型价格估计期权复制

E-逆半群上的正则同余和矩形带同余

本文主要研究了E-逆半群的正则同余和矩形带同余.　　全文主要分成两个部分.第一部分主要研究E-逆半群上正则同余与格林关系,利用弱逆为工具探索正则同余与L，R的关系，证明了

学位

E-逆半群E-半群正则同余矩形带同余

荆紫观澜

请下载后查看，本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.

期刊

正则化潜在语义索引:一种新型大规模话题建模方法

与本文相关的学术论文