基于LDA的文本推荐算法的研究及在文献检索的应用

被引量 : 0次 | 上传用户:chener
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着IT和互联网的发展,人类所面临的网络信息正在呈现出爆炸式的增长。因此如何从大量的文本信息中屏蔽掉无用信息并获取目标信息,一直是研究自然语言处理问题的热点话题。目前在文本处理领域存在的一个基本问题在于如何量化描述文本的特征,而量化文本特征的优劣很大程度上是由文本相似度的计算直接决定,这也是聚类、推荐和基于内容等方法的基石。因此本文利用LDA主题模型来量化描述文本的特征,结合文本自身所蕴含的潜在主题信息来提高文本相似度计算的精度,并在图书馆文献检索领域开展基于LDA模型检索方法的应用研究。本文主要工作包括以下三个方面:第一、提出了一种基于LDA主题模型的文本相似度计算方法。该方法利用LDA模型为文本建模,利用MCMC中的Gibbs抽样方法,间接计算模型参数,挖掘出文本与主题的关系和主题与关键词的关系,从而得到文本关于主题的分布和主题关于关键字的分布,进而以参考主题的关键字权重分布来计算文本之间的相似度。这种计算方法为后面的推荐算法研究奠定基础。第二、将LDA模型引入推荐问题的处理,提出了基于LDA的文本推荐算法。其中使用本文提出的基于LDA的文本特征描述方法作为相似度计算的度量值,并将相似度最高的Top-N作为推荐结果返回,提高了文本推荐质量。第三、将基于LDA的文本推荐算法应用于图书馆文献检索系统,该系统具有高内聚低耦合的特点。系统采用事件驱动基于Listener-Runner架构,使检索系统具有异步处理性等特点。
其他文献
目的探讨青光眼小梁切除术后不同眼球按摩护理方式对眼压及手术成功率的影响。方法收集小梁切除术后的青光眼患者40例(40只眼),根据患者的年龄、知识水平、接受能力、行为特
前景化理论是文体学中的重要理论之一,也是目前文体学中最热门、最前沿的理论。前景化,有时又称为“突出”,指文学作品中对语言常规的有意偏离。这个概念来源于有关艺术交流
朱德熙(1982)认为谓词包括词和形容词两个类别。谓词的功能是除了作谓语,还可以作主宾语。这在印欧语系中是绝对不可能出现的语法现象。谓宾动词和其他动词相比,虽然数量不多
国际电工委员会(IEC)于2001年新制定的短路电流计算标准同我国当前普遍使用的传统算法相比,有很 大程度的变化,虽然计算项目多,但概念明确,算法简单扼要,阻抗修正具有科学
<正>在大气运动的教学中,仅用平面图来分析三维空间运动的大气,往往不能达到满意的效果,因为对学生来说,空间概念的建立是一个难点。如果能充分利用教室空间,师生配合,构建一
2005年7月以来,在埃及、伊拉克、黎巴嫩和英国,恐怖活动频繁发生,恐怖主义的阴影始终笼罩着地球。面对这一严峻形势,世界各国都在积极采取措施,防止和应对恐怖活动的发生。反
当下由于世情、国情、党情的深刻变化,我们党面临着长期执政的考验、市场经济的考验、改革开放的考验、外部环境的考验,这些严峻的考验也对我们党在管党治党方面提出了更高更
【目的】 探讨早期教育对儿童气质和适应行为的影响。 【方法】 采用NYLS《3~ 7岁儿童气质量表》及姚树桥、龚耀先编写《儿童适应行为评定量表》对 90例进行早期教育的黄金
压缩感知雷达的目标场景恢复性能要求不同目标的反射回波在压缩空间上的互相关性尽可能小。基于该思想,提出了压缩感知雷达感知矩阵优化模型,根据系统参数和任务信息,以降低
在国内燃煤机组大型化后,为降低机组的厂用电率,首次在百万千瓦机组中将锅炉引风机与脱硫增压风机合并,采用汽轮机来驱动。随着机组运行方式的改变,汽轮机驱动引风机的运行方