LDA在信息检索中的应用研究

被引量 : 13次 | 上传用户:itowna
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,信息的数量呈指数增长,从海量的互联网信息中查找到用户所需要的信息,已经成为信息检索中的一项迫切需求。目前较为常用的是基于关键词匹配的信息检索技术,然而面对汉语语言文化表达形式的多样性,一词多义与一义多词等现象屡见不鲜,基于关键词的检索技术在潜在语义的信息挖掘方面,已经无法满足用户更为全面的检索需要。Latent Dirichlet Allocation (LDA)作为一种潜在的语义主题模型,可以实现相同语义的主题单词之间的相互关联,给信息检索中文本的潜在语义信息的挖掘提供良好的检索模型框架。本课题针对LDA在信息检索中的应用进行了如下研究:首先,基于LDA模型的主题分类算法的改进。针对LDA在大规模数据集的数据挖掘中所存在的文档主题强制性分配,以及主题太过宽泛等问题,本文提出基于LDA的文档主题分类生成算法,在文档的产生过程中,通过加入文档-类别标签γ,计算文档的最相关主题的概率,判断文档的所属类别,实现文档在类内的主题挖掘与主题共现。其次,信息检索中文档主题检索模型的构建。针对传统的基于关键词的检索中存在的潜在语义信息遗漏等问题,在已有的检索模型算法的基础上,运用LDA的文档主题提取算法,提取文档中的主题信息结构,将文档的主题信息整合到传统的查询概率检索模型中,构造新的基于LDA的文本主题检索模型,实现模型中文档的语义主题表示,使模型的检索效果得到一定程度的改善和提高。最后,在Nutch开发平台下,根据中文信息检索中存在的语义检索特点,对中文文本进行预处理,实现中文文本中“停用词”的过滤以及中文文本的分词,在此基础上,通过LDA模型获取文档的主题信息,将其应用于检索系统的文档索引中,实现文本的主题表示以及文本之间的相互关联,为用户提供更加全面的检索体验。
其他文献
在严峻的就业形势下,研究特殊群体毕业生的就业创业问题成为刻不容缓的课题。本文从创业视角审视特殊群体毕业生就业,探讨特殊群体毕业生内涵和外延,调研总结河南省特殊群体
初中生物教学是培养学生生物素养的基础教学阶段,在学生未来的生物学习中起着重要的作用。对于任何课程的教学,都强烈主张以学生为主体。特别是近年来,在高中入学考试中,初中
俗话说“民以食为天”,然而每年由不安全食品所造成的严重后果,已使食品安全问题成为世界全球公众关注的焦点问题之一。随着社会的发展、经济的进步和老百姓生活质量的提高,我国
农业是立国之本,农业问题、农村问题、农民问题是中国生存和发展的根本问题。中国作为一个农业大国,近十几年来农业一直处于高速发展期,农业发展进入了由数量型向质量效益型转轨
在5×10-2mol·L-1HCl溶液中,二甲酚橙与Fe(Ⅲ)生成紫红色络合物,其最大吸收波长位于560nm 处,表观摩尔吸光系数ε=2.0×104L·mol-1·cm-1.Fe(Ⅲ)含量
目的分析外科ICU不同时间段的护理工作量,探索合理安排护理人力、提高护理效率的方法。方法应用TISS-28评分系统对北京市某综合医院外科ICU患者的护理工作量进行测定。结果护
相对于股份公司较强的资合性而言,有限责任公司的其人合性更加明显,并且由于有限公司的封闭性,使得股东对公司运作及其相关事务的参与和监督意识更强,而参与与监督的前提是对公司
本文通过对乘用车门护板的发展趋势,门护板的设计流程,概念开发以及工程开发等几个方面的分析和阐述,来说明门护板开发所运用到的现代设计方法及流程。研究内容为门护板开发的产
玛丽·雪莱(Mary Shelley,1797-1851),英国著名小说家,因1818年创作的科幻小说《弗兰肯斯坦》,而被誉为科幻小说之母,在英国文坛上享有盛誉。作品中的创造物,是弗兰肯斯坦运
冷冻闭壳肌是扇贝主要的加工产品,但冷冻加工导致了闭壳肌保水性下降,解冻后产品品质降低。因此,为提高闭壳肌冻藏期间保水性,改善产品品质,本试验以海湾扇贝闭壳肌为原料,通过单因