基于LDA模型的文档排序方法研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:e5134
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
21世纪以来,互联网技术日新月异,蓬勃发展,网络信息丰富多彩,人们在互联网上准确的查找所需信息显得越来越重要,检索系统需要快速准确的将相关度最高的文档返回到结果列表前列,但是目前的文本排序方法更多的是通过词频、逆文档频率等指标从词的角度进行相关度排序,这样就忽略了文档的内在结构和潜在信息。潜在的狄利克雷分布模型是一种完全生成式的主题模型,利用该模型对文档集进行建模能降低文档维度,从主题的角度挖掘文档信息。本文首先分析了近年来通用的信息检索模型,比较各个模型计算查询词和文档的相关度的方法,并着重研究了概率主题模型的数学思想,通过对其参数设置的分析,比较各个主题模型的应用区别,同时分析了当前中文信息处理领域经典的语义相关度计算方法。本文提出了一种基于LDA模型的文档排序方法,该方法利用“文档—主题”概率分布矩阵和“主题—词项"概率分布矩阵获取词项对文档的表征能力,从主题角度研究信息检索技术,解决了影响文本检索效果的数据稀疏和词语歧义性等问题,有效提高文本检索的准确性。本文提出了一种基于双重扩展的文档排序方法,该方法首先将查询词在语义指纹库中映射得到扩展词,再利用LDA模型对查询词和扩展词的网络百科信息进行建模得到主题下的相关词集合,最后对查询词和扩展词的相关词集合进行线性加权计算得到语义相关度。该方法解决了对单一关键词扩展容易出现的信息不足问题。最后将扩展词群的语义相关度作为查询权重,应用于扩展检索实验中,验证方法的有效性。通过在NTCIR5语料上进行实验,利用TREC评测工具得到准确率和召回率的指标,实验结果表明基于双重扩展的文档排序方法ELDA获得了更高的MAP和P@N指标,证明了本文通过LDA模型挖掘内部文档信息,同时引入语义指纹知识获取语义相关度的方法的合理性和有效性。
其他文献
随着软件开发技术的成熟与应用的普及,软件质量的保证面临新的挑战,同时也彰显了软件测试的重要性。近年来,面向对象的技术的发展,使基于UML的软件测试已成为一个重要的研究课题
随着当今信息科学技术的发展,对于信息安全的保障也有了更加迫切的需求。当前通常用于信息安全保障方法主要有,入侵检测,防火墙以及其他的信息安全技术。保障网络安全的其中一种
复句关系词自动标识系统主要完成对复句的处理,标识复句中隐藏的关系词、关系词搭配以及语义。早期研究汉语复句的专家学者都是依靠自己的学识和思维,讨论并总结复句中隐藏的
近年来,随着基于位置的服务(LBS)和移动互联网的快速发展,地理空间数据的数据量正在迅猛的增长。这些迅速增加的空间数据给传统的空间数据索引机制带来了新的问题,而这些传统
在我们的生活中,胶囊是不可缺少的一部分,它们的质量是否合格关系到我们的身体健康和生命安全,所以对胶囊的缺陷检测问题就显得特别重要。本文检测胶囊的外形和表面缺陷,外形缺陷
任务调度是云计算的关键技术,在网络带宽有限的情况下,为减少任务执行过程中的网络传输开销,可将任务调度到输入数据所在的计算节点上,面向数据本地性的任务调度算法就成为云计算
随着软件开发技术的日新月异的发展,软件产品也暴露出越来越多的质量问题,所以对软件质量进行评价更显得重要。本文研究了软件质量、软件质量度量模型、综合评价方法和软件质量
物联网被称为继计算机、互联网之后,世界信息产业的第三次浪潮。它的定义是通过射频识别(RFID)、红外感应器、全球定位系统(GPS)、激光扫描器等信息传感设备,按约定的协议,把任何物
随着“互联网+”理念的涌现,带来的是各行业的互联网化与现实世界的数据化,使得数据的种类和规模正在以前所未有的速度不断增长和累积,并以其蕴含的丰富价值对社会生产产生巨大
彩色数码提花技术依托计算机图像处理相关算法,来解决彩色图像输入自动生成提花纹版文件的问题。其主要技术难点在于如何实现全自动选色配色过程,并且随着纹针数的增大,提高色彩