语义度量在文本信息检索的研究

来源 :大连海事大学 | 被引量 : 1次 | 上传用户:lvyuxuan3652009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息检索是随着科学技术的发展和信息量的激增而产生的技术,并在人们的工作和生活当中发挥着越来越重要的作用。人们在平时经常用到的信息大部分都是用文本形式来表示的,所以经常用到的查询就是文本形式的信息检索,即文本信息检索。人们在面对大量信息的时候,如何从这些大量的信息中检索出满足用户查询条件的信息是非常重要的。对文本信息进行查询时,首先要使用合适的数据模型对文本信息进行抽象,本文采用向量空间模型(Vector Space Model),对文本信息进行特征向量的提取,这样在对文本进行相似度匹配的时候,就可以选用文本特征向量对相似度进行比较。在对文本特征向量进行相识度比较的时候,本论文采用了基于语义度量的方法—扩散映射(Diffusion Maps),该方法在对文本特征向量进行处理的时候,可以把高维的数据通过扩散映射降为低维数据,在扩散的过程中,扩散距离可以保持数据语义之间的不变性。对经过扩散映射处理过的数据,本论文定义了一个二值法,如果向量的第p位的值大于或等于所有向量的第p位的平均值则其值为+1,小于向量平均值的为-1,这样文本就用一串低维数的二值向量来表示。对文本进行检索时,对那些要查询的文档,根据刚才得到的二值向量,训练出来分类器,然后用分类器对要查询的文档进行分类,就可以对查询文档用二值向量来表示,就可以加快文件的检索速率。本论文使用Reuters21578,20Newsgroups, TDT2,作为测试数据集合,对我们提出的基于语义度量的文本检索的方法扩散映射—支持向量机(Diffusion Map-Supported Vector Machine, DM-SVM)进行了验证,实验证明该方法具有很高的检索效率。
其他文献
随着时间的推移,数据呈爆炸式的增长,要想从这些复杂、海量的数据中发现潜在有用的信息,是一件极为困难的任务,同时也给时间序列数据挖掘带来了巨大的挑战。数据集中的某些数据,它
专家在我国科技项目评审立项工作中发挥着重要作用。但是专家多由人为确定或随机选取产生,往往导致专家与所评项目内容不匹配的现象。近年来,我国各级科技项目管理陆续实现了信
智能交通系统是现代交通管理的发展趋势,车辆检测技术是智能交通系统的关键技术之一,通过车辆检测技术获取准确的交通流量、车辆行驶方向和速度等信息,这些交通参数是实施交通信
通过各级政府的共同努力,江苏省技术转移工作取得了快速的发展.本文基于巴斯德象限模型对江苏省技术转移进行思考,通过对技术市场数据分析,找出存在的问题,并提出相关的意见
阐明了工科院校化工工程类工程硕士专业理论课程教学体系改革的必要性,探讨了工学硕士专业理论课程教学体系改革的内容和基本思路,进一步探讨了培养工程硕士在工程实践与专业
近几年,我国系统行业取得较快发展,工程建设越来越多,系统工程的快速发展对现场施工技术与管理提出了严格要求.系统工程是一个连续性的建设过程,系统设计、施工管理以及项目
目前直接甲醇燃料电池的催化剂主要以贵金属Pt和PtRu为主,纯Pt催化剂中存在明显的CO中毒问题,而Ru的引入则能显著降低CO的中毒性能.本文针对PtRu催化剂的结构、形貌和掺杂问
随着大型机场业务量的迅速增长,机场资源的瓶颈也日益突出,给机场业务量及运行效率的提升造成了严重的制约.如何发挥资源的最大效能,提升机场的运行效率,是机场面临的一个重
按照《国务院办公厅关于压缩不动产登记办理时间的通知》(国办发[2019]8号)和《自然资源部办公厅关于印发的函》(自然资办函[2019] 807号)精神,成都市作为全国不动产登记电子
期刊
近些年来,作为涉及计算机图形学、多媒体和人机接口等技术的新兴技术,针对虚拟现实的研究与应用发展十分迅速。它已经广泛应用于教育、娱乐、建筑设计等多个领域。伴随着生活水