基于词重要性的信息检索图模型

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:wecofe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网技术的发展,无处不在的搜索已经成为人类日常生活的重要组成部分。互联网上的信息量在过去十几年中呈现出爆炸式的增长,如何从海量信息资源中找出与用户给定需求(查询)最为相关的信息成为当前搜索引擎面临的主要难题,这就需要搜索引擎提供有效的信息检索模型。因此,找出更加有效的检索模型是信息检索研究工作中一项长期的挑战。在信息检索建模中,确定索引词项在文档中的重要性是一项重要内容。以词袋(bag-of-word)的形式表示文档以建立检索模型的方法中大多基于词项独立性假设,仅使用词项频率(Term Frequency,TF)和词项逆文档频率(Inverse Document Frequency,IDF)的函数来计算词项在文档中的权重,并未考虑词项之间的依赖关系。本文采用基于词项图(Graph-of-word)的文档表示形式以捕获词项间的依赖关系,采用马尔科夫链计算方法度量词项在文档中的重要性,提出了一种新的基于词重要性(Term Importance,TI)的信息检索图模型TI-IDF。本文的主要创新工作包括:(1)新的文档词项图表示形式;通过对文档进行分句,以句子为单位构建每篇文档的词项图(无向有权图)。在文档词项图中,以顶点表示文档中出现的索引词项,任意两个词项之间的无向边表示这两个词项在文档的某一句子中共现,无向边的权重则表示两个词项在该文档中共现的句子个数。(2)词项重要性(TI)度量;根据构建的文档词项图,得到该文档内词项间的共现矩阵,进而计算词项间的概率转移矩阵,并通过采用马尔科夫链计算方法确定词项在文档中的重要性。(3)基于词重要性的信息检索图模型TI-IDF。将词项在文档中的重要性(TI)替代传统基于词袋形式表示文档的检索模型中的词项频率(TF),并结合TF?IDF词项权重计算框架以及已有的TF归一化方法,通过对比实验确定了本文提出的检索图模型TI-IDF的词项权重计算方案。我们在标准数据集上进行了实验,结果表明,与传统的检索模型相比,本文提出的检索图模型TI-IDF具有更好的鲁棒性,它的检索结果均优于BM25模型,且在大多数情况下优于BM25的扩展模型、TW-IDF等模型。
其他文献
企业信息系统在适应变幻莫测的市场需求时必须能够有效的集成已有软硬件及数据资源,由于原有信息集成技术的能力不足逐步显现,使得基于ESB的企业信息集成方法与技术已成为当
Ad hoc网络是一种无中心自组织的无线网络,其不依赖基础设施,因此在军用、民用等很多领域都有广泛的应用。因为Ad hoc网络主要由一些移动便携设备组成,这些设备通常只有有限
人类社会已经步入了一个信息量高速增长的信息化时代。搜索引擎技术使得人们能够更方便的寻找信息。但是,信息的持续增长让传统的搜索引擎也显得难于处理,为了解决海量Web信
随着XML数据的日益增多,XML已经成为了互联网上数据表示和数据交换的标准格式。同时也涌现出大量的XML数据存储方法,比较有代表性的有XML专用数据库存储、面向对象数据库存储
数据挖掘就是从巨量数据信息中获取有意义的知识的过程,目前已经成为一个研究的热点。分类规则挖掘是数据挖掘的一个重要研究领域。在分类规则挖掘中,人们通过对历史或已知数
随着嵌入式设备广泛运用,数字液晶显示电子推拉力计也在市场出现并在教学试验,工业生产领域的精确计量得到大量的应用。基于电子推拉力计的发展现状,通过比较各种产品的优缺
随着数据库与信息技术的深入和发展,时态信息处理已成为许多新一代数据库与信息系统的关键技术。时态数据库将时间作为数据的属性纳入系统的管理范畴,存储和管理多个时间状态的
由于P2P结构上的独特优势,P2P系统近年来得到了快速的发展,以Gnutella,和KaZaA为代表的文件共享系统已成为Internet上增长最迅速的应用。在无结构化P2P文件共享系统中,当用户
随着通信行业的迅速发展,电信企业需要通过信息技术来支持现代化的企业管理与生产,最大限度发挥资源效用,提高企业经济效益。 基于J2EE平台的相关技术,论文分析、设计和构建了
AVS(Audio Video coding Standard)是具备我国自主知识产权的第二代信源编码标准,相比其它国际上的现有视频编码标准,AVS视频标准具有编码效率高,技术方案简洁,专利费用低等