Web信息检索与主题提取的关键技术研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:IceMilo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet及大容量存贮技术的迅速发展,Web上的信息日益丰富。从海量、异构的Web信息源中获取用户所需要的知识是一项很难的事情,同时也是一项亟需解决的问题。Google,Altavista及百度等搜索引擎的出现,为用户在互连网查找信息提供了便利,但是目前搜索引擎返回的文档质量参差不齐,难于满足用户对高质量检索结果的需求。针对目前Web检索结果质量不高的现状,“寻找与用户查询相匹配的高质量文档”也就是“主题提取”成了Web信息检索的研究热点。   本文对目前信息检索的各种关键技术进行了概述:介绍了传统的文档检索模型以及三种经典的链接分析算法,并对评测文档检索性能的各项指标进行了简要介绍。   在现有基于内容匹配的布尔扩展模型——最短片断模型的基础上,提出了一种使用链接语义分析的主题提取算法。通过引入概念层次树及使用概念距离来计算网页间的相似度,改进了HITS算法中扩展集的质量,从源头有效地抑制了链接分析算法的主题漂移现象;通过链接分权以及结合文档的内容语义,消除了垃圾链接并进一步排除了与查询主题无关的页面。最后,通过对文档的页面内容,结构信息,锚文本信息以及链接信息等特征的综合评分,得到最终的返回结果列表。实验表明,这种方法行之有效,能够较大程度地改善主题提取的质量。   最后设计并实现了基于以上算法的Web信息检索系统,并对其中的主要数据结构及索引创建过程进行了介绍。在TREC2003的主题提取任务上的实验表明,性能得到了较大的改善。论文最后对实验结果进行了比较分析。
其他文献
边缘提取对图像处理的其他方面例如图像分割、纹理分析、物体模式识别等有重要的意义。传统常用的边缘提取方法是面向局部信息的,这些方法的主要优点是简单易用,效果直观。但是
随着Internet技术与多媒体技术的飞速发展,多媒体通信逐渐成为人们进行信息交流的重要手段,人们可以通过网络交流各种信息,进行网上贸易等。由于图像信息相比其他信息具有直
随着计算机网络技术的迅猛发展和广泛应用,特别是Internet的快速普及,促进了计算机与互联网科技的不断创新与升级。网络设施和资源对于国家企业和个人的重要性在日益增强,它在不
随着计算机技术,特别是Internet技术的发展,在许多行业、单位或机构部门内部都逐步实现了业务、信息的计算机化管理。但是各个机构、单位或部门内部由于业务和功能归属不同,因此
随着计算机网络在我国的日益普及,基于网络的应用日益丰富,网络管理工作也显得越来越重要。网络管理的内容十分丰富,有故障管理、计费管理、配置管理、性能管理、安全管理5
随着科技的不断发展,互联网中的视频数据呈指数增长,视频数据已经成为人们获取信息的重要来源之一。在需要大量人机交互的领域中获取的人脸信息更为人们所关注,如何通过这些人脸
随着Internet的发展和网络服务商业化进程的加快,Internet的规模和复杂程度都在迅速增长。从管理的角度讲,Internet是由成千上万的自治系统(Autonomous System简称AS)组成,这
实施管理信息系统是企业信息化建设的一个重要措施,然而,传统管理信息系统已经不能满足目前企业的需求。企业的模式在逐渐的由层次职能型转变为流程管理型,企业业务流程经常
集数据采集、处理及通信于一体的无线集成传感器网络以其低廉的价格、便利的展开方式正得到越来越广泛的使用,对传感器网络各个方面的研究也成为目前学术界非常活跃的课题。而
随着Web上信息的迅速扩展,各项基于Web的服务也逐渐繁荣起来。作为这些信息服务的基础和重要组成部分,Web信息采集正应用于搜索引擎、站点结构分析、页面有效性分析、Web图进