基于结构和主题的Web信息检索研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:liner1018
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet技术的突飞猛进,Web信息量爆炸性增长,人们越来越习惯使用搜索引擎查找所关心的信息了。但浩瀚的信息资源却给搜索引擎的发展提出了新的挑战。如何有效、快捷、准确地将查询结果返回给用户,提高Web信息检索效果,已变成一项迫切而有意义的研究课题和热点。本文主要是围绕HTML和XML两种文档的结构特征和主题内容两方面的因素考虑,对当前的Web信息检索技术进行研究,包括技术较为成熟的HTML文档检索与刚刚起步的XML文档检索。首先,本文对Web信息检索进行了概述,并简单介绍了搜索引擎的工作原理、检索模型、研究热点、组成结构、分类及评价标准。在HTML文档检索研究中,由于当前检索方法的精度不高,本文利用网页间链接关系和锚文本,综合考虑文档结构和内容,对现有网页排序算法进行合理改进。实验结果表明,该算法可以在一定程度上提高文档检索的准确率和召回率。其次,检索结果以列表形式返回给用户,给用户的浏览造成很大困难。为了方便用户浏览和节省查阅时间,本文使用一种基于链接扩展的方法实现检索结果的自动分类,使其以类别目录方式加以显示。实验结果表明,该方法可在一定程度上提高网页自动分类精度,并在SEWM2007中文网页分类中获得较好结果。此外,本文还在传统HTML检索理论的基础上,对XML文档检索进行研究,根据XML文档结构特征,提出了一种基于融合策略和主题分类的XML检索再次排序的改进方法。实验结果证明,该方法能够提高检索系统的综合评价指标,并在INEX2007任务评测中获得较好结果。Web信息检索不仅具有较高的研究价值,也有广阔的应用前景。本文针对当前Web信息检索技术做了进一步的研究与探讨,并解决了一些现存的问题,但后期还需要完善与深入研究。
其他文献
随着无线局域网得到越来越广泛的应用,研究无线宽带接入互联网的基础理论与关键技术具有重大的科学和经济意义,提供高性能的无线互联网传输层协议是实现无线宽带接入互联网要
随着计算机技术、网络技术、图像处理技术与计算机视觉的飞速发展,智能化视频监控系统使计算机能够代替人对视频监控的信息进行采集,处理和决策。本文主要研究的是如何对高速公
从20世纪90年代中期开始,有关神经网络集成的理论研究受到了极大的关注和重视,大量研究者涌入该领域,理论和应用成果层出不穷,使得神经网络集成成为目前国际机器学习和神经计算界
随着信息技术的发展和网络应用的日益普及,各级机关单位纷纷开展电子政务信息系统建设以提高办公效率和信息资源共享利用率。目前,电子政务信息系统大多是以Web方式在互联网
计算机视觉是目前兴起的一门具有发展潜力的研究学科,它是视觉测量技术的理论基础,具有模拟生物视觉系统的功能,同时,它的功能超越生物视觉,可以获取物体空间信息。双目视觉
无线通信技术和因特网技术的飞速发展与渐趋融合,使移动商务得到蓬勃发展。利用移动商务,人们能突破时空限制,随时随地获取关键信息。在面向个人应用的同时,移动商务也逐渐向
在研究中间件、中间件的通信机制、消息中间件技术、XML和JMS规范的基础上,主要研究符合JMS规范的消息中间件的设计和实现方法,并使用XML作为消息的传输格式。给出了消息中间
海水的绘制一直是计算机图形学中的热点研究问题之一。在3D游戏、电影、虚拟现实、飞行模拟、地理信息系统等许多领域,都需要绘制有不同程度的真实感的水面场景,并且大多数的
随着多媒体技术的迅速发展和因特网的快速普及,数字图像呈爆炸式增长,如何有效地检索、分类、挖掘、利用这些数据成为当今研究的重点,特别是云的出现对从大量图片快速检索带
随着互联网的飞速发展,人们享受着丰富的网络资源,但能够满足用户个性化需求的网络服务非常匮乏。于是,产生了庞大的数字化网络信息与有限的获取所需信息能力的尖锐矛盾,并且随着