基于对象的领域搜索

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:octaaug
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
万维网(World Wide Web)信息的爆炸性增长使Web已经成为世界上最大的信息库。面对这个海量、异构、半结构化的信息库,Web用户经常发现要查找到所需的信息需要耗费大量的精力,甚至难以找到,造成了“信息过载,知识匮乏”的问题。为了解决这个问题,在Web信息检索领域产生了一个新的研究课题,领域搜索引擎。它的基本思想可以概括为:与通用的搜索引擎不同,只对一个特定领域内的网页集合,以方便、有效的检索方式满足用户的信息检索需求。它的理论和技术基础主要包括机器学习、信息检索、概率统计理论和Web新技术。在很多应用领域,例如学术搜索,电子商务搜索,都有很好的应用前景,与现有的Web搜索引擎可以形成良好的互补。 基于对象的领域搜索是微软亚洲研究院在2005年的万维网大会(World Wide Web Conference 2005)上提出的新理念。这一理念融合了数据库和信息检索这两个领域的主要技术,认为当一个搜索引擎只集中于处理一个特定领域的Web页面的话,应该能够提供比基于页面的搜索更好的服务,可以有相对自动化的方法从Web页面中获得这个特定领域所关心的对象,提供对象一级的搜索。 本文将对基于对象的领域搜索引擎的数据仓库型的解决方案进行讨论,对几大核心技术进行分析,包括对象的抽取,对象的集成,对象的搜索,以及领域搜索引擎的聚焦爬虫。同时,本文通过对两个领域的数据集的实验,旅游和学术搜索,来研究一些新技术的可行性,包括对象的识别,对象的搜索,以及领域搜索的聚焦爬虫。 本文的主要创新工作在于以下几方面: 1. 首先,在分析了现有主题爬虫由于缺少增量学习能力而影响系统性能的基础上,本文提出了基于增量学习的主题爬虫系统,使页面分类器和超链接评价器具有增强学习能力,改进了现有的主题爬虫的体系结构,使主题爬虫在爬行过程中能够在线的学习,具有更强的自适应性,快速优化爬行策略; 2. 对象识别是提供高质量的Web对象的基础,因此对象识别的准确率对于基于对象的领域搜索至关重要。现有的方法主要集中在利用对象的属性信息来解决对象识别的问题,本文对一种新的对象识别的方法进行了研究,即利用本地数据集上的实体关系的连通性来解决对象识别。此外,本文还提出了利用无结构化的Web文档集来辅助本地数据集的对象识别,并通过再DBLP的实验中看到了准确率有较大的提高; 3. 基于对象的检索比一般的网页检索提出了更高的检索精度要求,因此有必要提出高质量的Web检索算法。与网页中的一般文本不同,锚文本是一种较为客观的文本,对锚文本相似性的研究与同样的超链接分析算法同样具有较高的研究价值。本文提出了基于源站点质量的锚文本文本相似性算法,惩罚了劣质站点的锚文本在检索中的作用,解决了各站点锚文本层次不齐的状况。
其他文献
非线性时间序列预测是近年发展起来的一个备受关注的研究领域,无论在数学、物理学、生命科学、信息科学,还是在经济学、地球科学、天文学等领域均具有广泛的应用前景。对非线性
本文对电信业务支撑系统中产品模型的研究与设计进行了研究。文章结合相关的理论和规范,定义了电信产品的概念,确定了电信产品的范围、属性和分类。然后通过分析、梳理与电信产
随着计算机技术的飞速发展和社会公共安全需要的日益增长,身份识别受到极大的重视,作为典型的生物特征识别的人脸识别也逐渐成为研究热点之一。尽管线性子空间方法在人脸识别中
综合网络管理决策支持系统(INMDSS)是先进的网络管理决策支持系统,主要为网络管理者提供信息服务和辅助决策支持。本学位论文在分析综合网络管理决策支持系统框架的基础上,结合
人类基因组计划(HGP)的完成,极大地丰富了人类遗传相关的生物数据,使得研究人员开始热衷于基于大规模的基因及蛋白质等数据的系统生物学研究。利用生物信息学方法分析海量的生
随着IP网络向集成语音和视频等多媒体业务的下一代综合业务网络(NGN)发展,网络服务质量(QoS)问题成为了网络研究的重要课题。本文在操作系统领域对如何支持实时多媒体业务的
在无线电设备检测工作中需要对移动台进行测试,在一些情况下需要对大量的数据进行处理,然后作出相关的结论。显然,快速、简洁的处理数据是必要的且需要去不断改进和提高的。
随着因特网的发展和后PC时代的到来,嵌入式系统已经成为计算机技术的一个重要组成部分,日益增长的应用也使得它成为计算机信息技术的一个新的研究热点,呈现出巨大的市场需求
锅炉燃烧控制系统具有强耦合、多干扰、典型非线性的特点,长沙曙光电子管厂采用PID(比例、积分、微分)控制系统对其20T/h锅炉进行自动控制,实际效果很不理想。本文对此提出了一
战术互联网是数字化战场的战术通信网络,自二十世纪90年代以来受到世界各国的高度重视。战术互联网路由协议是支撑战术互联网的关键技术之一,在实现数字化战场机动指挥控制和无