智能型搜索引擎的研究

来源 :兰州理工大学 | 被引量 : 4次 | 上传用户:yeshen_001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络和计算机技术的迅猛发展,文本、图像、音频、视频等各种形式的信息纷纷在网络上发布,网络信息量正以指数规模增长,人类已步入信息爆炸时代。与如此庞大的网络信息量相比,人脑的存储能力显得非常有限。尽管人们能通过专业的训练来减少信息的遗忘率,但效果不明显。人脑存储能力的有限性与网络信息的无限性的冲突导致了“信息过载”现象的产生。人们被庞大的、无序的、结构类型多样的且规模不断扩大的信息海洋所淹没,很难快速、正确地找到所需的信息。 当前的搜索引擎(SE,searchengine)虽然提供了信息检索服务,但自身存在着种种缺陷,例如信息孤岛问题、主题偏向性问题等。这些问题的存在使得查询结果集合庞大,并且其中很多结果与用户的查询意图大相径庭。因此,如何改进搜索引擎技术,提高查全率和查准率是当前智能信息处理领域的科研人员努力为之奋斗的一个目标。本文的主要工作体现在以下三个方面: 第一,分析当前三类搜索引擎的结构特点和系统缺陷,在此基础上提出一种智能型的搜索引擎框架,该框架结合了独立搜索引擎与元搜索引擎的优点,有效地降低了传统搜索引擎的主题偏向性和信息交互规模; 第二,采用多种方法提高系统的智能化程度。首先,从用户兴趣的静态分布和动态演化上阐明什么是用户的真正兴趣并以层次聚类方法为基础提出了用户兴趣模型的构建和调整算法;其次,分析网页中不同tag对特征项的权值的影响,并从中文文法的角度对自动摘要技术进行扩展;最后,以天网的用户日志统计结果为基础提出了一种独立搜索引擎集合的动态调度策略: 第三,对比分析了三种主流网页排序算法,针对PageRank算法权值分配策略的不合理性提出了A—PageRank算法。该算法是一种改进的PageRank算法,它的最大特点是以锚文本集合作为网页主题的替代物,根据网页间的主题相似性成比例地分配源网页的PageRank值。同时,以Heritrix与Lucene为平台对算法的有效性进行了实验与分析。
其他文献
随着互联网信息的飞速发展,信息的增加在满足人们对信息需求的同时也给人们快速、准确的查找所需要的信息带来了一定的难度。在这种情况下,自动文摘系统成为研究的热点。 在
模式分类算法是数据挖掘研究的一个热点和难点问题,相关算法在许多领域被广泛应用。由于在许多工程实践中,分类精度是评价算法性能的重要指标。所以,高性能的集成方法近年来
学位
随着现代科研管理的发展,计算机信息管理系统越来越受到科研单位的重视,科研信息管理系统是科研管理中不可缺少的一部分。因此改进传统科研管理系统的工作方式,构建灵活、安全、
随着嵌入式技术的发展以及智能控制向着多领域的延伸,越来越多的设备需要高级的实时操作系统的支持。Linux操作系统由于其开源、免费、应用众多、稳定安全等特性而广受青睐。
本文主要介绍了基于.NET的考试系统、管理子系统的需求分析、总体设计和详细的设计过程、并在此基础建立了后台数据库,利用ASP.NET和SQL(Structured QueryLanguage)数据库技
多Agent系统(Multi-Agent System)作为分布式人工智能(Distributed Artificial Intelligence)的重要组成部分,已经迅速成为人工智能研究的活跃领域。如何分解待分配的任务、求解任
现代远程开放教育是随着现代信息技术的发展而产生的一种新型教育理念和形式,与之相随,基于网络环境下的教学交互活动,在今天已经成为广播电视大学远程开放教育教学的重要环节。
当前,网络融合已成为网络发展不可阻挡的趋势。在NGN的框架下,3GPP引入的IMS网络结构及其核心协议SIP为网络融合提供了可行的方案。SIP协议是由IETF提供的应用层信令控制协议,用
学位
随着大数据时代的到来以及互联网的不断发展,以文本资源为典型的各种资源呈爆炸式增长,从纷繁复杂的文本资源中挖掘有潜在价值的、用户感兴趣的信息变得愈加困难。研究人员钻
当前,面向终端用户的软件绝大部分采用图形用户界面(Graphical User Interface,GUI)技术。随着人们对于软件质量的要求越来越高,软件测试在软件开发中的地位变得越来越重要,