基于实例学习的搜索引擎结果优化系统设计与实现

来源 :南昌大学 | 被引量 : 0次 | 上传用户:dimaie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎是网络信息检索的主要工具,它的出现方便了人们对信息的查询,但现有搜索引擎返回的结果太多,用户很难查找到真正想要的资料。此外,人们通常无法用简单的几个词来描述自己的信息需求。对于一个查询词,搜索引擎往往会返回成千上万的网页,这些结果是动态而简单的,但绝大部分对于某个特定的用户而言都是不相关的。因此,用户必须通过浏览冗长的列表才能找到自己需要的信息。于是,信息检索中出现了“信息过载”和“信息迷失”等问题。如何提高搜索引擎的查准率是其亟待解决的问题,而如何推断用户的查询目的从而实现智能化搜索是未来搜索引擎的发展方向。此外,查询词也往往具有歧义,不同用户具有不同的背景、兴趣以及使用目的。就目前而言,对于特定的关键词查询,无论任何人得到的结果都是一样的。人们越来越希望得到的结果能够符合自己的意愿,目前出现了各种改进的搜索引擎,基于用户个性词典的搜索引擎、基于聚类技术的搜索引擎、面向主题的搜索引擎等等。在一定程度上起到一定的促进作用,究其原理,实际就是基于某种技术对通用搜索引擎搜索结果的处理,其中包括对搜索结果的过滤、聚类、分类等处理。实例学习是机器学习中较为成熟的分支,其基本思想是从某一概念的已给的正例集合和反例集合中归纳产生出描述所有正例并排除所有反例的一般规则,因而也被称作概念获取。本文正是基于对用户行为的跟踪,把其访问网页分为正例和反例,通过相关算法,得到描述用户查询目的规则,从而实现网页的过滤技术,返回与用户查询目的相关的网页,去除无关网页。从而有效的提高搜索引擎的查找精度,为用户提供高质量的、相关度较高的查询结果。本文在分析了通用搜索引擎和个性化搜索引擎的基础上,针对目前搜索引擎中的“信息过载”和“信息迷失”等问题,提出一种对搜索引擎进行改进的策略,该策略基于对用户行为的跟踪,对网页返回目录中的摘要信息进行文本挖掘,推断用户的搜索目的,对中文Web搜索结果进行优化。去除垃圾信息,返回给用户一个比较满意的结果。最后初步实现了一个简单的搜索引擎优化系统SEO,系统经过测试取得良好的运行效果。
其他文献
大数据、云计算以及目前类型众多的网络业务的出现,导致传统电信网络的劣势越来越突出。光交换技术的灵活性以及光传输介质(光纤)的大容量、低损耗等优点使得全光网络相比于传统
数据是当今信息社会宝贵的资源,发现并利用潜藏在那些复杂数据集中的有用知识已成为科学决策的前提。数据挖掘技术通过关联规则、聚类及分类等方法实现从大量的、不完全的、
Web Services是一种崭新的分布式计算模型,它由一系列相关技术和标准组成,如XML、SOAP、WSDL和UDDI等。Web Services具有完全的平台无关性、语言无关性,其主要目标就是要在现
语音通信对实时性和连续性都有较高要求,但现在的网络(IPv4)只提供一种尽力而为(Best-effort)的服务,网络拥塞的发生会导致丢包和延时,从而使得话音质量严重下降,因此为了确
随着经济竞争的不断加剧和市场的不断扩大,如何有效地支持跨部门、跨企业之间的业务过程集成,己成为新一代企业信息系统面临的重大挑战。当前,Web服务的逐步成熟以及业务规则
随着人类基因组计划(Human Genome Project)以及分子生物学、信息科学的发展,不同学科的生物医学数据“爆炸”式增长。如何整合这些数据资源发现其中隐藏的知识一直是系统生
伴随着新一轮信息技术的浪潮,信息技术的方法思想越来越渗透到各行各业中,正在慢慢改变很多的行业。银行业作为一个传统的行业,随着信息技术的不断变革也在不断的发展。目前
汽车行驶安全是交通发展的永恒主题。随着汽车保有量的迅速增加,公路交通事故发生率居高不下,交通安全问题日益突出。汽车纵向避撞预警系统能够及时地向驾驶员提供前方危险警
Web服务的出现是Internet技术发展的一次革命,Web服务技术作为一种新型的面向服务的分布式计算模式,可以方便地实现Internet上跨平台、语言独立、松散耦合的异构应用的交互和集
随着中国汽车市场的高速增长,使得一系列产业得到了迅猛的发展。其中最直接的就是汽车营销业。汽车销售企业掌握的资源总是有限的,要想在竞争中快速制胜,只有充分发挥各种竞争的