【摘 要】
:
在信息爆炸的今天,搜索引擎已经成为了一种从大量的数据信息中发现、推理知识的有效工具。但是,传统的搜索引擎系统存在着对于不同用户的同样查询会返回相同结果的弊端,而且用户
论文部分内容阅读
在信息爆炸的今天,搜索引擎已经成为了一种从大量的数据信息中发现、推理知识的有效工具。但是,传统的搜索引擎系统存在着对于不同用户的同样查询会返回相同结果的弊端,而且用户也越来越迫切地希望系统能返回更高准确率的结果。所以,本文将自动文摘和用户反馈技术引入到传统的搜索引擎系统中,以此提高系统的精确率。本文通过分析传统搜索引擎MG(Managing Gigabytes)系统模型,研究并设计了一个相对完整的个性化搜索引擎系统。根据需求分析,本文把系统分为了文档处理模块、聚类模块、用户查询处理模块、用户分类模块、系统反馈模块、相似度计算模块、排序模块、结果显示模块以及系统评估模块。系统首先对用户进行聚类分析,提取用户的兴趣模型;然后根据用户反馈信息,在计算查询向量与文档向量的相似度时,调整个性化参数,使查询结果更加精确。同时还对文档的特征项约简算法进行了改进,首先对文档进行自动文摘处理,其次分析文档摘要提取特征项集,然后对特征项按照对文档类别的贡献度进行排序,最后在保证精确率的前提下以牺牲完备性来换取特征项的快速收敛。系统还结合了最小完美哈希函数与大内存存储技术,降低了倒排文档字典的存储空间并且提升了倒排文档索引的读取速度。最后通过建立最小堆数据结构对海量文档的排序进行了空间上的优化。通过理论分析和实验论证,相比MG搜索引擎系统而言,特征项约简算法改进后,时间效率有了一定地提高;倒排文档索引字典的存储空间节省了将近一半;文档排序算法改进后,降低了排序的空间复杂度;相似度计算算法改进后,对于个人的兴趣而言,使查询的个性化精确率有了一定地提升。
其他文献
在大规模的企业应用中,通常的应用都是运行于异构的硬件平台、操作系统和网络协议上的。如果分布式应用系统之间通过原始的点对点访问方式进行数据交换,无疑将极大地增加开发
近年来,随着数据采集技术的发展,在各种领域如计算机视觉、模式识别、生物信息以及医学图像处理等都要面临处理高维数据的难题。数据并不是维数越高越好,因为高维数据往往会
近些年来,无线传感器网络成为通信领域研究的一个热点,它是一种新型的数据监控网络。对于无线传感器网络来说,路由协议的研究有利于提高该网络的路由性能。传统的路由协议中,
体可视化技术是可视化研究中的关键技术之一,在计算流体力学地球空间医疗科学等各个领域中得到了广泛应用,体数据是由一些体素(Voxel)组成的集合,由于是高维数据,往往具有很大的数
随着Web服务数量的与日俱增,网络上发布的服务大多数都存在结构简单功能单一的缺陷,而用户对于业务的需求是动态的,所以如何根据用户的需求对Web服务进行选择,有效地组合分布
随着计算机技术个网络技术的发展,实时性多媒体系统如视频监控,远程会议等逐步被应用到社会的各个领域。与传统多媒体系统的存储传输播放模式不同,实时性多媒体系统除了具有
随着计算机、信息化的发展,人机交互在办公以及生活中显得越来越重要,自然用户界面已经成为人机交互发展的趋势,目前研究比较热门的有用语言、动作及表情等与计算机进行交互
软件演化是软件的本质特征,同时随着信息化建设地飞速发展及人们对软件系统需求的不断增加,软件系统的功能需要不断地完善,新的需求可能会出现,旧的需求也有可能不再需要。然而,软
给定一个点对距离的子集,可能还有部分点(锚点)的绝对位置,是否能在给定的维数空间内精确估计所有未知点位置,这个问题称为欧式距离几何,或者图实现问题,涉及解一个非严格凸的最优
无线传感器网络是一种分布式传感网络,是由大量固定或移动的无线传感器节点以自组织和多跳传输的方式组成。传感器节点采集的监测数据,可以通过逐跳的方式在多个节点之间进行