专业搜索引擎中信息过滤的研究与实现

来源 :北京化工大学 | 被引量 : 5次 | 上传用户:a24287490
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的日益普及和Internet信息资源库的广泛使用,越来越多的人们把网络信息检索作为日常获取信息的重要手段。为了更准确、更有效地查找到自己所需的特定的网络信息,建立专门针对网上某一类型或某一专业信息的检索工具——专业化的搜索引擎,已经成为网络信息检索的迫切需要。 目前搜索引擎查询结果成千上万,但不能很好的反映用户的需求,存在信息过载问题。如果搜索引擎能按照网页的价值和用户提交问题的相关度对检索结果进行排序,那么对于减轻用户负担、提高检索效率无疑会产生极大的作用。因此信息过滤模块(包含网页排序)已成为搜索引擎的核心组成部分。 本论文在对经典信息过滤算法进行研究分析的基础上,结合网页重要性和内容相关性,给出了专题搜索引擎中的信息过滤模块的设计思路和实施策略,并在专业词汇、查询扩展和用户反馈等方面对算法进行了改进和拓展。最后给出了系统的实施方案,并对将来的工作做了展望。 论文作者设计出来的信息过滤模块正在实施中,已经与其他模块组成了专业搜索引擎,效果良好。
其他文献
分布式一致性是指n个处理器组成的分布式系统,其中最多有m个处理器发生故障,要求所有的无故障处理器都能做出相同的决定,并且决定值必须是合理的。区域故障模型是多个局域网中处
互联网的发展为全球范围内实现高效的资源和信息共享提供了方便,同时也对网络安全防护提出了新的挑战。网络入侵检测技术作为一种积极主动的安全防护技术正成为目前网络安全领
不断发生的瓦斯灾害事故带来的是巨大的生命和财产损失,为了让悲剧能够谢幕,我国也在不断地利用计算机等新兴高科技技术来推动瓦斯抽采监测系统的发展。要提高煤矿瓦斯抽采效
基因组重组问题是计算生物学中的常见问题,基因组重组算法对分子生物学中生物进化的研究具有重要意义。早在六十年前,Dobzhansky和Sturtevant发表了一篇重要论文,证明了两种不同
聚类是数据挖掘的重要分支之一,引入模糊理论的模糊聚类分析为现实数据集提供了模糊处理能力,在许多领域被广泛应用。本文在对基于划分的模糊聚类算法中模糊C均值聚类算法及
随着互联网新技术的发展,网络服务和信息交换等应用大规模出现。由于网络数据的异种性和异构性,就急需一套统一的数据表式和数据交换的标准。可扩展标记语言(XML)及时解决了
随着基因组学的不断发展,DNA微阵列技术为生命科学提供新的解决问题的思路与方法。基因表达数据是一般为矩阵形式,分析的是基因发生的改变,基因间的互相关系以及基因活动产生
随着商业银行的飞速发展,身份认证作为信息安全的第一道保障越来越重要,一个最主要的问题就是多个系统身份认证机制的集成化。目前,商业银行各种业务系统相互独立的身份认证存在
随着软件系统需求的不断增长,软件界的问题也越来越多。导致项目失败或者延期、超出预算或品质低劣的问题,被业内人士称之为“软件危机”。在软件项目开发过程中,风险是时时
语音识别技术在实验室条件下逐渐发展和成熟,但在噪声环境下的语音识别问题仍然是语音识别技术完全从实验室走入人们的日常生活的一大障碍。因此,作为人们交流时的一个重要的