智能化搜索引擎技术的研究及其在CIS中的应用

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:luoye83
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文旨在探索一种个性化搜索引擎,并将它应用到竞争情报系统。随着互联网的迅猛发展,Web信息已经成为一种非常重要的信息资源,如何从海量的Web信息中有效地获取信息成为一个重要的研究课题。搜索引擎技术就是顺应这种需求,近年来成为研究热点的一种技术。 搜索引擎的关键问题是准确性和性能问题。针对准确性问题,通过抽取目标信息源中权重较高的信息,剔除无效信息,配合有效的分词算法,生成合格的标引,然后通过高效的匹配算法计算出匹配率,能提供较好的精度和召回率。针对性能问题,本文通过合理的系统设计,例如URL的队列管理,多线程技术,基于正则表达式的匹配算法,获得了较好的性能。 本文为了解决搜索引擎中的个性化问题,提出了一种基于在线启发式学习方法的用户兴趣模式挖掘算法,该算法通过捕捉用户的每一次操作,进行自学习,然后进行模式抽取,形成知识,当用户下次使用的时候,从知识库中提取出该用户相关知识,进行模式呈现,从而使用户感觉搜索引擎有了智能。 本文首先介绍了搜索引擎的发展历史及相关概念,当前搜索引擎存在的问题,例如准确性不高,个性化不够。然后详细分析了Web信息查找机理,网络搜索机器人的工作原理和搜索策略,并介绍了机器人搜索算法等搜索引擎相关的关键技术。最后提出了一种个性化搜索引擎的实现方法,并将它应用到竞争情报系统中,并详细的介绍了该个性化搜索引擎的实现。
其他文献
信贷管理具有相当的复杂性,原因一方面是由于系统所需要的数据来自不同行业、不同企业、不同的信息管理系统的多源数据,而且数据量大、采集困难、处理复杂.另一方面是由于种种
本文所介绍的剩余量独立性分析方法,基于线性预测模型来描述信号的时序结构,并利用信号的时序结构来指导信号盲分离过程从而得到了新的代价函数。1996年Amari指出盲分离矩阵
基于COBOL2002标准,设计并实现了COBOL2002集成开发环境(COBOL2002IDE)。研究了集成开发环境的软件体系结构,提出了基于C/S模式的系统架构,说明了系统的设计思想与工作流程,
入侵检测系统已经成为当前网络安全领域中的一个新的研究热点,而如何改善入侵检测系统中响应的被动性、滞后性又是基础的核心问题之一。笔者曾参与过某公司关键服务器WWW日志
重构自恢复技术对于保证网络的可靠性、抗毁性与健壮性起着十分重要的作用。目前国内外的科研人员对无中心结构网络进行了大量的研究工作,但是针对空间网络重构自恢复的研究才
在使用硬件描述语言设计数字电路的过程中,模拟是非常重要的一个环节,通过模拟可以实时反馈设计结果,使用户发现设计中存在的问题。但是随着集成电路设计规模和复杂度的不断增长
随着计算机和网络技术的发展,用计算机来进行校园信息管理已是大势所趋,而建立一套能实现在网络上传输和处理校园信息,科学统计和快速查询的校园信息管理系统,就可以减轻信息管理
本文是结合科技部十五重大科技攻关项目:“网络教育关键技术及示范工程”的“非实时教学系统”课题进行的。论文旨在研究Web服务的关键技术,并结合SAML规范和单点登录技术,提出
随着互联网日渐深入人们的生活,各种网络应用的身份认证需求对身份认证方式产生了深远的影响。国内外频发的安全问题,对身份认证精度提出了更高的要求。掌纹识别因为具备易用
随着计算机应用的发展,虚拟试验技术正成为国防领域复杂系统研制、评估及验证的重要趋势。虚拟试验通用支撑框架是虚拟试验技术的核心。目前基于CORBA规范的虚拟试验通用支撑