论文部分内容阅读
本文旨在探索一种个性化搜索引擎,并将它应用到竞争情报系统。随着互联网的迅猛发展,Web信息已经成为一种非常重要的信息资源,如何从海量的Web信息中有效地获取信息成为一个重要的研究课题。搜索引擎技术就是顺应这种需求,近年来成为研究热点的一种技术。
搜索引擎的关键问题是准确性和性能问题。针对准确性问题,通过抽取目标信息源中权重较高的信息,剔除无效信息,配合有效的分词算法,生成合格的标引,然后通过高效的匹配算法计算出匹配率,能提供较好的精度和召回率。针对性能问题,本文通过合理的系统设计,例如URL的队列管理,多线程技术,基于正则表达式的匹配算法,获得了较好的性能。
本文为了解决搜索引擎中的个性化问题,提出了一种基于在线启发式学习方法的用户兴趣模式挖掘算法,该算法通过捕捉用户的每一次操作,进行自学习,然后进行模式抽取,形成知识,当用户下次使用的时候,从知识库中提取出该用户相关知识,进行模式呈现,从而使用户感觉搜索引擎有了智能。
本文首先介绍了搜索引擎的发展历史及相关概念,当前搜索引擎存在的问题,例如准确性不高,个性化不够。然后详细分析了Web信息查找机理,网络搜索机器人的工作原理和搜索策略,并介绍了机器人搜索算法等搜索引擎相关的关键技术。最后提出了一种个性化搜索引擎的实现方法,并将它应用到竞争情报系统中,并详细的介绍了该个性化搜索引擎的实现。