论文部分内容阅读
Internet上不断增长的海量信息,给化学工作者从中准确检索到所需的专业信息带来了困难。本论文以建立Internet化学化工专业搜索引擎为目标,在自动收集和索引Internet化学化工资源的基础上,研究化学化工信息的智能检索和排序策略,为化学化工相关的用户提供方便有效的网络检索服务。
本文首先介绍Internet化学化工搜索引擎的总体设计和规划,并对其中主要模块的功能和实现思路进行了概述。
为了准确快速地从搜索引擎索引的大量网页中检索到与用户查询相关的网页,本文采用基于倒排索引的检索方式,同时使用PageRank技术对网页之间的超链接结构进行分析,将得到的网页查询相关度与链接重要性相结合,为用户提供较好的检索结果排序,实现Internet化学化工搜索引擎的各种基本检索功能。
本文使用自动文本分类技术,基于一个化学学科分类体系,通过对搜索引擎索引的网页进行自动分类,对检索结果进行过滤,将属于用户兴趣类别的网页返回给用户,实现专业化的检索。本文提出了一种适用于化学化工搜索引擎的基于专业词典的多语言自动分类方法,通过对网页的编码方式进行自动检测和整合,来准确识别和提取网页中的多语言信息,并使用一个专业词典来提取和强化网页中的专业信息,改善网页在向量空间中的语义表达。使用专业数据集对该方法进行的测试结果表明,该方法能够有效提高分类系统的性能。
本文通过建立用户兴趣模型,获取网页的用户兴趣信息,并使之与网页的查询相关度和链接重要性要结合,来优化检索结果的排序,使与用户兴趣最相关的网页优先显示给用户,为不同的用户兴趣提供不同的检索结果排序,力图实现个性化的检索。本文采取用户主动提交和系统自动收集两种方式相结合的策略来收集用户的个性化信息,提高信息收集的准确性和方便性。然后,通过测试和分析不同的建模方式对个性化检索结果的影响,使用最近邻居法来建立用户兴趣模型。
本文通过对Internet化学化工搜索引擎的信息检索和排序策略进行研究,在基于倒排索引的信息检索的基础上,通过对检索结果进行优化排序,使用自动分类技术获取网页的专业类别信息,以及采用个性化技术获取网页的用户兴趣信息,使Internet化学化工搜索引擎可以提供更智能化、专业化和个性化的检索服务,来更好地满足专业用户的信息需求。