论文部分内容阅读
随着Web流行和网上信息爆炸性增长,如何在浩瀚如海的信息空间里,快速查找并获取所需的信息已成为一项极富挑战的工作,搜索引擎成为人们在互联网上最常用的工具,目前独立搜索引擎面临主要的问题有:网络信息覆盖面逐渐降低、检索结果数量巨大、鱼龙混杂筛选困难等等。元搜索引擎集成了多个搜索引擎的查询结果,扩大了网络资源的覆盖率,提高了单次查询的检全率,目前元搜索引擎的技术并不是很成熟,尤其是中文元搜索引擎的使用情况更不理想。立足于中文处理技术,改进检索结果输出方式,将有效提高中文搜索引擎的竞争力。
本体技术将领域知识以概念集及概念间的相互关系用规范化的形式语言进行描述,在智能信息检索、智能信息代理、智能信息分类等方面得到应用。
本文研究的出发点正是看到了本体在定义机器可理解的领域知识方面的作用,把本体应用在元搜索引擎的结果分类中,对查询结果进行基于语义的自动分类,形成层次清晰、逻辑合理的结果反馈界面,使用户能够直观地挑选自己需要的类目。另一方面基于本体对用户的查询请求进行语义分析,规范或扩展查询词表达式,起到提高查全率和查准率的作用。
本文首先概述了搜索引擎和元搜索引擎的工作原理、存在的问题和已有的改进方案,并对现有的几种检索结果的分类组织及呈现方式的效率进行了分析。接着介绍了目前主要的几种文档自动分类技术,对于中文网页自动分类的关键技术,包括网页结构的解析、中文分词、网页特征提取、分类器算法等进行了分析。接着介绍了本体的基本理论,本体在本文提出的中文元搜索引擎查询结果自动分类中的作用。本文所做的创新性工作是:
(1)构建了“药学本体”,包括药学领域核心概念的提取与整理,类、属性、实例的设计方法及本体的形式化编码等过程。
(2)对中文元搜索引擎的用户查询词进行基于本体的扩展和规范,以扩大用户的选词视野和联想提问,激发潜在的检索需求,根据用户需要对查询结果进行领域限定,避免一些无关结果的出现。
(3)设计了基于本体的中文元搜索引擎结果进行自动分类的模型,包括检索请求输入界面、相关检索词提示、检索结果的提取、集成和分词、提取网页特征词、网页类别相关度计算、网页赋类、结果输出以及本体进化等模块。
(4)实现了该模型的原型系统。对于药学领域的检索词进行联机检索,并输出与检索词相关的各个属性的分类页面。在原型系统上进行了相关的实验,可以看出输出结果类目清晰、逻辑合理,屏蔽了非本领域的网页结果,提高了检索结果的输出质量。
最后对本文的工作进行了总结,提出了下一步的研究方向。