论文部分内容阅读
随着Internet的快速发展,网上信息资源越来越丰富,网络已经成为人们获得信息的必要途径和重要手段。搜索引擎是目前人们检索网络信息的主要工具,它在给人们带来很大便利的同时,也日益暴露出许多弊端:关键词匹配的方式检索准确率不高,返回的相关文档过多且重复率高。人们期盼着新的、具有智能性的、结果表示形式更为简洁的新一代搜索引擎的出现。在这种需求推动下,本文致力于基于Ontology领域知识指导的信息检索系统的研究和开发,该系统基于特定领域Ontology中概念、实体以及它们之间的关系等信息,回答用户用自然语言提出的问题,帮助人们快速而有效地找到所需的特定领域的信息。
本文结合教育部“数字博物馆”项目,通过对中医药领域知识的考察,以及对Web相关论坛上的求医问药问题的统计分析,进行面向中医药领域的信息检索系统的研究和开发,对其中的一些关键技术进行研究,提出解决思路,并在原型系统上进行了实验。本文的主要工作如下:
1)中医药领域知识库的组织和建立
求医问药的信息检索有其特殊性,检索系统根据用户的问题,在大量的资料中寻找问题所需的答案,势必需要借助一定的领域知识作为推理和判断的基础。如何组织和建立领域知识库是本文的关键,它决定着知识使用的效果和效率。针对中医药领域知识的特点,本文采用Ontology的思想进行领域知识的组建,包括领域词典的建立,以及Ontology中概念、属性、关系等的建立。
2)查询请求处理技术的研究
本文在Ontology指导下来处理用户提交的查询请求,更为准确地分析自然语言形式问题中的词法等信息,识别出问题的类别,得到一些关键词,并进行扩展,然后将问题类别和带权值的关键词序列提交给系统的后继处理模块。而这些问题类别也是与Ontology中的概念及概念中的属性相对应的,关键词也会根据Ontology中领域词汇的关系进行扩展,并赋予不同的权值。
3)相关反馈技术的研究
本文的相关反馈是建立在Ontology的基础上支持多兴趣主题的反馈处理技术。论文基于Ontology,采用显式反馈的办法来得到用户的兴趣,然后将用户的兴趣信息参照Ontology中信息实体的形式来存放,用来指导用户查询请求处理结果的调整,包括关键词的扩展和调整。考虑到求医问药的特殊性,该技术支持用户兴趣漂移,但并不立即删去用户旧的兴趣,可同时保留若干个用户兴趣主题,使之既能够反映用户长期的兴趣,又能体现用户当前短期的兴趣,具有很好的适应性。
4)原型系统的设计与实现
结合本文的工作,我们设计和开发了面向中医药领域的基于Ontology的信息检索原型系统,本文提出的中医药领域Ontology的领域知识库、基于Ontology的查询请求分析处理以及基于Ontology面向多主题的相关反馈处理技术在原型系统中得到了较好的验证。