论文部分内容阅读
随着信息量的骤增,如何在一个企业或组织范围内有效地管理知识、组织信息,从而提高企业管理者的领导能力和员工的工作效率,成为越来越迫切的需求。这使得企业信息检索获得越来越多的关注。专家搜索是企业信息检索中的一个重要研究课题。对于一个大型的企业组织来说,能够自动地找出组织内部某一领域内的专家是十分有用的,例如咨询相关问题、组建研究小组等等。本文针对当前已有的企业专家检索模型进行研究和改进,提出了一种新型的、基于聚集模型的专家检索系统,旨在解决现有专家检索模型存在的查询准确率偏低的问题。具体地,本文的主要工作主要体现在以下几个方面:第一,本文介绍了目前应用最广泛的企业专家搜索模型:文档模型和候选者模型,并对两者的优缺点进行了系统的比较和详细地分析;第二,本文提出将聚集模型作为企业专家搜索的解决方案。与现有的文档模型和候选者模型不同,聚集模型对候选者进行建模时不再局限于一类能够证明其技能的相关信息,而是通过从企业知识库中识别、提取出多种相关信息,例如,员工的技能简历,与员工相关的所有文档,以及具有相同技能的相似专家等等,从而对员工的知识和技能进行建模。然后,这些候选者与给定检索词之间相关的概率就由员工的聚集模型推出这个检索词的概率决定。在估算概率时,我们采用了信息检索中得到广泛使用的语言模型。第三,在聚集模型的框架下,基于文档模型和候选者模型,提出两种方法分别对这两种模型进行了改进:针对文档模型,提出一种基于加权的文档-候选者联系加以改进;针对候选者模型,提出一种基于滑动窗口和IDF过滤的方法加以改进。然后,这对两种改进的模型开展了相关实验进行评价。最后,本文首次将相似专家(拥有相似技能的候选者)引入了专家检索,通过发掘候选者之间存在的联系,以此来提升专家检索系统的查询准确度。相应地,本文对相似专家的引入对专家检索系统的影响也开展了实验进行分析和评价。本文通过使用TREC提供的数据集和测试平台,对聚集模型的有效性进行了测试与评价。实验结果表明:本文所提出的基于聚集模型的专家检索系统能够有效地对候选者的知识和技能进行建模,从而提供比现有专家检索系统更好的性能。