论文部分内容阅读
随着企业信息化的不断发展,专家检索任务日益受到信息检索研究组织的重视。Feldman和Sherman等人的调查报告中特别强调了在企业中信息获取的重要性。因此,员工能够有效的获取到重要的信息便成为了企业提高竞争力的关键。传统的搜索引擎已难以满足此类企业用户的专业需求,继而文本检索会议提出了专家检索任务,该任务完全不同于传统的信息检索任务,检索目标不再是文档列表而是一个专家列表。所谓的专家列表是指一个有序候选人名单,排序的依据是候选专家对查询主题相关专业技能的掌握程度。本文通过分析对比现有的专家检索方法,采用选举模型(Voting Model)作为基本模型进行改进。基本选举模型中,将专家的检索问题视为一个选举问题。每个候选专家建立一个描述文档集,通过查询Q得到相关文档集R(Q),在R(Q)中的每篇文档作为对该文档描述的候选专家的一次投票。本文在此基础上,将专家对文档的贡献度进行定量分析,将其作为文档证据对专家的投票的可信度。专家对文档的贡献度的度量基于专家在文档中出现的特征信息的形式,频率,以及文档的质量等因素。本文对专家的排名不仅依靠专家自身的描述文档对其的投票评估其与查询领域的专业相关性,还结合了与其关联的其他候选专家的专业水平。如果在候选者的社会关系网中存在查询主题领域的专家,那么该候选者也可能是该领域的专家。并且,在与其关联的候选者中存在的专家越多,越权威,则该候选专家就越可能是该领域的专家。在社会关系网中,两候选者的关系可以体现在两者在文档中的共现或者两者的描述文档之间的链接引用关系。实验表明,本文提出的改进选举模型(Dev-Voting Model),较原选举模型(Voting Model)在查准率上有显著的提高,引入专家排名算法Expert Rank后,改进效果更加明显,从而说明本文提出的改进模型和排名算法在专家检索中是合理且有效的。