专家检索研究综述

来源 :科协论坛·下半月 | 被引量 : 0次 | 上传用户:MRMAMING
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:随着知识经济时代的到来,知识对组织的生存和发展具有决定性作用。在组织中掌握一定技能、知识的专家更是活跃在各项科研、生产活动的前沿成为创造新知识的核心资源。而对专家知识的管理能力成为影响组织竞争力的重要因素,因此专家检索问题开始为研究者所重视,特别是从2005年TREC设立专家检索子任务开始,有关专家检索的研究受到了广泛的关注与热捧。从专家检索定义、专家描述、查询主题与专家关系建模三个方面对专家检索的相关研究进行介绍和分析。
  关键词:专家检索 信息检索 专家专长
  中图分类号:TP391 文献标识码:A 文章编号:1007-3973(2013)002-102-03
  1 引言
  进入21世纪,人类社会正在由信息社会迈向知识社会,在这一过程中知识成为决定组织竞争力的关键因素。组织中的知识不仅是指像文档、报告等形式的显性知识,还包括在日常组织活动中产生并存储在组织内专家头脑中的隐形知识。正是这些活跃在科研、生产活动一线,掌握一定知识与创新能力的专家成为了组织运用、创新知识的主要力量。如何发掘并有效管理组织内部的专家,日益为组织的管理者所重视并逐步发展成为一门近年来的热点研究主题。
  与传统信息检索不同,专家检索作为实体检索的一个特例要求返回的是具有与查询主题相关知识的专家列表而不是相关文档。按照TREC对专家检索子任务的定义,专家检索的任务是在给定语料集上查找与给定查询主题相关的知识的专家列表。其中涉及三个要素:查询主题、语料集和专家知识。与前两者不同,专家知识在研究中并不是直接给出而是隐藏在语料中分散的专家证据中需要使用一定的方法才能得到。所以本文将专家检索任务分解为两个子任务:(1)专家知识表示子任务。从语料中识别出与专家有关的专家证据以描述专家掌握知识。(2)专家排序子任务。通过专家知识与查询主题间关联强度的度量,实现专家排序。我们将以此为线索展开对专家检索研究的讨论,组织如下:第二节介绍专家知识表示相关研究方法,第三节介绍专家排序评价相关研究方法,第四节对本文工作进行简要总结。
  2 专家知识表示相关研究方法
  专家知识表示研究的核心问题是确定哪些语料与专家有关及其关联性的评价。早期的研究都是基于传统IR方法,首先检索出与专家有关的文档然后将其做为专家证据以描述专家知识。比如在由Maybury等人构建的ExpertFinder系统中利用查询词与专家在文档上下文中的共现次数作为专家证据。这种方法基于如下假设,凡是文档中被提及的专家都掌握该文档的知识。但该假设在实际中很难满足,比如在现实中除了专家涉及文档中的知识外,专家在文档中被提及的情况还有其它有多种可能,比如在学术论文中某专家可能是作为致谢对象而被提及,或者在邮件中某人可能因为负责管理工作而成为许多邮件抄送对象。因此,并不能简单地认为只要专家被提及那么该专家就一定掌握该文档中的知识。针对这些问题,研究者从不同的角度提出了各自的解决方法,本文将其中主要的几种方法归纳如下。
  2.1 基于窗口的方法
  Fu等人放弃了传统方法中基于文档上下文判断专家与查询共现的方法,采用基于共现窗口的方法来计算专家与查询词亲密度以评价文档与专家间的关系。其基本思想是在文档上下文中,如果专家出现的位置与查询词间距离越短那么两者相关的可能性也越大。这种思想被随后参加TREC会议专家检索任务的团队广泛接受,大多数团队提交的系统在计算共现关系时都是基于这种方法或将其与自身方法相结合。根据Song等人所做的研究表明,在选择窗口大小时,较小的窗口有助于提高专家检索结果的准确率但同时也会降低结果的查询率。之后的研究中Zhu等人采取多中不同窗口尺寸计算专家与查询词的亲密度,并对不同的窗口尺寸指派不同的权重以提高检索结果的性能。同时该方法还常被与其它方法结合使用,比如Guan等人将其与基于文档结构的方法相结合用于评价专家与文档间的关系。
  2.2 基于文档结构的方法
  任何一种类型的文档都有其固定的格式,比如邮件的格式包括:收件人、主题、正文等部分。专家出现是格式中不同的位置,在一定程度上表明了他与该文档的关系。Zhao等人通过分析专家出现在邮件格式中的不同位置,在使用该文档做为专家证据时为不同专家指派不同的权重。Vechtomova等人利用邮件的主题属性,通过忽略主题中的格式前缀如Re、fwd等,将属于同一主题的邮件合并成单个文件,以更准确地推断专家在该主题中所扮演的角色。Yao等人利用邮件中的格式信息,结合上下文中的语义信息推断专家在文档中的角色从而评估专家与文档间联系。
  3 专家排序相关研究方法
  专家排序的基础是对专家知识与查询主题间关联性的评价,如果两者关联性越强说明该候选专家越有可能是查询主题下的专家,其在排序中的位置也越靠前。但在目前的研究中还没有一种通用的评价方法,下面分别介绍几种比较常见的方法。
  3.1 概率语言模型
  3.2 基于图的方法
  该方法是借鉴社会网络分析的思想,通过组织内、外数据分析文档与文档、文档与专家、专家与专家间的关联关系,构建其一个以专家、文档为节点,专家、文档间关联关系为边的图模型。之后利用社会网络分析方法对图中的节点关系进行分析,以确定专家在网络中图中的重要性并对其进行排序。
  这方面的研究中大多是基于Serdyukov等人提出的相关性传递模型,并通过利用HITS或者PageRank算法计算每个候选专家的得分。相关性传递模型的思想是源于查询扩展技术,用户的检索行为通常不会在第一次查询之后结束而是会利用其结果继续进行查询操作,直到获得认为满意的专家。这一查询过程可形象的理解为是查询用户不断在专家与文档间的游走过程,因此该模型也被称为随机游走模型。如McLeanA等人利用图的结构在项目小组成员之间传递专家证据来识别项目中的专家成员。Campbel等人利用邮件的收、发件人属性构建专家间的关联网络,并通过HITS算法来分析专家在网络中的权威性;Amored等人对Campbel等人的方法进行了一些改进,先用HITS算法识别专家社区再进一步在专家社区中识别专家;Jie人等利用学术网络来表现候选专家之间的合著关系,并据此识别出潜在的专家及其个人详细信息。   3.3 投票模型
  Macdonald等人借鉴数据融合技术的思想提出了投票模型,将对专家的排序问题转化为文档对专家的投票问题。首先通过IR方法检索出与查询主题相关文档的有序列表,之后遍历文档列表并将每个文档都视为对专家的一次投票,遍历结束以后按照票数的高低对专家进行排序。
  目前对投票模型的研究工作主要是围绕投票形式和数据融合技术展开。关于投票形式的研究,毕文静等人将其归结以下三种:(1)专家获得的总票数;(2)专家支持文档在给定查询下的得分。(3)专家支持文档在给定查询下的得分排名。关于数据融合技术的研究,比较有影响的是expCombMNZ技术。在遍历支持文档列表时,expCombMNZ技术会计算专家在该支持文档上的得分。在遍历结束以后将每位专家的得分总和乘以他的支持文档数,并以此作为对专家进行排序的依据。
  4 结束语
  本文对当前专家检索领域研究中的相关工作进行了梳理与总结,按照研究问题的不同将其划分为两类,即专家知识表示相关研究和专家排序相关研究,然后在两类研究中又分别选取了其中比较有代表性的研究方法进行了较详细的介绍。从其发展过程来看,2005年至2008年的TREC专家检索任务对专家检索的研究起到了极大的促进作用,如本文中所介绍的很多方法都是源于参与专家检索任务的团队的研究。TREC专家检索任务之后,专家检索的研究表现出两个明显的特点:检索的类型从专家扩展到各种实体;检索数据的来源从仅限于组织内扩展到将组织内、外数据相结合,特别是源于互联中的数据。同时,各种不同的研究方法相互渗透,从实际试验效果来看那些能充分挖掘数据特点,合理利用多种不同方法对其进行分析的研究要优于尽使用单一方法的研究。此外,在多源异构数据的使用与整合、语义分类词表及本体的引入、社会网络对专家专长的影响、专家专长的演化等方面,仍有待于进一步的深入研究。
  参考文献:
  [1] 毕文静,沈华伟,刘悦,等.基于企业环境的专家检索研究[A].第五届全国信息检索学术会议论文集[C],2009.
  [2] D.Song,S.M. Ruger.Integrating multiple windows and document features for expert finding[J].Journal of the American Society for Information Science and Technology,2009.
  [3] Zhu,Jianhan,Huang Xiangji,Song Dawei,Ruger Stefan.Integrating multiple document features in language models for expert finding[J].Knowledge and Information Systems,2010.
  [4] 徐戈,王厚峰.自然语言处理中主题模型的发展[J].计算机学报,2011(8).
  [5] 赵红斌,陆伟.专家研究领域自动识别研究[J].现代图书情报技术,2010(2).
  [6] 武浩,王美姣,冯佳明,等.专家检索研究进展[J].计算机应用研究,2010(10).
  [7] Krisztian Balog,Yi Fang,Maarten de Rijke,Pavel Serdyukov,Luo Si.Expertise Retrieval[J].Journal Foundations and Trends in Information Retrieval,2012.
  [8] Macdonal C,Ounis I.Voting for candidates:adapting data fusion techniques for an expert search task[A].ACM Press New York,2006.
其他文献
摘 要:以福建省500kV某变电站为例,对比综自站及非综自站的特点,论述综合自动化系统的优势,并阐述变电站综合自动化系统当前的运行状况及存在的若干问题的建议解决办法,为今后变电站综合自动化系统发展提供实践参考。  关键词:传统变电站 监控 综合自动化 发展 趋势  中图分类号:TM76 文献标识码:A 文章编号:1007-3973(2013)002-075-02  1 引言  变电站综合自动化就是
摘 要:风能作为一种清洁能源,越来越受到各个国家的重视。世界范围内风电装机容量一直在增加。随着装机容量的增加,风力发电对电网的影响也越来越明显。介绍风力发电的并网条件及并网特点,不同风力发电机与电网的并入方式;介绍风电并入电网对电网的影响和我国的电网结构及内蒙古地区电网的大概结构。  关键词:风力发电 并网 风电场  中图分类号:TM614 文献标识码:A 文章编号:1007-3973(2013)
摘 要:无线传输方式是广播电视覆盖的最初手段,也是广播电视公共服务的基本手段,有着广泛的使用范围和广阔的应用前景。简要介绍几种正在使用和即将使用的传输技术和方法。  关键词:广播电视 无线传输 技术  中图分类号:TN934.4 文献标识码:A 文章编号:1007-3973(2013)002-092-02  1 引言  经过数十年的发展,我国的广播电视已形成了由地面无线网络、有线网络和卫星网络构成
摘 要:随着国网公司“三集五大”的实施,变电运行维操管理模式已经成为实现电网集约化管理的重要手段。但随着电网飞速发展,维操站所辖变电站设备日益增多,设备多样化、操作工具不统一的问题日益凸现,给现场操作带来很多不便和安全风险。变电站多功能操作摇把,能满足各种开关手车的操作及各种手摇式闸刀的操作,彻底解决了操作摇把多样化以及操作脱把等问题,提高了操作效率,减轻了操作人员劳动强度,降低了操作风险,规范了
自2007年4月18日我国铁路进行了第六次大提速之后,我国正式进入了高铁时代,铁路行业发展迅猛,越来越多的人们选择铁路作为自己的出行方式,然而,铁路的发展仍然受到诸如铁路运输以及安全隐患、维护等因素的限制。实践证明,将铁路运输信息化可有效的降低铁路在安全及运输等方面的问题。如今,物联网已被初步运用于我国的铁路行业当中,是计算机以及互联网之后最受人们关注的第三波信息化发展浪潮。概述物联网技术及其工作
针对爬壁机器人的特性和功能对其关节位移反馈进行设计,通过对位移传感器进行选型,利用线性霍尔传感器SS495实现对爬壁机器人的关节位移的测量,并对其性能进行测试。通过微控制器MC9S12DG128实现对关节位移数据的采集和处理,从而实现爬壁机器人的关节位移的闭环控制。
目的观察柴芍六君子汤加味联合西药治疗消化性溃疡的临床疗效。方法将132例消化性溃疡患者随机分为治疗组和对照组。治疗组66例给予柴芍六君子汤加味联合雷尼替丁、硫糖铝、
摘 要:介绍在windows系统环境下,为满足转台实时控制,提出实时控制动态链接库的开发需求,介绍实现方法,并结合具体工程实践验证动态链接库的实际效果。  关键词:转台 实时控制 动态链接库  中图分类号:TP273.5 文献标识码:A 文章编号:1007-3973(2013)002-082-02  1 引言  在windows环境下通过自制的PCI并口卡实现转台实时控制,应用程序要实现控制协议,
目的通过30例妊娠期甲状腺肿瘤病的诊疗观察,探讨妊娠期甲状腺肿瘤的诊断、处理方法、处理时机及对母亲和胎儿的影响问题。 Objective To investigate the diagnosis and tr
摘 要:纵观我国展览会的发展趋势,会展业迅速发展,出现了各种不同形式的展览会。就2010年上海世博会意大利馆和武汉各种形式展览会的各类展示道具的设计进行分析,特别是展示道具中的展台设计的特点进行归纳和分析,总结出展览会展示道具(展台)设计要点。  关键词:展览会 展示道具 设计  中图分类号:TU242 文献标识码:A 文章编号:1007-3973(2013)002-119-02  1 展览会发展