论文部分内容阅读
随着网络的普及,在线文献系统也随之发展,出现了如DBLP、微软学术等以作者为核心的文献集成系统,而同名作者识别是该类系统亟待解决的问题。本文将作者识别分为作者重名消歧与实体链接两个子问题:对于作者重名问题本文尝试了基于聚类的消歧方法和基于特征关系图的消歧识别方法;在解决文献与教师链接问题时,针对中英文文献采用了不同的实体链接方法。具体研究内容包括以下几个方面:第一:文献测试数据集的构建与特征选择方法。本文首先给出了文献记录的获取方法,测试数据集的构建策略及消歧实验的通用评价方法。其次根据文献中不同信息特征对于消歧的作用强弱,给出了文献识别问题中的特征选择方法,并设计了统一的特征消歧能力测试算法。测试结果表明合作者、期刊与关键词特征具有最好的区分作用,摘要和标题虽然有一定的消歧能力,但有较大的误差。了解特征属性,对改进消歧算法和提高作者识别的准确度均有很好的指导意义。第二:基于聚类算法的作者消歧方法。一般重名消歧问题的研究思路都是将消歧问题转化为聚类问题,本文尝试了层次、k-means、AP三种不同的聚类消歧方法,在分析了各个方法优缺点的基础上,根据文献的各属性特征在聚类中起的作用不同,提出了分步聚类消歧方法。实验结果表明分步聚类方法比普通聚类方法更有效,使得消歧的准确率达到90%,召回率也接近75%。第三:基于特征关系图的消歧方法。本文在文献作者消歧问题中引入了特征关系图的概念,将消歧问题转化成图的划分问题,给出了两种分别采用基于图的层次聚类消歧方法和基于连通子图划分的消歧方法。结果显示,特征关系图的消歧方法明显优于传统基于聚类的方法,其中基于连通子图划分的方法取得了最好的效果,消歧结果的召回率提高到84%,平均准确率达到了94.5%。第四:实体链接与Tnet系统实现。实体链接主要解决文献中的作者与教师实体库的教师链接问题,针对中英文文献采用了不同的实体链接方法,最后将作者识别问题的研究成果应用到Tnet系统的文献展示模块。