论文部分内容阅读
随着科研进程的加速,科学家对信息的依赖也比以往任何时候突出。因此,科研信息日益成为具有战略意义的资源,能否有效利用科研信息将成为科研信息化推进的关键因素。与此同时,随着e-Science的深入开展及Web2.0的发展,学术信息变得更加的开放、共享和社会化。学者不仅仅是学术信息的浏览者和使用者,同时还是信息的制造者和传播者。学者和学术信息相互交织在一起,构成了一个庞大的虚拟的学术社会网络,为组织和挖掘学术信息提供了一个新的视角。在学术信息日益丰富的今天,学术社会网络的研究将有助于对学术资源的整合和挖掘,对推动科学研究的进程有重要意义。
学术社会网络是从网络的角度研究学术人物(科研工作者)之间的关系,以及与之关联的信息内容,例如论文、会议等,是一种新兴的、复杂的、融合了多种学科背景的研究课题。如何从Web中发现和构建大规模社会网络,如何运用网络理论分析社会网络中蕴含的社会学现象,如何利用数据挖掘的技术手段对未来的学科趋势和人物之间的互动关联做出预测是学术社会网络研究主要研究的课题。Web资源的异构性和网络结构的复杂性都是在研究和实践中的挑战性问题。
本文将对学术社会网络的构建、建模和挖掘三个方面进行深入研究。本文将对学术社会网络的发展过程进行综述,聚焦于学术社会网络的发现和挖掘过程中的关键技术,特别是面向异构数据源的人物信息深度检索技术、基于Web的学术社会网络构建方法,对科研合作网络的实证研究分析以及基于学术社会网络的合作关系推荐问题。本课题将从学术社会网络挖掘的必要性、可行性、解决方法、创新之处等若干问题进行探讨研究,产生的成果将直接用于学术社会网络系统的构建,提供学术信息检索和推荐服务。论文的主要贡献在于:
提出了面向异构数据源的学术人物信息集成框架。对人物实体信息抽取和同名人物的判别等关键问题做了深入研究。改进了人名、机构名识别方法以及基于人物属性的人物同一性判别算法,提高了人物信息搜集的准确率和召回率。为学术社会网络构建提供必要的数据资源。
提出并实现了一种基于Web的社会网络抽取算法。基于人物种子集的扩展抽取人物关系,克服了传统上需要大规模数据输入的成本较高的缺点。实现了人物关系粗判算法、基于关系关键词发现和语义距离判定的人物关系判别算法。实验表明,所实现的算法比现有的基于支持向量机的人物关系算法在准确率、召回率和精确率等方面均有提高。
提出基于学术社会网络上的合作关系推荐模型和方法。对学术社会网络的一个重要类型项目合作网络进行实证研究,对项目合作中角色的特征,团队形成的情况以及衍化作深入分析,对科研合作的开展情况提供全面的分析。在实证研究基础上提出了学术社会网络上的合作关系推荐模型,从团体、个人影响力等多个侧面分析了影响合作的因素,从合作的实际需求出发,构建推荐模型和策略,提出切实可行的推荐算法,模型与算法并在项目合作网络数据集上实验验证。
基于上述模型和算法开发了学术人物搜索与学术社会网络系统。该系统集成人物识别、人物关系识别和合作关系推荐关键算法库,基于Flex开发了人物关系可视化图谱,提供人物信息检索和人物关联性查询服务,验证了理论研究成果的有效性。