融入作者主题相似度的社区发现方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:beefshen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科研人员是构成科学研究队伍的基本单位。而随着计算机技术、互联网以及社交媒体的快速发展,学术领域内科研人员的合作与交流也日益频繁,进而产生了论文引文网络、作者引用网络以及作者合作网络等复杂网络。挖掘学术领域中科研人员的社区结构及主题分布,有助于把握特定领域的发展脉络及学科态势,促进科技创新合作。因此,复杂网络中社区发现方法的相关研究在国际科技创新合作的背景下备受关注。
  早期学术领域的社区发现方法以引用、合作等关系为基础,结合图论、社会网络相关方法描绘出科研人员之间存在的社区结构。随着自然语言处理、文本挖掘等计算机技术的兴起,人们对于社区发现的需求已不满足于仅通过实际的引用、合作等行为去划分社区,而是试图从语义层面深入科研人员的研究内容,进而调整单纯从行为角度构建的物理拓扑结构。但已有的融入语义信息的社区发现方法中通过引文信息反映科研人员研究主题的方式所得到的结果误差较大,导致社区划分结果不够精准。此外,科研人员的研究方向与时俱进,呈现出跨学科交叉的现象,使得同一科研人员可能隶属于多个社区结构。综合上述研究背景,本文基于已有的社区发现方法进行改进,提出了融入作者主题相似度的重叠社区发现方法ATW-COPRA,旨在为基于海量的领域科技文献数据进行社区发现时,提供新视角。
  本研究在分析国内外相关理论研究现状的基础上,针对已有方法存在的不足,提出从作者主题分布的语义层面以及合作关系的拓扑结构层面,并兼顾考虑科研人员同属于多个社区的情况,扩展学术领域社区发现的思考视角,构建了基于作者主题相似度的社区发现算法ATW-COPRA。该方法的核心思想为:通过作者主题模型得到作者主题概率分布,计算作者间主题相似度,并将其作为复杂网络社区发现算法COPRA社区隶属度划分的判别条件,降低社区划分过程中的随机性,使社区划分结果有效提升。
  为了验证算法ATW-COPRA的有效性及准确性,本文以COPRA作为实验结果比较的基准算法,从模块度、参数对算法效果的影响、算法运行时间等角度对比分析,并选定生物医学工程领域为目标领域进行实证研究,对该领域的作者分布、主题分布、社区与主题关联关系以及社区间主题相似性进行可视化及分析讨论。通过对实验结果的分析,本文得出如下结论:基于作者主题相似度的社区发现方法具有良好的模块度,在保证时间效率的前提下提高了社区发现结果的精确性。同时,对于生物医学工程领域等前沿、交叉、新兴领域,虽然其部分研究主题会受到科技手段、人类伦理认知等因素的制约,但只要突破瓶颈,其新兴主题会快速促使新的社区结构形成,推动科技创新。因此,把握领域社区结构及主题分布,对支撑科技战略情报工作的实践、科技决策者的学科发展谋划布局、科研人员选题与合作指导均具有一定参考价值。
  本文所提出的方法创新之处在于在关注合作关系的同时,从科研人员自身科研产出出发,挖掘其不同时间段内的研究主题,摆脱了引用角度的语义挖掘所带来的信息误差。在此基础上,引入多社区隶属度的概念使得社区发现结果更为精准地还原实际情况。该方法完善了现有社区发现的考量维度,弥补了已有方法的不足,为社区发现提供新思路。
其他文献
邓之诚(1887-1960)是近现代著名学者,他以史学研究闻名于世,而他在文献学领域取得的成就,丰富而全面,亦是一位当之无愧的文献学家。本文通过对邓之诚生平及著述的全面考察,从他的藏书、题跋、版本学、目录学、文献整理与刊布、历史编纂学、史料学、文史考证等方面切入,综合探讨他的文献学思想、实践方法和治学成就。  邓之诚既深受中国传统学术浸染,又有新式教育背景,在治学过程中,强调史料文献的基础作用,讲
学位
领域知识结构的构建是一种跟踪领域研究进展,对领域知识进行体系化组织的重要形式和手段。在当前科研学术交流的范式向数字学术和开放科学加速转变的趋势下,科学数据、科学工作流、科学软件、实验视频、研究报告等非正式知识成果、以及各种正式及非正式知识产出的关联融合形成的各类新型复合学术对象,其学术价值和地位不断得到提升;不仅如此,关于学者、学术机构、科研项目、学术媒体等科研学术信息也日益成为支持科研活动开展的
研究前沿(Research Front)通常被认作是某时期内最具发展潜力的新兴研究领域或研究主题。作为科研资助部门、科研管理人员和科研主体重点关注的情报信息,情报学领域针对研究前沿的相关研究一直热度不减,其中基于共被引方法聚类获得的研究前沿也催生了具有广泛社会影响力的研究前沿情报分析产品,如ESI研究前沿等。然而,采用这种共被引方法遴选出的研究前沿和核心论文必须在施引文献达到一定数量时才会被监测聚
学位
信息技术与科学研究的交互融合引发了科学数据的迅猛增长,促成了数据密集型科学发现的科研范式。数据不仅仅只是科研活动的产出,已成为科研创新的基本生产资料和基础保障,高质量的可循证评议的研究数据已经成为保证科研结果可验证、可分享、可重现的基础手段。  数据出版(Data Publishing或者Data Publication)是基于同行评议的数据发表机制,是数据传播共享的重要方式之一。但是,目前数据出
学位
科技创新是创新驱动发展战略的核心,要求有与之相适应的科技评价机制。人才是科技创新的第一资源,只有尊重创新的价值、激发各类人才的积极性和创造性,才能更好的实现创新驱动发展。因此,构建针对创新性人才的评价方法体系,就成为建立具有创新导向的科技评价机制的核心内容。国家创新驱动发展战略对创新性科研评价的现实需求,使得合理评价各类人才的创新能力成为管理学领域的重要课题。本文将评价科学家的视角从“影响力”转到
学位
学科馆员是图书馆服务发展到一定阶段产生的提供个性化、知识化、专业化服务的人员。学科服务是图书馆服务的浓缩、是图书馆服务的窗口,可以说学科馆员未来怎样发展很大程度上决定图书馆未来存亡与发展方向。新型学术交流模式下,用户的科研环境、教学环境、学习环境、交流环境乃至生活环境都发生了巨大变化,科研模式、科研工具、教学内容与工具等都发生了变革,这些变革带来用户需求变化。以用户需求为出发点和目标的学科服务必然
学位
在开放科学、数据密集型环境的驱动下,科学数据不再仅仅是原有实验的研究对象,也逐渐变为一种学术资源。新型的、数量急剧增长的科学数据资源,要如何进行使用与评价,是人们亟需解决的一个问题。为此,科学数据平台建设、科研评价等领域都不断进行着理论研究及实践工作,但针对通过科学数据本身建立的、有效且定量评价指标较少。中国在大力建立国家科学数据基础条件平台的过程中,也缺乏着有效的科学数据评价指标,尤其是缺乏科学
学位
在新的信息数字化和全媒体时代下,图书馆面临着用户需求、信息行为多样化以及新技术冲击带来的挑战。借助营销服务宗旨、理念和方式,结合图书馆业务流程和用户服务特点,探寻用户需求、构建用户关系、推广服务活动、扩大服务影响,以及创造服务新的增长点等营销内容开展研究和实践,已成为图书馆界提升服务质量、自身价值和影响力,进一步推动图书馆服务创新发展的热点研究课题之一。因此,本研究工作将从以下五个方面开展:  (
学位
随着计算机和信息技术全面融入社会生活,信息的发布、传播、获取途径变得多种多样,世界上充斥着比以往更多的信息,使得大数据技术和机器学习技术快速发展,也为开放科学创造了良好条件。面对开放科学环境中共享的海量科研信息,科研人员的需求也从广泛获取转为个性选择。为了向研究员提供高质量检索结果,以及精准、个性化的智能知识服务,各信息服务机构将知识图谱技术应用于大规模、异质多元、组织结构松散的科技大数据,构建学
在数字化发展的大环境下,移动互联网、社交媒体、虚拟现实、互动体验、人工智能、大数据及数据可视化等更加广泛和深入地对科学传播模式产生影响。智能互动式展览契合了新媒体环境下科学博物馆的阶段性变化,创新了科学传播方式,增强了对公众的吸引力,但因受各种限制因素的影响,普及度不高,需要让公众更加理解和认识科学博物馆智能互动式展览。本文从用户对科学博物馆智能互动式展览的接受意愿研究出发,意在研究影响用户使用智