论文部分内容阅读
自2004年被托马斯·范德·沃尔(Thomas Vander Wal)首次提出“Folksonomy”这一概念以来,Folksonomy知识组织模式被各种类型的资源网站用以组织架构网站资源。Folksonomy知识组织模式区别于其他传统知识组织体系,它是在现代开放语义网络环境下由用户个体自由参与标注,而并非由领域权威制定规则,因此表现出混沌离散的外在表象。也正是因为这一原因,在学术界也掀起了Folksonomy知识组织模式的研究热潮。目前的研究工作中,采用网络思维构建标签知识网络进行Folksonomy知识组织模式相关研究的方法已经被学术界接受并认可。由于Folksonomy知识组织模式采用社会化标注形式,因此相关的研究工作往往需要面临海量数据的处理。当面对巨量数据的分析研究时,在获得大数据思维带来的优势时,不得不同时考虑大数据所面临的“低价值”问题。毕竟开放的网络环境加上自由的社会化标注,使得Folksonomy知识组织模式中的社会化标签中充斥着大量的模糊的、歧义的、甚至错误的信息。一些相关的研究工作中往往由研究者自行设定阈值对数据进行筛选。尽管这种处理方式在一定程度上保障了数据的显著性和有效性,但同时也面临着其他问题。首先,阈值的设定缺少必要的理论保障。其次,根据阈值提取的数据与原始数据是否具有等效性。再次,当面临多个时段或多个类型问题的研究时是否具有可比性。因此,探索一种保障数据显著性的同时具有坚实的理论支撑,能够保障所提取的层次知识网络与原始知识网络等效,且具有一定可比性的层次知识网络提取方法成为学术界亟待解决的问题。本文采用德国Kassel大学的知识与数据工程小组架设与维护的系统BibSonomy为数据源,从中采集5组领域知识数据集。基于标签的同现关系,构建领域知识网络。对知识网络中关联关系的频度分布进行统计分析。在此基础上根据幂律分布与分形理论,基于知识关联频度设定阈值,提取知识层次网络。考虑到学术界的前期研究已经证实基于标签同现构建的领域知识网络的度分布具有幂律分布特征,而且网络具有小世界效应,因此研究中对所提取的层次知识网络主要从度值的幂律分布和网络小世界效应两个方面进行测试。研究结果表明,以知识关联频度为阈值提取的层次知识网络具有良好的幂律分布特征(无标度网络)和小世界效应,验证了层次知识网络与原始知识网络的等效性。因此,Folksonomy知识组织模式中,以知识关联频度为阈值提取的层次知识网络具有原始网络的整体性征。