基于标签的文献组织和浏览子系统的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:XA1093815462
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
交流在科学研究领域中起着至关重要的作用。现实中的期刊、学术会议等形式为学者们提供了交流的渠道;在网络上,需要这样一个平台,任何对学术感兴趣的人都可以在这个平台上自由地交流科研心得,形成共同兴趣小组,有条件地共享学术资源等。高等学校博士学科点专项科研基金“协作式科技论文网络共享平台”(编号20070001073)支持的PKUSpace项目,就为上述目标而设计了一个Web2.0的科研交流平台。用户可以在PKUSpace上管理自己的论文空间,共享阅读笔记,发现相似的用户,检索资源以及获得相关资源的推荐。 随着时间的推移,Web2.0的社会标注系统中已经累积了一个超大规模的标签数据集合。由于社会标注数据规模的指数级增长,所有的用户都面临了同样一个问题:如何在这么大规模的标签集合中有效地浏览到我们需要的资源? 目前,社会标注系统使用的是两种传统的资源组织模式:基于关键词简单匹配的方式和标签云视图方式。这两种方式都只能在较小的数据集中很好地运行,对于大规模的标签数据集并不适用,并且不能挖掘计算中标签和资源之间的语义关系,也不能提供与查询词语义相关的标签及其关联的资源。 为了克服上述困难,本文主要通过计算标注资源数据集中标签-标签、标签-资源和资源-资源之间的共现关系来研究标签和资源之间的语义联系。本文设计了一个有效的资源组织和浏览方式,创新之处主要体现在以下几点: 1)设计定义了标签-标签、资源-资源、标签-资源的三个相似度计算公式,较好地解决了标签资源之间的相似性的度量问题; 2)提出了相似标签集合的概念,对特定查询标签进行了语义扩展,克服了传统资源组织模式的简单匹配问题; 3)综合考虑热门标签的高频出现次数和对文献资源的高覆盖率,设计实现了热门“标签-资源”视图模式,展示给用户最重要的标签和文献信息; 4)在文献相似性和标签语义扩展的基础上,设计实现了相关资源发现算法,增加了当前浏览文献的相关文献推荐功能。
其他文献
随着现代软件工程和开发技术的发展,SOA技术以其灵活高效的优势赢得了普遍的支持,并已经在分布式计算方面形成了一场革命。而另一方面人们逐渐进入了Web2.0时代,AJAX技术成为Web
为了实现磁共振快速成像,一种可行的方法是减少K空间数据的采集量。然而,基于欠采样K空间数据进行磁共振图像重建的问题是一个病态的反问题。由于压缩感知理论的出现,基于稀疏性
在本体构建和应用过程中,知识表示的正确性、表达性,以及是否可被共享和复用,将直接影响到对本体的正确应用。本体评价作为把握上述问题的必要手段之一,目前已经得到越来越多的研
随着数据挖掘技术的日益发展,数据隐私和信息安全逐渐引起人们的关注。如何保护私有信息或敏感信息在挖掘过程中不被泄露,已经成为数据挖掘研究中的一个很有意义的研究课题。
大数据时代,分布式文件系统存储服务面临巨大的压力与挑战,元数据管理技术是新型分布式文件系统实现可扩展性的关键因素,近年来受到了工业界和学术界的普遍关注。相比于数据,元数
近年来,计算机软件规模迅速扩张,软件功能日渐复杂,给开发健壮的软件系统带来困难。尤其在大型软件开发中,容易引入程序缺陷与错误。自动或半自动的程序缺陷探查工具,为开发者提供
随着互联网技术的普及和发展,人们的工作与生活越来越依赖于安全可靠的网络环境,为了能够实时掌握网络动态、保证网络正常高速的运转,网络管理员进行网络监测就非常必要。然而网
目前的很多搜索需求已经从通用搜索转向关注于主题的搜索,但互联网主题信息所占比例小、分散度高,传统的搜索策略由于缺乏有效的内容预分析和过滤,爬取的无关主题网页过多,成为限
为铁路旅客提供准确、便捷、丰富、及时的服务信息是树立铁路以人为本服务理念的具体表现,也是铁路信息化建设要实现的目标之一。通过在火车站的考察发现触摸查询技术的应用不
软件测试是保证软件质量和可靠性的一种重要技术。软件测试的开销在整个软件开发成本中占有重大比例,提高软件测试的效率对于降低软件成本具有重要的作用。在软件测试的过程中