论文部分内容阅读
交流在科学研究领域中起着至关重要的作用。现实中的期刊、学术会议等形式为学者们提供了交流的渠道;在网络上,需要这样一个平台,任何对学术感兴趣的人都可以在这个平台上自由地交流科研心得,形成共同兴趣小组,有条件地共享学术资源等。高等学校博士学科点专项科研基金“协作式科技论文网络共享平台”(编号20070001073)支持的PKUSpace项目,就为上述目标而设计了一个Web2.0的科研交流平台。用户可以在PKUSpace上管理自己的论文空间,共享阅读笔记,发现相似的用户,检索资源以及获得相关资源的推荐。
随着时间的推移,Web2.0的社会标注系统中已经累积了一个超大规模的标签数据集合。由于社会标注数据规模的指数级增长,所有的用户都面临了同样一个问题:如何在这么大规模的标签集合中有效地浏览到我们需要的资源?
目前,社会标注系统使用的是两种传统的资源组织模式:基于关键词简单匹配的方式和标签云视图方式。这两种方式都只能在较小的数据集中很好地运行,对于大规模的标签数据集并不适用,并且不能挖掘计算中标签和资源之间的语义关系,也不能提供与查询词语义相关的标签及其关联的资源。
为了克服上述困难,本文主要通过计算标注资源数据集中标签-标签、标签-资源和资源-资源之间的共现关系来研究标签和资源之间的语义联系。本文设计了一个有效的资源组织和浏览方式,创新之处主要体现在以下几点:
1)设计定义了标签-标签、资源-资源、标签-资源的三个相似度计算公式,较好地解决了标签资源之间的相似性的度量问题;
2)提出了相似标签集合的概念,对特定查询标签进行了语义扩展,克服了传统资源组织模式的简单匹配问题;
3)综合考虑热门标签的高频出现次数和对文献资源的高覆盖率,设计实现了热门“标签-资源”视图模式,展示给用户最重要的标签和文献信息;
4)在文献相似性和标签语义扩展的基础上,设计实现了相关资源发现算法,增加了当前浏览文献的相关文献推荐功能。