论文部分内容阅读
Web2.0的主要特点是用户创造内容。社会标注系统因为具有入门低、操作灵活、简单易用等优点而逐渐成为Web2.0环境下的最热门应用。社会标注技术有助于提高信息检索的质量,使用户能更好地从海量Web资源中找出自己感兴趣的信息以及发现新的网络资源。社会标注体现的是标签的社会性,它是一种大众智慧的体现。然而,由于社会标注属于大众分类,用户标注行为的随意性以及不准确性造成了标签的质量(即标签的可信度)参差不齐,这一缺点削弱了标签在信息组织、分享、检索和发现中的作用。为了使社会标注能更好地服务于信息检索的相关研究及应用,提出了一种基于统计方法的社会标注可信度评价模型。首先分析并量化影响标签可信度的三个因素:标注用户的影响力、文档间的语义相似度、标签间的语义相似度。通过计算用户间具有相同标注行为的频度来量化用户的影响力;在向量空间模型的基础之上把文档表示成关键词向量,通过计算文档向量间的距离得出文档间的语义相似度;将标签表示成由用户信息以及资源信息两者组成的向量,向量间的距离即可视为标签间的语义相似度。在此基础上,建立一个融合上述影响因素的量化模型来计算标签的可信度。使用了三种方法来验证模型的准确性:标签排序、基于标签的文本分类以及基于标签的文本聚类。相比其它的标签排序方法,基于可信度大小的标签排序最接近人工排序结果。引入标签可信度量化模型的文本分类以及文本聚类聚类都能达到较好的效果。实验结果表明,本文提出的标签可信度评价模型是准确的,能有效提高基于标签的相关应用的效果。