论文部分内容阅读
W.eb2.0开放的信息发布方式一方面极大地简化了信息的发布过程,令更多的信息可以更自由的在互联网上传播,另一方面也为如何有效的组织这些信息带来了问题。社会标注系统使用基于纯文本标签的方法分类信息,其简单性与便捷性获得了用户的认可,并成为了W.eb2.0时代最为重要的信息组织方式。然而受到其不受控制的本质的影响,社会标注系统的标注结果普遍存在着分类视角不一致、分类词汇不一致、分类结果不一致、分类结果冗余,分类结果不完备、分类使用不规范等多方面的问题。为了提升社会标注的质量,标签推荐作为一种社会标注辅助方法成为了相关领域研究的热点。标签推荐问题已经获得了广泛而深入的研究。科研人员提出了大量的标签推荐方法,并在很多实际的数据集上取得了良好的效果。然而,当前的标签推荐方法在一些关键的问题上仍旧缺乏深入的研究。首先,这些方法要么不关注标签的语义信息,要么采用基于外部语义源的语义描述方法。受到领域覆盖,概念定义角度,更新频率等方面的限制,外部语义源无法很好的适应大范围的社会标注应用。其次,这些推荐方法比较少关注对社会标注系统数据的有效预处理,无法为推荐算法提供一个有效的数据基础。最后,这些推荐算法在对推荐线索的利用以及用户个性化建模等方面还存在着不足。这些方面的问题限制了标签推荐的质量。针对上述问题,为了实现社会标注系统中高质量的标签推荐,本文进行了社会标注系统标签推荐方法研究。通过利用少见标签的明确语义及标签间的语义互标注,本文构建了标签的语义模型,为标签推荐提供了坚实的语义基础;通过识别并区分分类与主题标签、共识与非共识标签及研究基于关系的标签扩展,本文实现了社会标注数据的预处理,为标签推荐提供了数据基础。在这些工作的基础之上,本文研究融合多种异构对象分析的标签推荐方法,帮助解决社会标注系统数据稀疏、标签推荐线索不足的问题,并进一步研究了用户自主意识的建模方法,实现更加个性化的标签推荐。具体包括:(1)基于语义互标注的社会标注系统标签语义模型。以社会标注系统中具备明确同时具体语义的少见标签所具有的非共识语义信息为基础,利用标签之间的互标注现象作为语义的传播途径,建模了标签的语义信息,给出了问题的数学模型描述及模型的计算方法,并通过实验对算法的具体性能及参数的选取对算法的影响进行了分析,实现了对标签语义信息的有效建模。(2)社会标注系统标签数据预处理方法。针对标签主题覆盖能力不同的现象,研究了基于标签语义层次划分的分类标签与主题标签识别方法;针对用户对标签使用所形成的共识情况,研究了共识标签与非共识标签识别方法;针对资源标签分布不均匀,大量资源标签数量不足的问题,研究了基于对象关系的资源标签扩展方法。实验对各个方法的应用性能进行了基于经验的评估,验证了方法的可行性,为标签推荐提供了可靠的训练数据基础。(3)融合异构对象分析的社会标注系统标签推荐方法。针对社会标注系统中对象间关系普遍稀疏,无法为标签推荐算法提供充足线索的现实,研究了融合多种对象分析的社会标注系统标签推荐方法,通过引入其他类型的,具备稠密关系的对象补充了标签推荐的线索,给出了具体的概率系统模型描述、参数估计方法、模型推理方法以及模型的增量更新方法。实验对模型的性能进行了分析,并证明了相比其他方法,该方法可以有效的利用更多推荐线索,实现更高质量的标签推荐。(4)面向用户自主意识的社会标注系统标签推荐方法。针对当前标签推荐方法对用户对资源及标签的使用偏好建模不足的现状,研究基于用户自主意识的标签个性化推荐方法,通过明确的建模用户对资源的兴趣及用户对不同标签的使用习惯,实现了高质量的个性化标签推荐。实验表明该方法可以提供比其他评估方法更加个性化的推荐结果。