论文部分内容阅读
随着Web2.0的迅速发展,用户越来越多地参与到互联网的信息交互中,形成了以标签为代表的社会化标记等广泛应用。尽管围绕着标签应用进行的研究日益增多,标签应用的性能提升却遇到了瓶颈。从描述资源和分享信息的角度来讲,标签标注的准确性意义重大。在标签应用越来越广泛的今天,如何为资源自动生成准确的标签则成为了非常值得研究的课题。本文在分析当今标签研究领域特点和问题的基础上,以博客标签为研究点,提出了从不同标签类别的角度为资源自动推荐标签的方法。这一方法本着设计分类体系、对标签分类、判断博文缺失标签类别、对缺失类别进行标签推荐这一思路完成最终研究目的。首先从描述资源全面性考虑为标签设计特定分类体系,并以此分类体系作为研究基础。通过综合运用正则表达式抽取、词典识别、语义区分度计算等方式实现将博文标签由简单到复杂、逐类区分的一种快速高效的自动分类算法,将博文标签分类到本文设计的标签分类体系。为了实现类别的细化和主题含义区分,本文考察标签层次概念关系、标签间共现分布差异,并借助同层概念词典,将主题类标签细化为三层主题含义,从而为后续推荐精确的标签提供依据。其次通过从发布者及使用者两个角度考察单类别标签的分布规律以及多标签类别间关联分布规律,找出现有标签类别的相关性,并据此给出一个发现博文标签缺失类别的方法。最后根据博文缺失的类别为该类别推荐标签,并针对不同的推荐问题,提出基于文本相似度、基于文本自身属性以及基于层次关系这三种标签推荐方法。本文将通过实验验证标签分类算法的高速性及有效性,并通过实验过程获取标签分层过程的最佳阈值。对于标签推荐方法,本文将会从推荐标签的质量及推荐后的应用价值两方面给出实验论证,证明标签推荐方法有助于帮助用户生成更准确的标签,形成更全面的资源描述及实现更广泛的应用价值。