论文部分内容阅读
Web2.0的兴起吸引了越来越多的用户为网站上传内容,在线问答网站是具有代表性的Web2.0网站之一,用户发布自己的问题,网站把这些问题分配给领域内的专家来解答。由于问题来自于用户,且多为非结构化的文本,因此问答网站要求用户为问题提供标签。然而用户在标注标签时有自己的理解和需求,导致即使对同一个问题,被标注的标签也会各式各样。 因此研究者提出通过标签推荐来引导用户标注高质量的标签,这对于问答网站尤其重要,因为该类网站需要通过精准的标签描述问题,从而迅速找到能够解答问题的专家。本文从问题内容出发,提出一个实时的标签推荐框架,解决现有方法效率不高的问题,同时也能准确的推荐标签。 该框架分为三大模块,标签抽取,标签扩展和标签排序。标签抽取是指从文本中抽取标签,本文提出了四个分类器,分别负责从标题内容中抽取标签,正文内容中抽取标签,代码块中抽取标签,单词重组作为标签,利用这些分类器,评估文本中的单词和词组为标签的概率;标签扩展是指找出没有在文本中出现的相关标签,本文使用单词到标签的图模型来扩展标签,由于单词到标签矩阵的稀疏性以及标签热度的不均匀,所以利用随机森林框架对文本进行聚类,在聚类之后的子空间内建立相应的图模型,从而能有效地推荐长尾标签。标签排序模块对标签抽取和标签扩展模块中得到的候选标签排序,本文提出了多个排序函数,从标签的相关度,质量,层次性三个角度评估候选标签,生成最终的标签推荐列表。 从实验结果可知,本文提出的标签推荐框架充分利用了问题文本数据,可以进行实时标签推荐,不仅具有较高的召回率,而且给予高质量的标签更高的权重。