论文部分内容阅读
随着社区问答网站、社交博客等社交媒体的广泛普及,大量用户创建出越来越丰富的文本信息,同时也面临较为严重的信息过载问题,恰当的内容标签有助于用户更准确地获得期望的信息。然而,统计发现互联网上超过50%的在线内容缺乏恰当的标签,甚至没有标签。而手工方式标签标注不仅费时费力,还面临诸多挑战:一方面,用户往往缺乏专门的知识,难以标注合适的标签;另一方面,面对内容庞杂的在线文本,用户标注的标签往往不够全面和准确。因此,如何自动地为在线文本推荐合适的标签成为了一个迫切需要解决的问题。目前主流的文本标签推荐方法可分为两类:一类是文本关键词抽取方法,其基本假设是将标签看作文本中的关键词,此类方法在预测过程中需要大量计算开销,难以适用在线的文本标签推荐任务;另一类是文本主题分析方法,其基本假设是将标签看作文本主题,此类方法忽略了标签往往是一类很重要的词,导致其预测准确率通常低于前一类工作,但此类方法的预测效率较高。我们在后者研究工作的基础上,考虑了标签词及其相关词频繁出现于对应文本的特点,给出了一个新的文本主题模型,并以此为技术核心给出了一个通用文本标签推荐框架,最后基于上述框架和技术实现了一个文本标签推荐原型系统。本文的主要工作包括:1.提出了一个面向在线文本编辑系统的自动化标签推荐框架,该框架首先对文本系统的数据进行获取和预处理,之后基于词向量技术获取已有标签的相关词数据,再利用标签和相关词训练标签预测模型,最后基于模型预测新文本的标签。该框架提供了一种通用的解决方案,可为各种在线文本系统提供个性化的文本推荐支持。2.提出了一个LLDA的扩展模型SimWord,建模了标签及其相关词与对应文本中词的共现关系,并给出了若干简化版本,在StackOverflow等真实数据集上的实验结果表明,SimWord及其简化模型较同类工作有更好的预测准确率和更高的预测效率。3.基于上述技术与框架,实现了一个面向StackOverflow网站的文本标签推荐原型系统,初步展示了本文所提框架与技术的合理性。