一种基于监督主题模型的文本标签推荐技术研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:anchor1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社区问答网站、社交博客等社交媒体的广泛普及,大量用户创建出越来越丰富的文本信息,同时也面临较为严重的信息过载问题,恰当的内容标签有助于用户更准确地获得期望的信息。然而,统计发现互联网上超过50%的在线内容缺乏恰当的标签,甚至没有标签。而手工方式标签标注不仅费时费力,还面临诸多挑战:一方面,用户往往缺乏专门的知识,难以标注合适的标签;另一方面,面对内容庞杂的在线文本,用户标注的标签往往不够全面和准确。因此,如何自动地为在线文本推荐合适的标签成为了一个迫切需要解决的问题。目前主流的文本标签推荐方法可分为两类:一类是文本关键词抽取方法,其基本假设是将标签看作文本中的关键词,此类方法在预测过程中需要大量计算开销,难以适用在线的文本标签推荐任务;另一类是文本主题分析方法,其基本假设是将标签看作文本主题,此类方法忽略了标签往往是一类很重要的词,导致其预测准确率通常低于前一类工作,但此类方法的预测效率较高。我们在后者研究工作的基础上,考虑了标签词及其相关词频繁出现于对应文本的特点,给出了一个新的文本主题模型,并以此为技术核心给出了一个通用文本标签推荐框架,最后基于上述框架和技术实现了一个文本标签推荐原型系统。本文的主要工作包括:1.提出了一个面向在线文本编辑系统的自动化标签推荐框架,该框架首先对文本系统的数据进行获取和预处理,之后基于词向量技术获取已有标签的相关词数据,再利用标签和相关词训练标签预测模型,最后基于模型预测新文本的标签。该框架提供了一种通用的解决方案,可为各种在线文本系统提供个性化的文本推荐支持。2.提出了一个LLDA的扩展模型SimWord,建模了标签及其相关词与对应文本中词的共现关系,并给出了若干简化版本,在StackOverflow等真实数据集上的实验结果表明,SimWord及其简化模型较同类工作有更好的预测准确率和更高的预测效率。3.基于上述技术与框架,实现了一个面向StackOverflow网站的文本标签推荐原型系统,初步展示了本文所提框架与技术的合理性。
其他文献
多媒体教育是一种综合运用声音、文字、图像、动画、视频等多种媒体的现代教育技术。多媒体教学在现代教学中的好处及在化学教学中利用多媒体的方法。多媒体教学体现了现代教
自1999年初夏利在亚运村市场针对特别用户群体降价销售以来,"降价"和"价格战"这些词汇成了各种媒体谈及汽车时,运用最多的词汇.任何一款车型在任何一个环节的价格每一次变动,
期刊
学生党支部是高校中的基层党组织,是党密切联系学生的桥梁和纽带,加强学生党支部建设对加强学生的思想政治教育具有非常重要的意义。本文分析了高校党支部建设的重要性,提出了加
汽车工业是典型的规模经济,但是由于各种原因,中国汽车工业的发展并没有给规模经济添彩,相反却使人怀疑规模经济到底是否有效.企业经济效益主要取决于生产成本和产品销售价格
期刊
期刊
加强大学生的工程素质培养是高校教学的一个重要课题,以培养学生实践能力和创新能力为目标,提出了实践性教学体系的改革模式,对高校学生工程素质培养的各个环节的具体组织和
本文主要是中国联通烟台分公司解决实际业务开通时遇到的丢包故障。通过理论基础分析,发现了故障点,最终解决问题。