论文部分内容阅读
随着互联网的繁荣发展,互联网用户数目急剧增加,用户生成内容愈发庞杂,如何有效管理海量的用户数据变得愈发重要。社区问答系统是目前十分流行的用户生成内容型应用。标签系统作为管理海量用户生成内容的重要工具,也是目前社区问答系统的一个重要子系统。社区问答系统的问题内容是一种常见的社会化短文本,短文本具有包含信息少、特征稀疏的特点,这导致传统的文本处理方法往往无法有效适用于短文本处理场景。本文通过深入研究社区问答系统以及标签系统,提出了利用外部知识库构建图模型的标签生成方法、采用文本聚集和词组发现的标签生成方法和基于相似度推荐的标签生成方法。社区问答系统的发展是一个用户逐渐聚集的过程。在社区问答系统早期,用户提出的问题较多而回答的内容较少;当用户数目逐渐增多,问题页面的回答内容逐渐变多;当社区问答系统发展繁荣时,用户数目众多且问题类型丰富,标签体系趋于稳定且新增标签比例较低,社区问答系统中的标签可复用比例较高。首先,本文提出了一种利用外部知识库构建图模型的标签生成方法,此方法通过引入维基百科作为外部知识库来构建词语之间的相似度矩阵,再将相似度矩阵引入到TextRank模型从而改进TextRank模型进行标签生成。此方法将维基百科的每个词条作为主题,通过各个词语在主题的分布来衡量各个词语之间的相似度,从而构建相似度矩阵。此方法只需要社区问答系统中的问题文本内容即可进行标签生成,可以有效应用于社区问答系统页面内容不够丰富的场景中。当社区问答系统中的问题页面内容较为丰富时,基于社区问答系统中的问题内容与答案内容具有高度的相关性的假设,本文提出了一种采用文本聚集和词组发现的方法进行标签生成。此方法通过扩大生成标签的覆盖率从而提高标签生成的效果。首先,此方法通过对标签体系进行深入挖掘得到标签构成规则,将此标签构成规则作为先验知识,然后通过文本聚集合并问答对,对聚集后的文档利用标签构成规则、点互信息和左右信息熵进行词组挖掘,最后进行标签生成。此方法不仅生成词语还生成词组作为标签,从而提高了生成标签的覆盖率。此方法需要社区问答系统中的问题文本内容和答案文本内容,适合于社区问答系统中页面内容较为丰富的场景。最后,当社区问答系统中的标签体系逐渐稳定时,新增标签比例较低,且标签可复用比例高。针对于此,本文提出了一种基于相似度推荐的方法用于标签生成。此方法采用文本聚集合并问答对作为独立文档的方法,通过计算文档之间的相似度找出目标文档的top-m个相似文档,将相似文档的标签聚合作为标签候选集,通过标签再排序找出目标文档的top-n个标签作为标签推荐。此方法引入主题模型对特征空间进行降维,从主题层面来计算文档之间的相似度。此方法不生成新的标签,通过对标签的复用从而进行推荐进行标签生成。此方法需要社区问答系统中的问题文本内容和答案文本内容,适合于社区问答系统中内容丰富且标签体系趋于稳定的场景。