论文部分内容阅读
随着互联网的蓬勃发展和Web2.0应用的兴起,用户已经成为互联网不可或缺的重要组成部分,用户产生内容已经成为互联网上最活跃、最受关注和最有价值的资源。用户产生内容源于真实世界,在很大程度上体现了用户的真实想法和感悟,具有较高的真实性。虚拟社区拥有数量最多的用户产生内容,因此,对虚拟社区和其内容进行挖掘具有理论意义和实用价值。本文的主要工作和创新成果包括以下几个方面:1.以虚拟社区为研究对象,讨论了虚拟社区的特点、结构和内容的组织方式,以及虚拟社区中话题的组成、结构和特征。对虚拟社区中的话题和主题的概念进行了区分,使用树形结构对话题进行表示,为后续研究奠定基础。2.提出基于结构信息的主题相关度算法。对话题中“跑题”现象的成因、特点以及对主题质量的影响进行了研究,提出用主题相关度评估主题中讨论内容与原主题的一致性。分别介绍了基于文本相似度算法的主题相关度算法和基于主题结构信息的主题相关度算法,通过实验对两种主题相关度算法进行比较。实验结果表明,本文提出的基于结构信息的主题相关度算法效果更好。3.提出多特征融合的分类方法。对互联网文本信息的多特征性进行了研究,充分考虑各项特征对于文本表现能力的差异。提出基于朴素贝叶斯分类算法的多特征融合的分类方法,并将方法应用于博客文章分类。实验结果表明,多特征融合的分类方法可以获得更高的准确率。4.在以上几点的基础上,提出了虚拟社区的话题提取、话题热度评估和话题意见挖掘方法,并将三者结合为一个整体,构建了虚拟社区热点话题意见挖掘模型。在话题提取方面,采用分类与聚类相结合的方法;在热度评估方面,提出从主题关注度、主题相关度和时效性三个方面综合评估主题的热度;在话题意见挖掘方面,通过对每个帖子的主观性、意见极性以及意见对象进行判断,最终得到用户对于话题的整体意见。实验结果表明,本文的话题提取方法准确率较高,热度评估结果与现实情况较为符合,意见挖掘结果在一定程度上能够反映用户对于话题的整体态度。因此,本文提出的热点话题意见挖掘模型是合理、有效的。