论文部分内容阅读
随着Web2.0时代的到来,用户在互联网上发布信息的门槛变得越来越低,使得互联网上的信息量变得极其庞大。博客作为一种典型的Web2.0应用,以其简单、方便的使用方式吸引着越来越多的用户。在由博客所构成的博客空间中,由于用户可以根据兴趣发表文章记录自己的观点,阅读他人的文章并给出评论,使得博客空间中蕴含了大量的关于主题(或者兴趣)的信息。在这种情况下,用户从这些海量数据中获取自己想要的信息是非常困难的。因此,如何从这些海量博客数据中挖掘出对用户有价值的信息就变得十分重要。为此,本文研究了三个问题,主要研究内容包括以下几个方面:第一,本文在分析了现有关键词抽取算法依赖于外部资源和具体文本格式的局限性之后,提出了一种基于主题模型Latent Dirichlet Allocation(LDA)的博文关键词抽取算法,并通过与TFIDF和层次隐马尔科夫模型(HierarchicalHidden Markov Model, HHMM)的对比实验对该算法的有效性进行了验证,最后利用皮尔逊相关系数从关键词权重与其词频之间的线性相关程度这一角度分析了算法优越性的原因。第二,本文通过对四种典型聚类算法K-means、K-means++、AffinityPropagation和Markov Cluster的对比分析,优选出更适合于本文具体应用的算法Markov Cluster;并在此基础上,设计了一个三层算法用于对博客文章进行主题聚类,自动生成聚类结果的描述信息;最后通过对比实验对算法的有效性和稳定性进行了验证。第三,本文在传统链接分析的基础上,结合博客空间的具体特征——评论和转载现象,提出了一种融合评论和正文相似性信息的博客排序算法,并通过在两个真实博客数据集上的对比实验对该算法的有效性和稳定性进行了验证。结果显示,本文所提出的算法在Normalized Discounted Cumulative Gain(NDCG)指标下,与传统链接分析方法相比,分别获得了17%和29%的性能提升,同时具有比较好的稳定性。