论文部分内容阅读
博客是一种基于RSS技术的信息交互平台,目前发展极为迅速。博客作者常常就感兴趣的话题发表文章、做出评论,对感兴趣的其他作者添加为好友,这些特征行为构成了潜在的博客社区。社区成员关注共同的话题、相互联系比较紧密。
博客社区发现指从博客站点发现潜在的社区,是一个很有研究意义和实用价值的研究课题。分析博客社区可以为社区内的成员推荐服务或推荐他们成为朋友来加强联系,在博客搜索引擎中能够提高检索结果的质量。博客社区发现面临巨大挑战,由于博客的高速发展使得现在博客的信息达到海量程度,不仅仅存在海量的文章,也存在大量的结构链接关系,如何从这海量的博客信息中准确、快速地发现高质量的博客社区变成了一个很有难度的问题。
本文在分析国内外研究现状的情况下,抽象出博客社区的四元组定义<T,M,C,s>,分别代表博客社区的话题集合、社区成员集合、核心博客集合、社区排名积分,设计了基于多特征(包括内容特征和结构特征)的博客社区发现方法:
·本文设计了基于多特征的社区话题和成员关系构建算法。采用聚类方法发现潜在的话题,分析链接得到关注话题的作者集合,基于好友信息分享确定成员集合,用二部图表示话题与成员的关系。
·本文设计了基于频繁模式的博客社区话题和成员的发现算法。从话题与成员关系中抽取关注1个话题的社区的T和M,在关注k-1个话题的社区基础上发现关注k个话题的社区(2<k<n)。
·本文设计了基于特征权值计算的社区核心博客抽取算法。通过计算博客文章的权值,进而链接分析计算博客权值,利用好友信息分享得到博客最终权值,然后进行排名,获取核心博客C和社区积分S。
在COMMIX系统中实现了博客社区发现子系统,博客社区发现算法能够快速、有效地发现潜在的博客社区,通过实践和实验分析,同其他的算法相比,本文算法具有较高的效率和准确率。