论文部分内容阅读
Blog是一种基于RSS技术的信息交互平台,它是一种作者与读者以日志风格进行交互的中介,是一种崭新的信息传播和交互方式。与传统的网络信息相比,Blog领域链接关系更加丰富,Blog作者间交互更加频繁,Blog为用户在互联网上发布信息和进行交互提供了方便。随着Blog的迅速发展,信息量的膨胀和信息源的无限增加也给互联网用户查找自己所关心的信息带来了不便。另一方面,Blog作者通过阅读或评论等行为与其感兴趣事件的Blog日志撰写者进行交流,从而围绕这个事件形成很多潜在的社区,如何发现这些社区并分析社区成员之间的关系已成为一个亟待解决的社会学问题。本文综合考虑Blog的内容特征和链接特征,提出了事件驱动的Blog社区发现方法。由于事件是动态发展的,因此事件相关的社区也是不断发展的,本文在Blog社区发现的基础上,对Blog社区演变追踪技术进行了深入研究,提出了一种基于结构的社区演变追踪算法。为了发现社区,本文对基于事件的Blog关系计算方法进行研究,实现了一种双向意识关系计算模型,该模型从社会学角度定义Blog间的关系,并计算Blog关系强度。然后对事件驱动的Blog社区发现进行研究,采用一个基于Blog排序的聚类算法,该算法选取影响力较强的Blog作为种子,然后计算Blog与种子之间的关系数,递归扩展形成以种子Blog为中心的社区。事件是动态发展的,使得事件相关的社区也是动态发展的,本文在社区发现的基础上,对Blog社区演变追踪技术进行了研究,提出一种基于结构的社区演变追踪算法,该算法根据社区演变过程中核心成员比较稳定的原理,分别计算两个时间段社区的核心成员,如果核心成员的交集非空,则判定两个社区具有演变关系。基于以上的研究成果,本文设计并实现了一个事件驱动的Blog社区的发现和演变追踪的实验原型系统,包括了数据解析、关系计算、社区的发现和演变追踪等模块,为进行相关的算法实验和研究提供了一个平台。