论文部分内容阅读
基于Topic的Blog的隐含社区发现为Blog的应用研究开辟了一个很有前途同时也具有相当挑战性的方向。随着Internet在人们生活中的广泛应用,Blog作为一种新型的网络媒介交流工具迅速的发展,它以其自身的独特的特点,深入到网络的每个角落,影响着主流媒体、政治等社会的各个方面。通过对Blog page的搜索虽然可以找到人们需要的Blog页面,但它在寻找人们讨论的Topic方面有很大的局限性,远远无法满足人们对Blog应用的真正需要,也无法发挥Blog自身所独有的功能,因此,通过对Blog网页的搜索,利用信息检索、数据挖掘、信息提取、自然语言处理技术进行Blog页面内容和Blog页面之间链接关系的解析,同时,也从Blog个人的行为和内容语言的表述特点进行研究、分析,探测、发现Blog上的言论、看法、观点对主流媒体和社会政治经济生活的影响,发现人们的兴趣及爱好、对某一类事物或产品的印象及其评价是什么,挖掘人们的潜在情感,所以,如何进行发现、探测、寻找互连网上潜在的、隐含的关于Blog的Topic社区就成为一个既有挑战性又有实际应用价值的课题。本文从理论探讨和实际系统开发两个不同的角度来对基于Topic的隐含社区发现进行了研究,主要完成了以下工作:1)提出了一种基于SPC方法的Topic隐含社区发现算法。首先从互联网上进行Blog page的爬行,利用种子URL进行种子URL的扩充并提取Blog page的内容,保存页面的特征,从Blog page的内容和Blog page之间的链接关系两个方面计算Topic和Blog page之间的相关度,本文在分析了相关研究资料的基础上,提出了一种计算Blog entry与Topic相关度的算法,同时,把SPC在图论中顶点权值和边的权值的理论方法的应用,引入到Blog社区隐含网络的探测和发现中,进行基于Blog的Topic的隐含网络的发现,并取得了比较满意的效果。试验结果表明社区的覆盖率和社区的粘合度都有明显的提高和改进。2)通过大量的试验分析了在Blog中隐含社区entry之间及BLOG链接指向之间的特点,探讨了它们对Blog隐含社区发现和探测的影响,同时,对特定Topic社区中的Blogger,从Topic的活跃度和重要度两个方面,根据各自的特征权值进行倒序排序,提取前10个结果,进行对比和分析Topic和Blogger的特征之间的关系、不同的Topic对Blogger的活跃度和重要度所产生的不同影响。3)将SPC算法对Topic隐含社区的分析应用于Blog搜索引擎的信息检索系统,自动的从互联网上进行Blog entry的数据采集和相应权值的计算,并在web检索界面以聚类的形式表示出来,结果表明对用户的查询请求,查询结果和相关度都有明显的提高和改进。