基于Topic的Blog隐含社区发现

来源 :太原理工大学 | 被引量 : 3次 | 上传用户:bujifangzong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于Topic的Blog的隐含社区发现为Blog的应用研究开辟了一个很有前途同时也具有相当挑战性的方向。随着Internet在人们生活中的广泛应用,Blog作为一种新型的网络媒介交流工具迅速的发展,它以其自身的独特的特点,深入到网络的每个角落,影响着主流媒体、政治等社会的各个方面。通过对Blog page的搜索虽然可以找到人们需要的Blog页面,但它在寻找人们讨论的Topic方面有很大的局限性,远远无法满足人们对Blog应用的真正需要,也无法发挥Blog自身所独有的功能,因此,通过对Blog网页的搜索,利用信息检索、数据挖掘、信息提取、自然语言处理技术进行Blog页面内容和Blog页面之间链接关系的解析,同时,也从Blog个人的行为和内容语言的表述特点进行研究、分析,探测、发现Blog上的言论、看法、观点对主流媒体和社会政治经济生活的影响,发现人们的兴趣及爱好、对某一类事物或产品的印象及其评价是什么,挖掘人们的潜在情感,所以,如何进行发现、探测、寻找互连网上潜在的、隐含的关于Blog的Topic社区就成为一个既有挑战性又有实际应用价值的课题。本文从理论探讨和实际系统开发两个不同的角度来对基于Topic的隐含社区发现进行了研究,主要完成了以下工作:1)提出了一种基于SPC方法的Topic隐含社区发现算法。首先从互联网上进行Blog page的爬行,利用种子URL进行种子URL的扩充并提取Blog page的内容,保存页面的特征,从Blog page的内容和Blog page之间的链接关系两个方面计算Topic和Blog page之间的相关度,本文在分析了相关研究资料的基础上,提出了一种计算Blog entry与Topic相关度的算法,同时,把SPC在图论中顶点权值和边的权值的理论方法的应用,引入到Blog社区隐含网络的探测和发现中,进行基于Blog的Topic的隐含网络的发现,并取得了比较满意的效果。试验结果表明社区的覆盖率和社区的粘合度都有明显的提高和改进。2)通过大量的试验分析了在Blog中隐含社区entry之间及BLOG链接指向之间的特点,探讨了它们对Blog隐含社区发现和探测的影响,同时,对特定Topic社区中的Blogger,从Topic的活跃度和重要度两个方面,根据各自的特征权值进行倒序排序,提取前10个结果,进行对比和分析Topic和Blogger的特征之间的关系、不同的Topic对Blogger的活跃度和重要度所产生的不同影响。3)将SPC算法对Topic隐含社区的分析应用于Blog搜索引擎的信息检索系统,自动的从互联网上进行Blog entry的数据采集和相应权值的计算,并在web检索界面以聚类的形式表示出来,结果表明对用户的查询请求,查询结果和相关度都有明显的提高和改进。
其他文献
图像融合能够将不同类型传感器获取的同一对象的图像数据进行空间配准。并且采用一定的算法将各图像数据所含的信息优势或互补性有机的结合起来产生新的图像数据。这种新数据
彩色图像融合可以将多幅具有不同信息量的彩色图像融合为一张彩色图像,并且这张图像具有更多的可靠信息可供使用,在机器视觉及特征提取等多个方面都具有广泛的意义。在本文中,我
本文以智讯通讯公司的MIIS(Multi-Information Integration System)信息系统集成项目为研究背景,采用Web Service的系统集成技术,解决当前公司多个信息系统协同应用能力不足的
当前,机动车数量的急剧增加给交通管理带来了许多的问题。为了解决这些交通运输管理的难题,智能交通系统应运而生,成为目前国际道路交通和运输科技研究发展的热点之一。智能交通
目前电能质量业界缺乏统一的数据格式和规范,数据格式千差万别、互不兼容,这非常不利于信息共享和应用集成。另一方面,传统的电能质量系统更倾向于直接操作本地数据库或监测设备来访问数据,耦合性很高,不够灵活,更不易于扩展。因此,如何统一基础数据管理平台、设计合理的数据格式、实现跨地域获取数据成为亟待解决的问题。在电力行业中,对于数据质量的要求越来越高。可是从当前的实际情况来看,电能质量系统采集的数据一旦出
手写体数字识别是光学字符识别技术(OCR)的一个分支,在文件资料自动录入、金融税务系统数据统计、图像文本的压缩储存、自动阅读器、盲人助读器等领域有着广阔的应用前景.本
临床实践指南(CPG)是一种依据医学文献库中摘录的医疗证据和领域中专家的共识创建的文档,旨在提高医护质量和减少不必要的开支。基于CPG的医疗辅助决策系统是一种推广临床实践
近年来,伴随着多媒体技术和计算机网络技术的飞速发展,全世界数字图像的容量正以惊人的速度增长,无论是军用还是民用设备,每天都会产生容量相当于数千兆字节的图像。而在这些数字
起源于信息隐藏技术的数字水印技术,为实现有效的知识产权保护提供了一条崭新的思路,近年来已成为多媒体信息安全研究领域的一个热点问题。纺织织物是日常必需的消费品,其品牌商
安全协议也称密码协议,是建立在密码体制基础上的高互通的消息交换协议,它运行在计算机通信网或分布式系统中,其目的是在网络环境中提供各种安全服务。安全协议是构建安全网络环