COMMIX系统中基于多特征的博客社区发现子系统的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:hechangying1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
博客是一种基于RSS技术的信息交互平台,目前发展极为迅速。博客作者常常就感兴趣的话题发表文章、做出评论,对感兴趣的其他作者添加为好友,这些特征行为构成了潜在的博客社区。社区成员关注共同的话题、相互联系比较紧密。 博客社区发现指从博客站点发现潜在的社区,是一个很有研究意义和实用价值的研究课题。分析博客社区可以为社区内的成员推荐服务或推荐他们成为朋友来加强联系,在博客搜索引擎中能够提高检索结果的质量。博客社区发现面临巨大挑战,由于博客的高速发展使得现在博客的信息达到海量程度,不仅仅存在海量的文章,也存在大量的结构链接关系,如何从这海量的博客信息中准确、快速地发现高质量的博客社区变成了一个很有难度的问题。 本文在分析国内外研究现状的情况下,抽象出博客社区的四元组定义<T,M,C,s>,分别代表博客社区的话题集合、社区成员集合、核心博客集合、社区排名积分,设计了基于多特征(包括内容特征和结构特征)的博客社区发现方法: ·本文设计了基于多特征的社区话题和成员关系构建算法。采用聚类方法发现潜在的话题,分析链接得到关注话题的作者集合,基于好友信息分享确定成员集合,用二部图表示话题与成员的关系。 ·本文设计了基于频繁模式的博客社区话题和成员的发现算法。从话题与成员关系中抽取关注1个话题的社区的T和M,在关注k-1个话题的社区基础上发现关注k个话题的社区(2<k<n)。 ·本文设计了基于特征权值计算的社区核心博客抽取算法。通过计算博客文章的权值,进而链接分析计算博客权值,利用好友信息分享得到博客最终权值,然后进行排名,获取核心博客C和社区积分S。 在COMMIX系统中实现了博客社区发现子系统,博客社区发现算法能够快速、有效地发现潜在的博客社区,通过实践和实验分析,同其他的算法相比,本文算法具有较高的效率和准确率。
其他文献
我国税务机关的个体税收征管,传统上是由税务人员主观评定纳税额。存在人为参与因素多、规范不细,不利于具体问题具体分析,规范的变化缓慢,不能适应市场经济发展的需要,严重制约着
Internet高速发展使人们越来越依赖于通过互联网获取各种信息,CNNIC的最新报告显示互联网第一入口是即时通信的比例是39.7%,看新闻则以20%居第二。新闻信息本身具有数量大、增长
随着经济活动的不断发展,人们对道路交通系统的依赖越来越强,交通拥堵(trafficcongestion)成为世界各大城市面临的严峻问题。近年来智能交通系统(IntelligentTrafficSystem,ITS)
细分曲面作为一种几何外形表示方法,具有交互直观、整体光滑、任意拓扑等优势,在影视特效、三维游戏和数字媒体内容创作等行业中得到了广泛的应用。细分曲面是递归定义的,这与当
如今,软件系统的复杂度越来越大,而对软件系统的可靠性、时效性的要求也越来越高。如何在保证软件产品质量的前提下有效控制产品的开发和维护成本,是企业提升市场竞争力的关键。
如今,随着计算机和互联网的蓬勃发展,给人类的生活带来了革命性的变化。而不论是计算机基础应用还是互联网,表示和查找已经成为大多数计算机应用的核心。BloomFilter是一种空间
近年来,随着传感器网络和RFID技术的发展,基于数据流的应用已经无所不在。数据流上的应用大多是监控型的,并且这些监控任务一般是简单事件的组合,但简单的数据流管理系统(DSMS)一
随着定位技术的普及和无线传输技术的发展,大量轨迹数据正以各种方式快速产生和收集起来,并被广泛用于基于位置的服务(LBS)、无人驾驶、动物行为研究、气象预测和城市规划等领
特征的表达和融合是计算机视觉算法中的两个重要部分。例如,在基于骨架的人体行为识别中,如何表达三维骨架的几何关系对于行为识别效果有至关重要的影响。然而很多现有的研究都
文本倾向性分析是自然语言处理一个十分重要的问题,在信息过滤,电子商务,观点搜索,自动问答等领域具有广泛的应用场景。 本文主要考察句子一级的观点自动抽取和倾向性自动识别